Badacze z arXiv opisują BlendIn — framework wyrównywania LLM-ów w czasie generacji odpowiedzi. Problem jest prosty: istniejące metody biorą wskazówki z już wyrównanego modelu i je stosują, ale nie sprawdzają, czy te wskazówki są wiarygodne. Okazuje się, że skuteczność takich interwencji drastycznie się różni między modelami, a złe rady prowadzą do kolejnych, zbędnych interwencji i pogorszeniu wyników.

BlendIn zmienia podejście z binarnego (stosuj wskazówkę lub nie) na probabilistyczne mieszanie. Zamiast wybierać jedną ścieżkę, system tworzy hybrydową dystrybucję, która łączy wiedzę obu modeli. Kluczowa innowacja to quality-aware alignment — system automatycznie waży wkład każdego modelu na podstawie jego rzeczywistej niezawodności. Wiarygodne wskazówki dostają więcej wagi, nieudane są tłumione.

Ewaluacja pokazuje konsekwentne poprawy, a dla trudnych par modeli osiągnięcia wzrostu wydajności do 50 procent. Autorzy udostępnili kod, co otwiera drzwi dla dalszych eksperymentów. To ważne, bo inference-time alignment to taniejszy sposób na bezpieczeństwo modeli — działa tylko podczas generacji, bez przetreniowania. Taki hybrydowy podход może zmienić, jak radzimy sobie z wyrównywaniem coraz bardziej zdywersyfikowanych systemów AI.