Harness-1: 20-miliardowy agent wyszukiwania trenowany uczeniem ze wzmacnianiem

Badacze z University of Illinois Urbana-Champaign oraz zespół Chroma opracowali Harness-1 — nowy agent wyszukiwania o 20 miliardach parametrów, który rewolucjonizuje podejście do retrieval augmented generation. Model trenuje się metodą reinforcement learning wewnątrz tzw. stateful search harness — struktury, która zarządza całym procesem wyszukiwania, od utrzymania puli kandydatów, przez kurację danych z tagami ważności, po tworzenie grafów dowodów i śledzenie weryfikacji.

To, co wyróżnia Harness-1, to inteligentna dystrybucja zadań. Architektura utrzymuje wszystkie procedury bookkeepingowe — czyli rejestrowanie, porządkowanie i walidację informacji — a policy (polityka decyzyjna) modelu uczy się optimalnie decydować, co wyszukać, co skurować, co zweryfikować i kiedy zatrzymać się z dalszymi poszukiwaniami. Dzięki temu podejściu agent nie zmarnuje zasobów na niepotrzebne kroki.

Wyniki są imponujące: średnie przywołanie curated recall na poziomie 0.730 przekłada się na pokonanie następnego otwartego modelu o 11.4 punktu i pozostaje zaledwie niewiele poniżej Claude'a Opus-4.6. Co kluczowe — wagi modelu i pełny kod harnesu są publicznie dostępne, co oznacza, że całe środowisko open-source może eksperymentować, iterować i budować na tej podstawie dalsze rozwiązania.