Orchestra-o1: inteligentna orchestracja agentów dla wielu modalności

Orchestra-o1 to nowy framework do zarządzania zespołami agentów AI, które muszą pracować z wieloma rodzajami danych jednocześnie. Problem, który rozwiązuje, to fakt, że dotychczasowe systemy polegały na pojedynczych agentach lub były ograniczone do obsługi tylko jednej modalności — na przykład tylko tekstu albo tylko obrazów. W rzeczywistych scenariuszach trzeba często analizować tekst razem z wideo, obrazami i audio w jednym zadaniu.

Rdzeniem innowacji Orchestra-o1 jest ujednolicony mechanizm orchestracji, który potrafi świadomie rozkładać zadania w zależności od tego, z jakimi danymi ma do czynienia. System dynamicznie wyspecjalizowuje podagenty do konkretnych modalności, a następnie wykonuje wiele podtasków równolegle. To znacznie przyśpiesza przetwarzanie i poprawia jakość wyników — framework osiągnął 10,3% wzrost dokładności w porównaniu z dotychczasowymi najlepszymi rozwiązaniami.

Dodatkowym ważnym elementem jest nowa metoda uczenia maszynowego o nazwie DA-GRPO (decision-aligned group relative policy optimization), która trenuje wersję modelu o rozmiarze 8 miliardów parametrów. Ta niewielka wersja osiąga wyniki porównywalne z dużo większymi modelami, co ma praktyczne znaczenie — systemy takie będą łatwiejsze do wdrażania i tansze w użytkowaniu. Orchestra-o1 otwiera drogę dla bardziej autonomicznych i inteligentnych agentów zdolnych do rozwiązywania naprawdę złożonych, wielomodalnych problemów z rzeczywistego świata.