Badacze opracowali pierwszy kompleksowy benchmark do ewaluacji zdolności AI agentów do syntezy naukowych wniosków na podstawie wielu źródeł. SciConBench zawiera 9,1 tys. pytań i wniosków napisanych przez ekspertów, pochodzących z przeglądu systematycznego badań naukowych. Ewaluacja przeprowadzona na 8 czołowych modelach i zaawansowanych agentach badawczych pokazała, że obecne systemy radzą sobie słabo — najlepszy agent osiągnął faktyczne F1 zaledwie 0,337.

Co szczególnie istotne, zespół odkrył znaczące braki w metodologii oceny modeli. Wprowadzili SciConHarness — czysty pokój ewaluacyjny, który daje agentom kontrolowany dostęp do sieci, aby uniknąć wycieków danych. Okazało się, że bez takich restrykcji modele pokazywały znacznie lepsze wyniki — sugerując, że wiele obecnych benchmarków zawyża rzeczywiste możliwości AI.

Audit konsumenckich agentów AI, takich jak Google AI Overview czy OpenEvidence, ujawnił kolejny problem: systemy często generowały niekompletne, a czasem sprzeczne wnioski nawet wtedy, gdy prawidłowa odpowiedź była dostępna w źródłach. To jest szczególnie niepokojące w kontekście wysokiej stawki decyzji medycznych czy zdrowotnych, gdzie każdy błąd może mieć konsekwencje.