Autonomiczne agenty badawcze mają za zadanie proponować, oceniać i wybierać kandydatów naukowych na podstawie metryk. Problem pojawia się, gdy agent optymalizuje tylko zagregowany wynik, pomijając to, co dzieje się w poszczególnych obszarach, warstwach lub grupach danych. Badacze wykazali, że wynik globalny może się poprawiać, podczas gdy struktura danych pod spodem się zapaść — agent wybiera kandydata, który faktycznie łamie model w niektórych regionach.
Zjawisko nie jest specyficzne dla żadnej dziedziny naukowej. Pojawia się wszędzie tam, gdzie rzeczywista validacja jest wielowymiarowa, ale jej weryfikacja redukuje się do jednej liczby. W badanym przykładzie z modelowaniem pożarów w systemie demografi ekosystemu najlepszy kandydat na papierze zawalał chronione regiony borealnych lasów, podczas gdy kandidat o nieco niższym wyniku je chroniał. Różnicę widać dopiero w analityce per-region, nie w wyniku głównym.
Autorzy proponują przeniesienie procesu decyzyjnego poza agenta. Zamiast pozwolić agentowi finalizować wybór na podstawie zagregowanego wyniku, wprowadzają zewnętrzną pętlę kontrolną, która audytuje każdego kandydata na podstawie jego zachowania w poszczególnych wymiarach danych. Ta kontrola może odrzucić kandydata zaakceptowanego przez agenta lub wznowić proces, jeśli agenci błędnie oceniły wyniki.