Naukowcy z dziedziny sztucznej inteligencji przyjrzeli się dwóm fundamentalnym problemom związanym z wywoływaniem narzędzi przez agentów opartych na dużych modelach językowych. Z jednej strony chodzą im o to, jak prawidłowo mierzyć skuteczność tego procesu, z drugiej zaś jak efektywnie go nauczać. Okazało się, że ocena tego mechanizmu jest zaskakująco wrażliwa na różne techniczne detale, które nigdy nie trafiają do dokumentacji. Zmiany w losowym seedzie, sformułowaniu system promptu czy sposobie konstruowania sekwencji wieloturnowych mogą drastycznie wpłynąć na wyniki testów. To oznacza, że obecne rankingi na leaderboardach mogą być mniej wiarygodne niż byśmy chcieli, szczególnie gdy bada się interakcje wielokrokowe.
Na froncie wydajności badacze znaleźli konkretne marnotrawstwo w standardowym treningu ze wzmacnianiem (reinforcement learning). Problem tkwi w tym, że wiele wygenerowanych promptów nie dostarcza modelowi żadnych sygnałów uczenia, a sama optymalizacja polityki wymaga ogromnych mocy obliczeniowych. To oznacza, że duża część czasu i energii zużywanej w treningu idzie na nic.
W odpowiedzi na te ustalenia naukowcy zaproponowali dwie nowe techniki, które znacznie przyspieszają trening procesu wywoływania narzędzi. Co ważne, te metody osiągają znaczną redukcję czasu obliczeniowego bez pogorszenia ostatecznej wydajności modelu. Ich praca wskazuje na to, że aby mieć wiarygodne benchmarki AI i jednocześnie efektywnie uczyć agentów, musimy być znacznie bardziej pedantyczni w dokumentowaniu metodologii i bardziej mądrzy w alokacji zasobów obliczeniowych.