Naukowcy zaproponowali nową metodologię do oceny możliwości frontier modeli AI w warunkach otwartego świata, gdzie zadania nie są wcześniej znane systemom. Podejście to ma kluczowe znaczenie dla bardziej realistycznej oceny zaawansowanych modeli AI, ponieważ obecne benchmarki często nie odzwierciedlają rzeczywistych wyzwań. Wyniki mogą wpłynąć na sposób, w jaki inżynierowie oceniają postęp w sztucznej inteligencji i projektują następne generacje modeli.
Badania
arXiv CS.AI