Czy model językowy może odkryć zero? Badanie zdolności do matematycznego odkrycia

Badacze z arXiv CS.AI postawili fundamentalne pytanie: czy modele językowe mogą samodzielnie odkryć pojęcie zera, nie ucząc się tego bezpośrednio z danych treningowych? Odpowiedź jest złożona i mówi wiele o obecnych ograniczeniach AI w matematycznym odkryciu.

W eksperymencie testowano modele wielkości GPT-2 na prostej arytmetyce jako studium przypadku. Okazało się, że nawet z pretrainingiem języka, modele nie potrafią niezależnie generalizować pojęcia zera w fazie testowania. To pokazuje, że sama zdolność do przetwarzania języka nie wystarczy do skoku myślowego potrzebnego do matematycznego odkrycia. Jednak obraz zmienia się dramatycznie po dostarczeniu modelom dodatkowego materiału szkoleniowego – po treningu na dziesiątkach lub setkach przykładów zawierających zero, modele wykazują znaczną poprawę.

Najważniejsze: language pretraining zmniejsza liczbę wymaganych przykładów treningowych o około 50 procent. To sugeruje, że zdolności językowe rzeczywiście mogą wspierać matematyczne odkrycia, działając jako rodzaj rusztowania poznawczego. Badanie ma implikacje dla budowy AI zdolnych do prawdziwego matematycznego odkrycia – wskazuje, że potrzebny jest balans między zdolnościami językowymi a ekspozycją na konkretne przykłady matematyczne. Przyczynia się do głębszego zrozumienia, jak modele mogą rozszerzyć swoją wiedzę poza dane treningowe, co jest kluczowe dla systemów aspirujących do awansu ludzkiej wiedzy matematycznej.