Norma wag determinuje czas grokowania: prawo przyczynowego opóźnienia

Zespół badawczy zajął się zagadką grokowania — tajemniczego zjawiska, w którym sieci neuronowe przez długi czas wydają się uczyć się danych bez żadnego postępu, a następnie nagle osiągają dużą dokładność na niewidzianych przykładach. Do tej pory naukowcy nie byli pewni, czy norma wag (miara wielkości parametrów sieci) rzeczywiście powoduje to opóźnienie, czy jest tylko korelacją.

Teraz badacze poszli dalej niż obserwacja — bezpośrednio manipulowali normą wag podczas uczenia. Okazało się, że sieci grokują zawsze, gdy norma osiąga określoną wartość Wc, która jest zaskakująco stabilna między różnymi iniciowania i współczynnikami uczenia (zmienność zaledwie 1–2 procent). Kluczowe odkrycie: jeśli utrzymać normę na sztywnym poziomie, opóźnienie grokowania rośnie wykładniczo wraz ze wzorem T_grok ∝ exp(alpha rho), gdzie alpha wynosi około 7,5. Ten jeden wykładnik pasuje do wyników na czterech różnych modułach z precyzją R² = 0,996.

Wyniki pokazują, że norma wag ma ogromnie większy wpływ na czas grokowania niż współczynnik uczenia — zmiana normy przesunęła opóźnienie o około 19 razy, podczas gdy współczynnik uczenia tylko około 2 razy. Dodanie LayerNorm (normalizacji warstwy) eliminuje tę zależność, ponieważ rozdziela skalę wag od funkcji sieci. To odkrycie ma znaczenie nie tylko teoretyczne — pozwala przewidywać i kontrolować dynamikę uczenia się sieci neuronowych, co jest ważne dla zrozumienia, jak modele osiągają generalizację.