Badacze zbadali fenomen grokking (nagłe pojawienie się generalizacji) w dwuwarstwowych sieciach neuronowych, odkrywając dwa kluczowe mechanizmy: repulsję cech, gdzie neurony uczą się reprezentować różne aspekty problemu, oraz spektralne blokowanie, ograniczające możliwości sieci. Odkrycia mają znaczenie dla zrozumienia, jak sieci neuronowe najpierw memoryują dane, a następnie uczą się uogólniać. Wyniki mogą przyspieszyć postępy w interpretowaniu i optymalizowaniu głębokich modeli uczenia maszyno
Badania
arXiv CS.LG