WAV: Inteligentne kierowanie residualne w głębokich transformerach

Zespół badawczy z arXivu przedstawił WAV v1, innowacyjne podejście do kierowania połączeń residualnych w architekturze decoder-only Transformer. Tradycyjne połączenia residualne w modelach głębokich kumulują aktualizacje z przeważnie stałymi wagami, co może powodować nieoptymalne przepływy informacji. WAV v1 zmienia tę strategię, wprowadzając mechanizm wrażliwy na zawartość, który dynamicznie kieruje informacje na podstawie charakterystyki poszczególnych warstw.

Kluczowym ulepszeniem jest wykorzystanie wielorozdzielczego reprezentowania każdej warstwy bloku. Zamiast przechowywać tylko zagregowaną sumę zmian residualnych, WAV v1 wyposażona jest w dwie dodatkowe bazy kierunkowe: fazową, która rozróżnia aktualizacje pochodzące z mechanizmów attention i MLP, oraz podziałową, która kontrastuje zmiany wczesnych i późnych podwarstw. Te bazy są wspólnie kierowane przez ten sam mixer oparty na softmax, przy czym inicjalizacja z ujemnymi szczegółami i normalizacja RMS stabilizują proces trenowania.

Wyniki eksperymentów na zadaniach modelowania języka w zbiorach TinyStories i Text8 wykazują wyraźne korzyści zależne od głębokości modelu. W konfiguracjach z 24 warstwami metoda osiąga poziom konkurencyjny, a w modelach 48-warstwowych wyraźnie przewyższa dotychczasowe podejścia, redukując stratę walidacji o 0,49 w stosunku do wcześniejszych metod Block AttnRes. To jest szczególnie istotne dla trenowania bardzo głębokich transformerów, gdzie tradycyjne metody часто napotykają trudności w optymalizacji przepływu gradientów.