Naukowcy zaproponowali nowy meta-optymalizator wykorzystujący mechanizm self-attention do dynamicznego dostosowania wskaźników uczenia i weight decay dla różnych grup parametrów modelu. Podejście to umożliwia bardziej precyzyjną kontrolę procesu trenowania, dostosowując się do specyficznych charakterystyk poszczególnych warstw sieci. Metoda wykazuje potencjał do poprawy efektywności trenowania złożonych modeli głębokich.
Badania
arXiv CS.LG