Automatycznie różniczkowalne sieci tensorowe (ADNTNs) do kompresji sieci neuronowych

Naukowcy z University of Edinburgh i innych ośrodków opracowali innowacyjną metodę drastycznego zmniejszania rozmiaru sieci neuronowych. Ich podejście, nazwane automatycznie różniczkowalnymi sieciami tensorowymi (ADNTNs), pozwala na zadziwiającą kompresję wag – od 2000 do 77000 razy w poszczególnych warstwach. Trik polega na zastąpieniu tradycyjnych macierzy wagowych hierarchią mniejszych tensorów połączonych nieliniowymi aktywacjami, które pracują razem, aby odtworzyć oryginalne wagi sieci. Całość trenuje się end-to-end za pomocą standardowego backpropagation, co czyni metodę praktyczną i elastyczną.

Badacze przeanalizowali trzy warianty architektury: sieć tensorową w postaci drzewa (TTN), jej rozszerzoną wersję z dodatkowymi modułami rozplątującymi (aTTN) oraz zaawansowaną MERA inspirowaną mechaniką kwantową. Co ważne, metoda zachowuje matematyczną strukturę i świadomość ograniczeń sprzętowych – badacze szczerze przyznają, że automatic differentiation nie eliminuje kosztu dużych macierzy pośrednich czy nieefektywnego porządku operacji, ale oferuje znacznie bardziej strukturalny i zoptymalizowany sposób niż podejścia ad-hoc.

Testy na klasycznych architekturach takich jak AlexNet i VGG-16 wykazały, że skompresowane modele utrzymują dokładność oryginalnych sieci, a w niektórych przypadkach ją nawet przewyższają. To podejście szczególnie obiecuje w kontekście wdrażania dużych modeli na urządzeniach brzegowych (edge computing) i zmniejszania kosztów obliczeniowych. Choć autorzy sami wskazują, że wyniki są raczej dowodem potencjału niż ostatecznym słowem, materia sugeruje, że ADNTNs to obiecująca droga łącząca rygorystyczne podstawy matematyczne z praktycznymi wymogami współczesnego deep learningu.