Czy adaptacja poprzez sparsity jest lepsza niż LoRA?

Badacze apresentowali alternatywę dla LoRA (Low-rank adaptation), które jest popularną metodą efektywnego dostrajania dużych modeli neuronowych. Zamiast pracy z pełnymi macierzami, LoRA trenuje jedynie małe adaptacje, oszczędzając pamięć i moc obliczeniową. Zespół zaproponował jeszcze bardziej oszczędne podejście: wprowadzenie sparsity (rzadkości) do istniejących wariantów LoRA.

Hównie zaproponowane metody nazwane Cheap LoRA (cLA) i jej chained circulant wariantem (c3LA) działają poprzez trenowanie tylko jednego niskiego rangu, podczas gdy drugi jest ustalony lub randomizowany. To znacząco zmniejsza liczbę parametrów do nauczenia. Badacze sformalizowali teorię, wyprowadzając granice błędu uogólniania z perspektywy teorii informacji — co stanowi jeden z pierwszych takich wkładów w tej dziedzinie.

Empirycznie ocenili 11 różnych metod fine-tuningu na 10 wstępnie wytrenowanych modelach i 14 zbiorach danych. Analizując krajobrazy strat i widma macierzy, odkryli że ograniczenie adaptacji do rzadkiej, strukturalnej przestrzeni pozostaje konkurencyjne. To sugeruje że nie zawsze trzeba skomplikowanych podejść — czasem prostsze i tańsze metody osiągają porównywalne wyniki, co ma znaczenie dla praktycznego wdrażania AI w zasobach ograniczonych.