Zespół naukowców z arXiv opublikował pracę poświęconą krytycznemu problemowi w obsłudze diffusion language models w warunkach wysokiego obciążenia. Chodzi o to, że tradycyjne techniki cachowania kluczy i wartości (KV), sprawdzające się doskonale w klasycznych LLM-ach, po prostu nie działają w DLM-ach i obniżają dokładność modelu niemal do zera.
Przyczyna tkwi w fundamentalnej różnicy architektonicznej. Podczas gdy tradycyjne modele języka przetwarzają tokeny sekwencyjnie i mogą bezpiecznie cachować raz obliczone KV, diffusion models używają uwagi dwukierunkowej. To oznacza, że każdy token wpływa na wszystkie pozostałe tokeny w sekwencji, a zmiana jednego tokena wymaga przeprawa całego kontekstu. W momencie kiedy system próbuje zapamiętać (cachować) wspólny prefiks dla wielu zapytań, dane w cache bardzo szybko stają się nieaktualne i nieprawidłowe.
Nowa metoda bicache rozwiązuje ten problem przez dynamiczną identyfikację bezpiecznych warstw modelu, w których KV prefiksów faktycznie pozostają stabilne i mogą być bezpiecznie ponownie wykorzystane. Badania wykazały, że ta stabilność istnieje szczególnie w płytszych warstwach sieci. Głębokość tych warstw dostosowuje się automatycznie w zależności od tego, jaki procent tokenów stanowi wspólny prefiks dla danego zapytania. W praktyce rozwiązanie to drastycznie zmniejsza zbędne obliczenia i zwiększa przepustowość serwowania nawet o ponad 98%, jednocześnie utrzymując dokładność modelu na praktycznie niezmienionym poziomie.