RateQuant: Optymalna kwantyzacja pamięci KV w precyzji mieszanej poprzez teorię rate-distortion

Naukowcy zaprezentowali RateQuant, nową metodę optymalizacji efektywności modeli transformatorowych poprzez inteligentną kwantyzację pamięci KV cache. Metoda wykorzystuje teorię rate-distortion do dynamicznego wyboru precyzji dla każdego tokenu, balansując między redukcją zużycia pamięci a zachowaniem jakości wyników. To rozwiązanie ma potencjał znacznie poprawić wydajność dużych modeli językowych, szczególnie przy obsługiwaniu dłuższych sekwencji i równoczesnych zapytań.