Naukowcy zaproponowali nową metodę GQLA (Group-Query Latent Attention), która optymalizuje proces dekodowania LLM poprzez adaptacyjny mechanizm attention dostosowujący się do dostępnego sprzętu. Technika zmniejsza użycie pamięci i przyspieszenia obliczenia bez znaczącej straty jakości. Rozwiązanie ma praktyczne znaczenie dla wdrażania dużych modeli w zasobach ograniczonych i urządzeniach brzegowych.
Badania
arXiv CS.LG