Startup Together AI opublikował open-source'owo narzędzie OSCAR, które optymalizuje obsługę dużych modeli linguistycznych poprzez 2-bitową kwantyzację cache'u klucz-wartość. System uwzględnia znaczenie tokenów (attention-aware) i umożliwia przetwarzanie znacznie dłuższych sekwencji tekstowych przy mniejszym zużyciu pamięci. To rozwiązanie ma kluczowe znaczenie dla praktycznego wdrażania LLM w środowiskach z ograniczonymi zasobami.
Badania
MarkTechPost