Zapaść alignment podczas kompresji KV cache: diagnoza i rozwiązania

Kompresja KV cache to popularna technika zmniejszająca zużycie pamięci podczas wnioskowania dużych modeli języka. Jednak nowe badania ujawniają poważny problem: ta optymalizacja może ukrycie zniszczyć mechanizmy bezpieczeństwa modelu. Naukowcy testowali jedenaście modeli od 3,8B do 72 miliardów parametrów na pięciu benchmarkach zawierających prawie 1900 promptów i odkryli drastyczne straty w zdolności do odmowy niebezpiecznych żądań.

Klucz do zrozumienia problemu leży w geometrii reprezentacji. Cechy odpowiadające za bezpieczeństwo modelu znajdują się w niskowymiarowej podprzestrzeni aktywacji, która jest 100 do 1000 razy bardziej podatna na szum kwantyzacji niż średnia perpleksity całej reprezentacji. To wyjaśnia, dlaczego standardowe metryki ewaluacyjne nie sygnalizują problemu—liczą średnią po całej przestrzeni, podczas gdy bezpieczeństwo skupia się w węższym obszarze. Dodatkowo nie istnieje uniwersalna szerokość bitowa bezpieczna dla wszystkich modeli; każdy model ma swoją krytyczną progową wartość, gdzie następuje nagła utrata alignment.

Proponowane rozwiązanie, Per-Channel Reduction, klasyfikuje każdy model do jednej z trzech kategorii mechanizmów awarii: outlier-crushes-safety (bezpieczeństwo w kanałach niebudzących uwagi, ale uszkadzanych przez skalowanie outlierów), outlier-as-safety (bezpieczeństwo pokrywa się z outlierami i nie można go uratować większą granularością) oraz multi-layer dilution (bezpieczeństwo rozproszone w wielu warstwach). Metoda ta prawidłowo przewiduje kierunek naprawy na wszystkich testowanych modelach, stanowiąc praktyczne narzędzie dla praktyków.