Diffuzyjne modele językowe działają inaczej niż tradycyjne transformery — zamiast generować token za tokenem w jednym przejściu, iteracyjnie udoskonalają całą sekwencję. Problem w tym, że kiedy token zostanie zafiksowany, zmiana jest nieodwracalna. Badacze odkryli, że kompresja modelu poprzez post-training quantization (PTQ) łatwo może „przewrócić" te wczesne, kruche decyzje, powodując błędy, które będą się rozmnażać w dalszych etapach generowania.
FAIR-Calib to dwuetapowe podejście do rozwiązania tego problemu. W pierwszym etapie metoda analizuje pełnoprecyzyjny model, aby zidentyfikować krytyczne punkty decyzji i oceć ich stabilność. W drugim etapie dokonuje się kalibacji kolejnych warstw, starając się chronić te niestabilne decyzje przez specjalne ważenie funkcji błędu. Cały proces nie wymaga kosztownych pełnych symulacji diffuzji, co czyni go praktycznym.
Empirycznie metoda wypadła zdecydowanie lepiej od istniejących podejść — zmniejszyła liczbę błędów decyzji na granicy generowania i poprawiła ogólną jakość modelu. To ważne, bo pozwala kompresować dyfuzyjne LLM do czterech bitów bez znacznej straty na jakości, co ma znaczenie dla wdrażania tych modeli na urządzeniach o ograniczonych zasobach.