Direct Preference Optimization poza chatbotami

Direct Preference Optimization stał się popularną techniką do trenowania chatbotów na podstawie tego, czego wolą ludzie, ale badania pokazują że jego potencjał sięga znacznie dalej. Hugging Face i zespoły badawcze wykazały, że DPO sprawdza się równie dobrze w zadaniach takich jak streszczanie tekstu, odpowiadanie na pytania czy tłumaczenie maszynowe — czyli wszędzie, gdzie można zbierać ludzkie preferencje dotyczące wyników modelu.

Do tej pory trenowanie modeli za pomocą preferencji człowieka wymagało dodatkowego "reward model" — osobnej sieci neuronowej, która uczyła się oceniać odpowiedzi. To komplikowało proces i wymagało dodatkowych zasobów. DPO eliminuje ten krok, ucząc model bezpośrednio z par odpowiedzi oznaczonych jako lepsze lub gorsze. To prostsze podejście okazuje się działać niezawodnie niezależnie od typu zadania.

Co to znaczy praktycznie? Organizacje mogą teraz łatwiej dostrajać duże modele do swoich konkretnych potrzeb, korzystając z preferencji zespołu czy użytkowników. Nie muszą już inwestować w budowanie oddzielnych reward modeli czy szukać specjalistycznych rozwiązań dla każdego problemu. DPO staje się elastyczną, uniwersalną metodą, którą można zastosować do tekstu, wizji czy innych modalności — wszędzie tam, gdzie można uzbierać informacje o tym, która wersja wyniku jest lepsza.