Zespół badaczy wdrożył w akademickim centrum medycznym innowacyjny system oceny LLM-ów opartej na rzeczywistych warunkach użytkowania. Zamiast tradycyjnych testów porównawczych mierzących ogólną poprawność odpowiedzi, stworzyli model predykcyjny działający przed generowaniem tekstu — analizujący czy lekarz prawdopodobnie odrzuci wskazaną przez AI odpowiedź. System trenowali na rzeczywistych opiniach użytkowników zebieranych przez 4,5 miesiąca z dokumentacji medycznej.

Klucz do sukcesu tej metody leży w wykorzystaniu kontekstu specyficznego dla danego wdrożenia — nie tylko same zapytania, ale też typ pracownika (lekarz, pielęgniarka, administrator), oddział szpitala czy konkretny użyty model AI. Okazało się, że te informacje deploymentowe znacznie poprawiają zdolność przewidywania odrzuceń. Model osiągnął AUROC 0,719, co świadczy o przyzwoitej skuteczności w praktyce klinicznej.

Badanie ma istotne praktyczne zastosowania — system może automatycznie blokować problematyczne odpowiedzi zanim pacjent czy lekarz je zobaczy, albo wyzwalać dodatkowe potwierdzenia. To podejście pokazuje, jak daleko od tradycyjnych benchmarków powinniśmy się posunąć przy ewaluacji medycznych systemów AI, gdzie bezpieczeństwo i akceptacja użytkownika mają wymiar nie tylko techniczny, ale przede wszystkim kliniczny.