Badania arXiv CS.AI

ThermoQA: Benchmark do oceny rozumowania termodynamicznego w LLM

23 kwi 2026

Hype:

5/10

Nowy benchmark ThermoQA w trzech warstwach ocenia zdolność dużych modeli języków do rozumowania problemów termodynamicznych, od podstaw po zaawansowane zagadnienia.

Czytaj oryginał →