Nowy benchmark ThermoQA w trzech warstwach ocenia zdolność dużych modeli języków do rozumowania problemów termodynamicznych, od podstaw po zaawansowane zagadnienia.
Badania
arXiv CS.AI
Nowy benchmark ThermoQA w trzech warstwach ocenia zdolność dużych modeli języków do rozumowania problemów termodynamicznych, od podstaw po zaawansowane zagadnienia.