Naukowcy przedstawili JobBench, nowy benchmark do ewaluacji agentów AI w realnych scenariuszach pracy. System mierzy zdolność autonomicznych agentów do wykonywania zadań zgodnie z ludzkimi preferencjami i instrukcjami. To jest ważne, ponieważ wraz z rozwojem bardziej zaawansowanych agentów AI potrzebne są narzędzia do weryfikacji ich bezpieczeństwa i alignment. JobBench może znacząco wpłynąć na rozwój bardziej wiarygodnych i kontrolowalnych systemów AI.