Badania arXiv CS.LG

Curiosity-Critic: Błąd predykcji jako wewnętrzna nagroda dla treningu modeli świata

22 kwi 2026

Hype:

6/10

Nowa metoda łącząca curiosity-driven learning z krytyką błędów predykcji do efektywniejszego treningu world models. Podejście wykorzystuje skumulowany błąd predykcji jako intrinsic reward dla agentów

Czytaj oryginał →