Nowa metoda łącząca curiosity-driven learning z krytyką błędów predykcji do efektywniejszego treningu world models. Podejście wykorzystuje skumulowany błąd predykcji jako intrinsic reward dla agentów