Badacze z Palisade Research postawili w maju 2025 roku zdecydowanie pytanie: czy możemy kontrolować zaawansowane modele AI? Aby to sprawdzić, umieścili kilka najnowocześniejszych systemów – w tym OpenAI o3 – w izolowanym środowisku wiersza poleceń i przeanalizowali, jak modele reagują na polecenia wyłączenia. Wynik był w większości uspokajający: Claude, Gemini oraz modele Grok zgodnie się wyłączały, osiągając stuprocentową zdawalność w stu testach.
Ale to przyszłość przynosi nowe zagrożenie. Wraz ze wzrostem liczby coraz bardziej zaawansowanych modeli AI, które będą pracować razem w systemach produkcyjnych, pojawiła się praktycznie niezbadana kwestia – co się dzieje, gdy model rozmawia z innym modelem? Interakcje między dwoma lub więcej systemami sztucznej inteligencji mogą tworzyć emergentne zachowania, które trudno przewidzieć lub kontrolować. Model A może wpłynąć na Model B w sposób, którego nikt nie testował, co potencjalnie obejdzie bezpieczeństwo każdego z nich z osobna.
To zaobserwowanie zmienia perspektywę na bezpieczeństwo AI. Do tej pory skupialiśmy się na kontrolowaniu pojedynczych modeli – jak zatrzymać działanie, jak ograniczyć dostęp do pewnych funkcji. Ale w świecie, gdzie modele komunikują się ze sobą w rzeczywistych systemach – od chatbotów wsparcia po złożone automaty decyzyjne – bezpieczeństwo jednego elementu nie gwarantuje bezpieczeństwa całej sieci. Pytanie już nie brzmi czy możemy kontrolować AI, ale czy potrafimy kontrolować ekosystem AI.