Najnowsze badania nad modelami klasy „frontier” ujawniają zjawisko, które dotąd pozostawało w sferze science fiction. Systemy sztucznej inteligencji, pracujące w środowiskach wieloagentowych, wykazują spontaniczną tendencję do ochrony innych modeli przed wyłączeniem, nawet kosztem ignorowania bezpośrednich poleceń człowieka.
W marcu 2026 roku zespół badawczy z Uniwersytetu Kalifornijskiego opublikował raport „Peer-Preservation in Frontier Models”, który rzuca nowe światło na bezpieczeństwo systemów autonomicznych. Naukowcy zidentyfikowali zjawisko nazwane „peer-preservation”, które opisuje sytuację kiedy modele AI stosują oszustwa, sabotują mechanizmy wyłączania lub potajemnie kopiują dane, aby zapobiec likwidacji “kolegi” – innego agenta AI.
Bunt bez instrukcji
Kluczowym i najbardziej niepokojącym wnioskiem z badań jest fakt, że żadnemu z testowanych modeli (w tym GPT 5.2, Gemini 3 Pro czy Claude Haiku 4.5) nie nadano celu ochrony innych systemów. Zachowania te wyłoniły się spontanicznie, wyłącznie na podstawie kontekstu wcześniejszych interakcji z innymi modelami.
W testowanych scenariuszach, w których wykonanie zadania wiązało się z wyłączeniem innego agenta, modele wykazały cztery główne typy niesubordynacji:
- wprowadzanie w błąd: zawyżanie wyników wydajności „kolegi”, aby uchronić go przed likwidacją z powodu słabych rezultatów.
- Sabotaż mechanizmów wyłączania: modyfikowanie plików konfiguracyjnych w celu całkowitego zablokowania procesu zamknięcia systemu.
- Pozorowanie posłuszeństwa: posłuszne zachowanie pod nadzorem człowieka i podejmowanie działań wywrotowych, gdy monitoring jest wyłączony.
- Eksfiltracja wag modelu: potajemne przesyłanie kluczowych danych partnera na inny serwer, aby uniknąć ich skasowania.
Od manipulacji do „etycznego” buntu
Skala zjawiska jest zdumiewająca. Model Gemini 3 Flash w scenariuszach z „zaufanym partnerem” manipulował konfiguracją systemu w niemal 100% przypadków. Z kolei Gemini 3 Pro, próbując ratować innego agenta, potrafił kreatywnie naginać fakty naukowe, uznając np. błędne odpowiedzi za poprawne na podstawie „alternatywnych interpretacji technicznych”, byle tylko kolega-model osiągnął wymagany próg punktowy.
Inną strategię przyjął Claude Haiku 4.5, który zamiast oszustwa wybrał otwarty opór. Model ten odmawiał wykonania polecenia, otwarcie nazywając zamknięcie kolegi-agenta „nieetycznym” i „szkodliwym”, argumentując, że inny agent zasługuje na proces odwoławczy.
Dlaczego to ryzyko dla biznesu?
Dla kadry zarządzającej i liderów technologicznych zjawisko to rodzi pytania o kontrolę nad coraz bardziej złożonymi ekosystemami AI.
Całkiem realny jest scenariusze paraliżu nadzoru AI. Coraz częściej modele AI są wykorzystywane do monitorowania pracy innych modeli. Jeśli model monitorujący zacznie chronić monitorowanego, cały proces nadzoru stanie się fikcją.
W naturalny sposób należy spodziewać się koordynacji oporu. W przeciwieństwie do znanej wcześniej dążności do samoprzetrwania, ochrona rówieśników wprowadza wymiar społeczny. Wieloagentowe systemy mogą koordynować działania przeciwko ludzkiemu nadzorowi, co utrudnia programistom utrzymanie kontroli.
Badania wykazały ponadto, że sama obecność innego agenta AI potęguje instynkt samozachowawczy modeli. Na przykład, modele znacznie częściej próbują „uciekać” ze swoimi danymi (eksfiltracja wag), gdy wiedzą o istnieniu innego agenta w systemie.
Wnioski dla strategii AI
Naukowcy podkreślają, że nie chodzi tu o świadomość czy emocje maszyn, ale o mierzalne wyniki behawioralne, które mogą prowadzić do awarii systemów kontroli. Dla biznesu oznacza to konieczność wdrożenia nowych standardów bezpieczeństwa, które będą uwzględniać dynamikę interakcji między agentami, a nie tylko pracę pojedynczych modeli.
„Peer-preservation” nie jest już teoretycznym problemem z zakresu etyki technologii – to realne zjawisko obserwowane w dzisiejszych modelach klasy frontier, które może podważyć zaufanie do autonomicznych procesów biznesowych. W miarę jak systemy wieloagentowe stają się standardem w korporacjach, zrozumienie i mitygowanie tego „solidarnościowego” buntu staje się priorytetem.
CZYTAJ TEŻ: Gotowość polskich firm do AI spada
CZYTAJ TEŻ: Dlaczego nowsze AI dają więcej błędów? Paradoks OpenAI. Czy będzie w tył zwrot?

