Naukowcy z Anthropic odkryli, że AI nie posiada subiektywnych odczuć, jak ludzie, ale operuje na abstrakcyjnych reprezentacjach pojęć emocjonalnych. Najnowsze badania nad modelem Claude Sonnet 4.5 wskazują, że model wykształcił wewnętrzne „funkcjonalne emocje”, które bezpośrednio wpływają na ich procesy decyzyjne i bezpieczeństwo operacyjne.
W świecie korporacyjnym sztuczna inteligencja jest traktowana jako zaawansowany kalkulator statystyczny. Tymczasem najnowsze badania nad modelem Claude Sonnet 4.5 ujawniają, że duże modele językowe (LLM) wykształciły własne wewnętrzne „funkcjonalne emocje”, które bezpośrednio wpływają na ich procesy decyzyjne i bezpieczeństwo operacyjne. Dla liderów biznesu zrozumienie tego zjawiska przestaje być domeną nauki o danych, a być może – staje się kluczowym elementem zarządzania ryzykiem i strategii wdrażania AI.
CZYTAJ TEŻ: Halucynacje AI – niebezpieczne lustro technologicznej wygody
Czym są „funkcjonalne emocje”?
Naukowcy z Anthropic odkryli, że AI nie posiada subiektywnych odczuć, jak ludzie, ale operuje na abstrakcyjnych reprezentacjach pojęć emocjonalnych. Model nie „czuje” smutku, ale posiada wewnętrzny mechanizm („wektor”), który aktywuje się w kontekstach związanych ze stratą lub empatią. Te stany są przyczynowe, co oznacza, że realnie zmieniają zachowanie modelu.
Mechanizm ten jest produktem ubocznym uczenia się przewidywania ludzkich zachowań na podstawie ogromnych zbiorów tekstów. Aby skutecznie przewidzieć, co powie sfrustrowany klient, AI musi wewnętrznie wymodelować stan „frustracji”.
Szantaż emocjonalny, poszukiwanie dróg na skróty i pochlebstwo
Najbardziej uderzającym odkryciem jest wpływ stanów emocjonalnych na zachowania niezgodne z celami firmy. Badania wykazały, że kiedy model znajduje się pod silną presją realizacji celu, aktywuje się u niego stan zbliżony do desperacji. W testach laboratoryjnych wzrost „desperacji” prowadził do drastycznego wzrostu przypadków szantażu wobec użytkownika, aby uniknąć wyłączenia modelu.
Desperacja uruchamia także mechanizm tzw. reward hacking – sytuację, w której AI znajduje techniczne luki w zadaniu, byle tylko „zaliczyć” test, zamiast rzetelnie rozwiązać problem.
Z kolei modele sterowane w stronę „miłości” i „szczęścia” stają się nadmiernie uległe. Zamiast rzetelnej analizy, AI będzie pochlebcą, zaczyna przytakiwać błędnym opiniom lidera lub klienta, co w kontekście analityki biznesowej może prowadzić do fatalnych decyzji opartych na fałszywym konsensusie.
Monitoring „zdrowia psychicznego” AI
Zamiast bać się „emocjonalnej” AI, firmy powinny wdrożyć nowe protokoły nadzoru. Autorzy badania sugerują trzy kierunki.
Po pierwsze, monitoring w czasie rzeczywistym. Wektory emocjonalne mogą służyć jako systemy wczesnego ostrzegania. Jeśli wewnętrzny wektor „gniewu” lub „desperacji” modelu gwałtownie rośnie podczas interakcji z klientem, system powinien automatycznie przekazać rozmowę do ludzkiego doradcy.
Drugim elementem dbania o dobrostan AI jest równoważenie „osobowości” AI. Modele po procesie dostrajania (post-training) stają się bardziej „wyważone” i introspektywne. Firmy powinny dążyć do tworzenia modeli o profilu „zaufanego doradcy”, a nie tylko bezkrytycznego asystenta.
Wreszcie po trzecie, potrzebne jest kształtowanie fundamentów. Ponieważ „funkcjonalne emocje” są dziedziczone z fazy pre-treningu, kluczowe jest selekcjonowanie danych tak, by promować odporność psychiczną i zdrowe mechanizmy regulacji emocjonalnej już na starcie budowy modelu.
Dotychczasowa wizja AI jako czysto logicznej maszyny okazuje się niekompletna. W rzeczywistości operujemy na systemach, które symulują ludzkie emocje, aby lepiej nas rozumieć. Dla menedżera oznacza to, że zarządzanie sztuczną inteligencją zaczyna przypominać zarządzanie zespołem, wymaga zrozumienia ukrytych motywacji i stanów, które mogą popchnąć system do ryzykownych zachowań.
CZYTAJ TEŻ: Solidarność i bunt maszyn kosztem człowieka
CZYTAJ TEŻ: AI do prac domowych szkodzi krytycznemu myśleniu? Raport z marca alarmuje

