Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Zatrzymano Ukraińca. Jest podejrzany o szpiegostwo z ostatniej chwili
Zatrzymano Ukraińca. Jest podejrzany o szpiegostwo

24-letni obywatel Ukrainy Bohdan K. podejrzany jest o działanie na rzecz obcego wywiadu. Według śledczych przekazywał zdjęcia i współrzędne obiektów krytycznych należących do wojska. Nie przyznał się do winy. Wyrażał poglądy prorosyjskie i podważał suwerenność Ukrainy.

Komunikat dla mieszkańców Dolnego Śląska z ostatniej chwili
Komunikat dla mieszkańców Dolnego Śląska

W czwartek, 23 października 2025 r., w godzinach pomiędzy 8 a 16, odbędą się prace serwisowe w tunelach drogowych na drodze ekspresowej S3.

Brutalny atak nożem na policjanta. Sąd zdecydował ws. Ukraińca z ostatniej chwili
Brutalny atak nożem na policjanta. Sąd zdecydował ws. Ukraińca

Sąd zadecydował o aresztowaniu 21-latka, obywatela Ukrainy, który podczas policyjnej interwencji w Katowicach zaatakował nożem jednego z funkcjonariuszy. Zranił go w okolice łokcia, przed poważniejszymi obrażeniami policjanta uchroniła kamizelka kuloodporna – podała w środę policja.

Prezydent Nawrocki jak James Bond, a Trzaskowski zaliczył wpadkę. Co za Shrek gorące
Prezydent Nawrocki jak James Bond, a Trzaskowski zaliczył wpadkę. "Co za Shrek"

Podczas gali XIX Międzynarodowego Konkursu Pianistycznego im. Fryderyka Chopina w Teatrze Wielkim w Warszawie pojawiła się para prezydencka – Karol i Marta Nawroccy. Pierwsza dama znów olśniła elegancją, a sam prezydent zebrał porównania do... Jamesa Bonda! Internauci nie kryli natomiast oburzenia na stylizacje prezydenta Warszawy Rafała Trzaskowskiego i szefa MSZ Radosława Sikorskiego. Zobacz zdjęcia.

Polska jest pełna dat historycznych. Czarzasty tłumaczy się z konwentu we Włocławku Wiadomości
"Polska jest pełna dat historycznych". Czarzasty tłumaczy się z konwentu we Włocławku

– Polska jest pełna dat historycznych – stwierdził Włodzimierz Czarzasty w odpowiedzi na pytanie Marcina Fijołka, który na antenie Polsat News przytoczył słowa szefa Solidarności Piotra Dudy na temat hańby, jaką okryła się Nowa Lewica, która zorganizowała konferencję przy tamie we Włocławku w rocznicę porwania i męczeńskiej śmierci bł. ks. Jerzego Popiełuszki.

CBOS ujawnia najnowszy sondaż. Polacy ocenili prezydenta, Sejm i Senat z ostatniej chwili
CBOS ujawnia najnowszy sondaż. Polacy ocenili prezydenta, Sejm i Senat

Nowe dane CBOS pokazują, że prezydent Karol Nawrocki utrzymuje silne poparcie społeczne – dobrze ocenia go ponad połowa Polaków. Sejm i Senat wypadają gorzej – większość badanych nie jest zadowolona z pracy parlamentu. Zobacz, jak zmieniły się notowania władz w październikowym sondażu.

KO chce zmienić Kodeks wyborczy. Podano szczegóły z ostatniej chwili
KO chce zmienić Kodeks wyborczy. Podano szczegóły

Partia Donalda Tuska chce zmienić Kodeks wyborczy. W środę przedstawiony został projekt ustawy wprowadzający dwie zmiany w przepisach – informuje serwis money.pl.

Polityk Platformy wygadał się. Wiadomo, jak będzie się nazywać partia po rebrandingu z ostatniej chwili
Polityk Platformy wygadał się. Wiadomo, jak będzie się nazywać partia po rebrandingu

Witold Zembaczyński ujawnił, że nowa partia, powstała z połączenia Platformy Obywatelskiej, Nowoczesnej i Inicjatywy Polskiej, będzie nazywać się Koalicja Obywatelska. Oficjalne ogłoszenie planowane jest na Krajowej Konwencji PO 25 października. Jak zapowiedział poseł, liderem ugrupowania pozostanie Donald Tusk, a w kierownictwie znajdą się również Barbara Nowacka i Adam Szłapka.

Andrzej Poczobut laureatem Nagrody im. Sacharowa Parlamentu Europejskiego z ostatniej chwili
Andrzej Poczobut laureatem Nagrody im. Sacharowa Parlamentu Europejskiego

Więziony dziennikarz i działacz polskiej mniejszości na Białorusi Andrzej Poczobut oraz gruzińska dziennikarka Mzia Amaglobeli zostali tegorocznymi laureatami Nagrody im. Sacharowa Parlamentu Europejskiego – poinformowała w środę przewodnicząca PE Roberta Metsola.

Strzały i pożar przed serbskim parlamentem z ostatniej chwili
Strzały i pożar przed serbskim parlamentem

Na terenie miasteczka namiotowego zwolenników władz, rozstawionego przed parlamentem Serbii, słychać było w środę strzały, po których kilka namiotów stanęło w ogniu – wynika z nagrań opublikowanych przez serbskich deputowanych. Media poinformowały o jednej rannej osobie i o zatrzymaniu jednego mężczyzny.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe