Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Niemiec rozlicza się z niemiecką historią i jej fałszowaniem: Dobry Panie, miej kiedyś miłosierdzie, takie jakie mają Polacy tylko u nas
Niemiec rozlicza się z niemiecką historią i jej fałszowaniem: Dobry Panie, miej kiedyś miłosierdzie, takie jakie mają Polacy

Wczoraj obchodziliśmy rocznicę inwazji Niemiec na Polskę 1 września 1939 roku. Kanclerz Niemiec Friedrich Merz nie pokusił się nawet o rocznicowego tweeta, wieniec od niemieckiego rządu pod ustawionym niedawno "kamieniem" w Berlinie podłożył nieznany bliżej człowiek w roboczych butach i krótkich spodenkach, a politycy Koalicji 13 grudnia pisali rocznicowe posty tak żeby nie użyć słowa "Niemcy". Dziś publikujemy tekst Niemca, który prosił nas o zachowanie anonimowości - "Z perspektywy Niemca. Teoretycznie tego złego".

Strzelał do wychodzących z firmy pracowników. Szokujące sceny w Rawiczu z ostatniej chwili
Strzelał do wychodzących z firmy pracowników. Szokujące sceny w Rawiczu

53-letni mężczyzna ukrywając się w samochodzie oddał kilkanaście strzałów w kierunku osób wychodzących z terenu zakładu pracy. Został aresztowany – poinformowała we wtorek policja w Rawiczu.

Wrogowie Zachodu jednoczą się przeciwko Donaldowi Trumpowi tylko u nas
Wrogowie Zachodu jednoczą się przeciwko Donaldowi Trumpowi

Takiej demonstracji siły wrogów i państw krytycznych wobec handlowej dyplomacji USA jeszcze nie było. Najpierw szczyt Szanghajskiej Organizacji Współpracy, potem szczyt Rosja-Chiny, wreszcie – zaplanowana na środę – wielka wojskowa defilada w Pekinie. To sygnał, że takie państwa, jak Rosja, Chiny i – to najważniejsze – Indie, nie zamierzają ulegać presji Donalda Trumpa, ani w sprawie wojny na Ukrainie (Władimir Putin), ani w sprawie relacji handlowych (Xi Jinping i Narendra Modi). I co z tym zrobi prezydent USA?

Donald Trump pojawił się po dłuższej przerwie. Specjalne oświadczenie z ostatniej chwili
Donald Trump pojawił się po dłuższej przerwie. Specjalne oświadczenie

Prezydent USA Donald Trump po raz pierwszy od tygodnia pojawił publicznie w Gabinecie Owalnym w Białym Domu. Wygłosił specjalne oświadczenie ws. Sił Kosmicznych USA.

NFZ wydał pilny komunikat z ostatniej chwili
NFZ wydał pilny komunikat

Od 25 sierpnia 2025 roku więcej szczepień w aptekach. Za podanie szczepionki zapłaci NFZ – informuje w komunikacie Narodowy Fundusz Zdrowia.

Atak nożownika w Marsylii. Media: Recytował fragment Koranu z ostatniej chwili
Atak nożownika w Marsylii. Media: Recytował fragment Koranu

W Marsylii na południu Francji mężczyzna uzbrojony w nóż i pałkę zaatakował i ranił pięć osób, jedna jest w stanie krytycznym – poinformowały media i prokuratura. Do ataku doszło we wtorek po południu; napastnik groził interweniującym policjantom i został zabity przez funkcjonariuszy.

Komunikat dla mieszkańców Warszawy z ostatniej chwili
Komunikat dla mieszkańców Warszawy

W 2027 roku wprowadzony zostanie nowy Warszawski System Biletowy – poinformował Zarząd Transportu Miejskiego w Warszawie.

Sikorski po rozmowie z Rubio. Zdradził, o czym rozmawiali z ostatniej chwili
Sikorski po rozmowie z Rubio. Zdradził, o czym rozmawiali

Zabiegałem, by USA, będąc prezydencją grupy G20 w 2026 r., zaprosiły nas do tego grona – oświadczył we wtorek szef MSZ Radosław Sikorski tuż po rozmowie z sekretarzem stanu USA Marco Rubio.

Trump nie przebierał w słowach: To światowa stolica morderstw z ostatniej chwili
Trump nie przebierał w słowach: To światowa stolica morderstw

Prezydent USA Donald Trump nazwał we wtorek Chicago "światową stolicą morderstw" i zapowiedział, że szybko rozwiąże problem przestępczości w tym mieście.

Tam powinno być zabezpieczenie. Andrzej Duda ujawnił kulisy wypadku, w którym stracił palec z ostatniej chwili
"Tam powinno być zabezpieczenie". Andrzej Duda ujawnił kulisy wypadku, w którym stracił palec

Były prezydent Andrzej Duda po raz pierwszy szczegółowo opowiedział o wypadku, w wyniku którego stracił fragment palca. W rozmowie na kanale „Rymanowski Live” przyznał, że doszło do tego podczas korzystania z deski elektrycznej.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe