Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
USA przygotowują się na odwet Iranu. Kluczowe 48 godzin pilne
USA przygotowują się na odwet Iranu. Kluczowe 48 godzin

Administracja prezydenta Donalda Trumpa przygotowuje się na możliwy odwet Iranu po serii amerykańskich ataków wymierzonych w irańskie obiekty nuklearne. Jak podała telewizja NBC, według ekspertów najbliższe 48 godzin może być kluczowe dla bezpieczeństwa USA i ich sojuszników w regionie.

Kryzys podczas ćwiczeń NATO. Szwedzkim marynarzom zabrakło... kawy Wiadomości
Kryzys podczas ćwiczeń NATO. Szwedzkim marynarzom zabrakło... kawy

W trakcie tegorocznych ćwiczeń BALTOPS 2025, które odbywają się cyklicznie na Morzu Bałtyckim i są jednymi z najważniejszych manewrów NATO w tej części Europy, doszło do nietypowego, lecz znaczącego incydentu. Na pokładzie jednej ze szwedzkich łodzi podwodnych niespodziewanie skończyła się kawa.

Tusk wypowie wojnę prezydentowi o krzesło w NATO. Gabinet Andrzeja Dudy przewiduje czarny scenariusz Wiadomości
"Tusk wypowie wojnę prezydentowi o krzesło w NATO". Gabinet Andrzeja Dudy przewiduje czarny scenariusz

- Tusk zrobi wszystko, aby Nawrocki nie poleciał na kolejny szczyt NATO - stwierdził Marcin Mastalerek podczas rozmowy w "Śniadaniu Rymanowskiego".  - Mieliśmy taką wojnę z prezydentem po 2007 r. Była to wojna z Lechem Kaczyńskim - przypomniał szef Gabinetu Prezydenta RP.

Z Jemenu dotarła groźba odwetu na USA za atak na Iran. To kwestia czasu z ostatniej chwili
Z Jemenu dotarła groźba odwetu na USA za atak na Iran. "To kwestia czasu"

W niedzielny poranek 22 czerwca 2025 roku Stany Zjednoczone przeprowadziły serię zmasowanych ataków lotniczych na irańskie obiekty nuklearne. Celem operacji były trzy strategiczne lokalizacje: Fordo, Natanz oraz Isfahan.

Satelita zombie znów nadaje? Z kosmosu nadchodzą dziwne sygnały z ostatniej chwili
Satelita "zombie" znów nadaje? Z kosmosu nadchodzą dziwne sygnały

Australijskie radioteleskopy zarejestrowały dziwny sygnał. Po analizie okazało się, że nie pochodzi z dalekiego kosmosu, tylko z orbity okołoziemskiej. Sygnał przyszedł od starego, nieczynnego amerykańskiego satelity Relay 2.

Przeważająca większość wyborców Konfederacji i PiS pozytywnie o Karolu Nawrockim Wiadomości
Przeważająca większość wyborców Konfederacji i PiS pozytywnie o Karolu Nawrockim

Według najnowszego badania UCE Research dla Onetu przeważająca większość wyborców PiS i Konfederacji uważa, że Nawrocki będzie odpowiednim zwierzchnikiem sił zbrojnych. Po stronie wyborców PiS uważa tak 86,9 proc. ankietowanych, a wśród wyborców partii Sławomira Mentzena — 81,3 proc.

Komunikat Straży Miejskiej dla mieszkańców Warszawy z ostatniej chwili
Komunikat Straży Miejskiej dla mieszkańców Warszawy

W pierwszym tygodniu lipca Straż Miejska w Warszawie zaprasza dzieci po 10. roku życia na indywidualne egzaminy na kartę rowerową. Zostaną one przeprowadzane w bezpiecznej przestrzeni Miasteczka Ruchu Drogowego Straży Miejskiej w Warszawie przy ul. Sołtyka 8/10.

Niemcy masowo odsyłają migrantów do Polski. Dariusz Matecki odsłania szokujące kulisy fikcji na granicy z ostatniej chwili
Niemcy masowo odsyłają migrantów do Polski. Dariusz Matecki odsłania szokujące kulisy fikcji na granicy

Dariusz Matecki opublikował mediach społecznościowych dokument, który potwierdza, że Niemcy przerzucają na polską stronę cudzoziemców, którzy rzekomo mieli w naszym kraju występować o ochronę azylową, a faktycznie nigdy w polskim w systemie nie zaistnieli. Poseł alarmuje, że akcja jest realizowana na masową skalę.

TSUE odrzucił wniosek ws. 101-letniego weterana AK. Niemcy mogą być zadowoleni tylko u nas
TSUE odrzucił wniosek ws. 101-letniego weterana AK. Niemcy mogą być zadowoleni

Sąd Najwyższy złożył w Trybunale Sprawiedliwości UE wniosek o przyspieszony tryb rozpatrzenia sprawy blisko 101-letniego kpt. Zbigniewa Radłowskiego, żołnierza AK, uczestnika powstania warszawskiego i więźnia obozu Auschwitz. Chodzi o sprawę ciągnąca się od ponad dekady i dotyczącą pozwu oficera m.in. przeciwko niemieckiej telewizji ZDF. TSUE odrzucił prośbę SN, uznając, że wiek weterana nie jest wystarczającym powodem do przyspieszenia procesu. 

Informacje ws śmierci dziecka odebranego matce. Nowy komunikat policji Wiadomości
Informacje ws śmierci dziecka odebranego matce. Nowy komunikat policji

Dramatyczne wydarzenia rozegrały się 15 maja w Warszawie. Policja zatrzymała Magdalenę W., matkę trójki dzieci, w celu doprowadzenia jej do zakładu karnego po prawomocnym wyroku za oszustwa finansowe. Kobieta została zatrzymana w obecności dzieci – czteromiesięcznego Oskara, trzyletniej Leny i ich starszego brata.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe