Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Poważny kryzys w rolnictwie. Unijny podatek CBAM odcina rolników od nawozów z ostatniej chwili
Poważny kryzys w rolnictwie. Unijny podatek CBAM odcina rolników od nawozów

„Egzekwowanie przepisów CBAM powoduje 80-procentowy spadek importu nawozów” - alarmują organizacje zrzeszające rolników i branżę spożywczą Copa-Cogeca. W ich ocenie skutkiem tego będzie poważny kryzys w rolnictwie.

Były minister energetyki Ukrainy z zarzutami prania pieniędzy i udziału w grupie przestępczej z ostatniej chwili
Były minister energetyki Ukrainy z zarzutami prania pieniędzy i udziału w grupie przestępczej

Były minister energetyki Ukrainy Herman Hałuszczenko usłyszał zarzuty prania brudnych pieniędzy i udziału w grupie przestępczej w związku z aferą korupcyjną pod kryptonimem „Midas” w sektorze energetycznym. Jej uczestnicy mieli otrzymać ponad 100 mln dolarów w gotówce.

Komunikat IMiGW. Oto, co nas czeka pilne
Komunikat IMiGW. Oto, co nas czeka

Jak informuje Instytut Meteorologii i Gospodarki Wodnej, przeważający obszar Europy będzie pod wpływem niżów z ośrodkami: nad Morzem Północnym, Rosją, Bałkanami. Tylko znad północno-zachodniej Rosji po Białoruś rozciągać się będzie rozległy wyż.

Zajączkowska: Von der Leyen oficjalnie wzywa do likwidacji prawa weta gorące
Zajączkowska: Von der Leyen oficjalnie wzywa do likwidacji prawa weta

„Von der Leyen oficjalnie wzywa do likwidacji prawa weta m.in. dla Polski w sprawach bezpieczeństwa” - alarmuje na platformie X eurodeputowana Ewa Zajączkowska-Hernik (Konfederacja).

Doradca prezydenta: SAFE niesie za sobą zagrożenie ustrojowe gorące
Doradca prezydenta: SAFE niesie za sobą zagrożenie ustrojowe

„SAFE ma ustanowić absolutne władztwo Komisji Europejskiej nad Państwami Członkowskimi za pomocą mechanizmu finansowego przymusu” – alarmuje na platformie X doradca prezydenta ds. europejskich dr Jacek Saryusz-Wolski.

Gratka dla miłośników astronomii. Nie przegap tego zjawiska Wiadomości
Gratka dla miłośników astronomii. Nie przegap tego zjawiska

W nocy z 24 na 25 lutego na niebie osiągnie szczyt aktywności rój meteorów Delta Leonidy. Choć nie należy on do najbardziej widowiskowych zjawisk astronomicznych, obserwatorzy mogą w sprzyjających warunkach wypatrzyć kilka „spadających gwiazd” w ciągu godziny.

Komunikat dla mieszkańców Torunia Wiadomości
Komunikat dla mieszkańców Torunia

W najbliższych latach w Toruniu powstaną setki nowych mieszkań komunalnych i społecznych. Toruńskie Towarzystwo Budownictwa Społecznego zapowiada realizację dużego programu inwestycyjnego na lata 2026–2028. Łączny koszt planowanych projektów to 256 892 066 zł, z czego prawie 199,5 mln zł ma pochodzić z rządowych i unijnych dofinansowań.

Wiadomość dla mieszkańców Warszawy Wiadomości
Wiadomość dla mieszkańców Warszawy

W poniedziałek 16 lutego od godziny 8:00 kierowcy i pasażerowie komunikacji miejskiej w Wawrze muszą przygotować się na zmiany w organizacji ruchu. W związku z modernizacją linii kolejowej nr 7 Warszawa Wschodnia Osobowa – Dorohusk kolejarze zamkną skrzyżowanie ulic Patriotów i Młodej.

„Omal nie umarłem”. Kazik Staszewski przerwał milczenie Wiadomości
„Omal nie umarłem”. Kazik Staszewski przerwał milczenie

Lider zespołu Kult Kazik Staszewski po kilku tygodniach milczenia zabrał głos w sprawie swojego stanu zdrowia. Muzyk ujawnił, że w grudniu przeżył dramatyczne chwile i do dziś nie wrócił do pełni sił.

IMGW wydał komunikat. Oto co nas czeka w najbliższym czasie Wiadomości
IMGW wydał komunikat. Oto co nas czeka w najbliższym czasie

Jak informuje Instytut Meteorologii i Gospodarki Wodnej, przeważający obszar Europy będzie pod wpływem niżów z ośrodkami: nad Morzem Północnym, Rosją, Bałkanami. Tylko znad północno-zachodniej Rosji po Białoruś rozciągać się będzie rozległy wyż. Większość obszaru Polski będzie pod wpływem klina słabego wyżu z centrum rozciągającym się południkowo od wschodniej Polski po północno-zachodnie krańce Rosji, jedynie zachód kraju znajdzie się w ciągu dnia pod wpływem zatoki niżu z ośrodkiem nad Morzem Północnym. Napływać będzie powietrze arktyczne, pod koniec dnia na południowym zachodzie zaznaczy się wpływ powietrza polarnego morskiego.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane