Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Burza w „Na Wspólnej. Twórcy przygotowali niespodzianki dla widzów Wiadomości
Burza w „Na Wspólnej". Twórcy przygotowali niespodzianki dla widzów

W serialu „Na Wspólnej” niemal każda para przechodzi przez zdrady, konflikty i dramatyczne rozstania. Wyjątkiem wydawała się dotąd rodzina Żbików – pan Włodek i pani Maria. Okazuje się jednak, że w tym wątku jest jeszcze jedna para, którą fani mogą oglądać bez obaw.

Orban: Po wyborach rozprawimy się z Brukselą z ostatniej chwili
Orban: Po wyborach rozprawimy się z Brukselą

– Brukselska machina represji na Węgrzech nadal działa, ale po wyborach się nią zajmiemy – zapowiedział węgierski premier Viktor Orban w wygłoszonym w sobotę w Budapeszcie dorocznym orędziu o stanie państwa, mającym podsumować miniony rok.

Komunikat dla mieszkańców woj. dolnośląskiego Wiadomości
Komunikat dla mieszkańców woj. dolnośląskiego

W Karkonoszach panują trudne warunki do wędrówek: szlaki są śliskie, oblodzone, temperatura do minus 8 stopni Celsjusza, a widoczność ograniczona do 30 metrów – poinformowali w sobotę ratownicy Karkonoskiej Grupy GOPR.

Komisarz UE ds. obrony: Europejskie siły zbrojne powinny zastąpić wojska amerykańskie z ostatniej chwili
Komisarz UE ds. obrony: Europejskie siły zbrojne powinny zastąpić wojska amerykańskie

„Mówimy o siłach szybkiego reagowania o zdolności 100 000 lub 80 000, które powinny zastąpić siły amerykańskie” - mówił cytowany przez portal Politico komisarz UE ds. obrony Andrius Kubilius.

Awantura po meczu w Radomiu. Potrzebna była interwencja medyków Wiadomości
Awantura po meczu w Radomiu. Potrzebna była interwencja medyków

Mecz 21. kolejki Ekstraklasy w Radomiu zakończył się poważnym skandalem. Korona Kielce wygrała na wyjeździe z Radomiak Radom 2:0, ale po ostatnim gwizdku na murawie wybuchła bójka. W jej trakcie dyrektor marketingu Korony, Michał Siejak, został uderzony butelką w głowę i trafił do szpitala.

Burza w Polsce 2050. Posłanka opuszcza partię z ostatniej chwili
Burza w Polsce 2050. Posłanka opuszcza partię

Żaneta Cwalina-Śliwowska podjęła decyzję o opuszczeniu Polskę 2050. To efekt napięć, które w ostatnim czasie narastają w partii.

KE wstrzyma Polsce SAFE? Poseł KO: Wystarczy nie sprzeniewierzać się wartościom unijnym wideo
KE wstrzyma Polsce SAFE? Poseł KO: Wystarczy nie sprzeniewierzać się wartościom unijnym

„Wystarczy nie sprzeniewierzać się wartościom unijnym i zasadzie praworządności i nie będzie wtedy żadnego zagrożenia” - oświadczyła poseł Koalicji Obywatelskiej Dorota Łoboda w programie Moniki Olejnik na antenie TVN24 odnośnie do wstrzymania przez Komisję Europejską pieniędzy z programu SAFE.

Brytyjskie MSZ potwierdza: Nawalny został otruty z ostatniej chwili
Brytyjskie MSZ potwierdza: Nawalny został otruty

Rosyjski opozycjonista Aleksiej Nawalny został otruty w więzieniu, w którym zmarł w połowie lutego 2024 r. – poinformowało w sobotę w komunikacie brytyjskie ministerstwo spraw zagranicznych.

8-letni chłopiec ofiarą przemocy. Troje podejrzanych trafi do aresztu Wiadomości
8-letni chłopiec ofiarą przemocy. Troje podejrzanych trafi do aresztu

Rodzice zastępczy oraz ich 39-letni znajomy, którzy w piątek usłyszeli prokuratorskie zarzuty znęcania się ze szczególnym okrucieństwem nad 8-letnim chłopcem, na najbliższe 3 miesiące trafią do aresztu - zadecydował w sobotę Sąd Rejonowy w Zgierzu.

Popularny słodzik pod lupą naukowców. Niepokojące ustalenia Wiadomości
Popularny słodzik pod lupą naukowców. Niepokojące ustalenia

Erytrol, popularny zamiennik cukru dodawany do produktów „bez cukru”, może nie być tak obojętny dla zdrowia, jak dotąd sądzono. Najnowszy przegląd badań opublikowany 11 stycznia 2026 r. w „Annual Review of Medicine” wskazuje, że wysokie stężenie tej substancji we krwi może wiązać się z większym ryzykiem zawału serca i udaru.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane