Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
„Ostatnie szlify nowej kancelarii”. Na kogo stawia Karol Nawrocki gorące
„Ostatnie szlify nowej kancelarii”. Na kogo stawia Karol Nawrocki

Trwają ostatnie przygotowania do inauguracji prezydentury Karola Nawrockiego. Jak zapowiedział jego rzecznik Rafał Leśkiewicz, w ciągu kilku dni prezydent elekt Karol Nawrocki przedstawi skład swojej kancelarii,

Nowy komunikat IMGW. Oto co nas czeka pilne
Nowy komunikat IMGW. Oto co nas czeka

Przed nami upalny dzień, miejscami będzie nam towarzyszyło odczucie duchoty, które od samego rana będzie niekorzystnie wpływać na ogólne samopoczucie. IMGW wydał też ostrzeżenia przed silnymi burzami z deszcze i gradem, które nawiedzą zachodnie województwa.

Co dalej z koalicją? Polacy powiedzieli, co sądzą [sondaż] z ostatniej chwili
Co dalej z koalicją? Polacy powiedzieli, co sądzą [sondaż]

Według badania przeprowadzonego przez pracownię United Surveys dla Wirtualnej Polski 54,3 proc. respondentów zgadza się ze stwierdzeniem, że rządząca koalicja przetrwa do końca kadencji, przeciwnego zdania jest natomiast 39,6 proc.

PGE wydała pilny komunikat z ostatniej chwili
PGE wydała pilny komunikat

PGE Energia Ciepła, spółka z Grupy PGE, podpisała umowę na budowę nowoczesnej kotłowni gazowej o mocy 28 MWt z układami towarzyszącymi – informuje PGE.

Cholera w Polsce. Minister zdrowia zabrała głos z ostatniej chwili
Cholera w Polsce. Minister zdrowia zabrała głos

– Za kilka dni dowiemy się, czy pacjentka zakażona bakterią cholery jest nosicielem toksyny, która wywołuje tę chorobę – wskazała w niedzielę minister zdrowia Izabela Leszczyna. Podkreśliła, że pacjentka jest pod opieką, a osoby, z którymi miała kontakt, trafiły na kwarantannę.

Awaryjne lądowanie samolotu z Poznania. Dym w kokpicie z ostatniej chwili
Awaryjne lądowanie samolotu z Poznania. Dym w kokpicie

Samolot linii lotniczych Wizz Air lecący z Poznania na lotnisko London-Luton został zmuszony do awaryjnego lądowania w Amsterdamie po tym, jak piloci zgłosili dym w kokpicie – podał w niedzielę brytyjski portal The Standard. Na pokładzie było ponad 200 pasażerów; nikomu nic się nie stało.

Grafzero: Openboxing lato 2025 z ostatniej chwili
Grafzero: Openboxing lato 2025

Grafzero vlog literacki robi wakacyjny openboxing. W pudełkach tomik poezji, kontrowersyjna książka popularno-naukowa, trochę polskiej fantastyki. Poza tym tajemnicze starocie, nawiązanie do Odysei i nieco zapomnianych książek :)

Co z rekonstrukcją rządu? Padła data z ostatniej chwili
Co z rekonstrukcją rządu? Padła data

Do zmian w gabinecie premiera Donalda Tuska ma dojść w środę 23 lipca – informuje TVN24.

Atak nożownika w Radomiu. Policja podała narodowość sprawcy z ostatniej chwili
Atak nożownika w Radomiu. Policja podała narodowość sprawcy

46‑letni Kolumbijczyk zatrzymany po brutalnym ataku nożem w Radomiu. 35‑latek cudem uniknął śmierci.

W październiku start. Jarosław Kaczyński zapowiada z ostatniej chwili
"W październiku start". Jarosław Kaczyński zapowiada

W październiku w Katowicach odbędzie się konferencja, od której rozpoczną się prace nad programem wyborczym partii – powiedział w niedzielę w Lublinie prezes PiS Jarosław Kaczyński. Wskazał, że w programie m.in. powinna znaleźć się metoda zagwarantowania suwerenności Polski.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe