Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Słowa Żurka o przewiezieniu Ziobry w bagażniku wywołały burzę. Minister: “To była figura retoryczna” z ostatniej chwili
Słowa Żurka o przewiezieniu Ziobry w bagażniku wywołały burzę. Minister: “To była figura retoryczna”

Waldemar Żurek odnosząc się do swoich słów o "przewożeniu w bagażniku" polityka PiS, tłumaczył, że była to "figura retoryczna" i - jak zaznaczył - sam "nie jest zwolennikiem takich działań". Przekonywał też o współczuciu jakie ma dla Zbigniewa Ziobry.

BBN w USA. Kulisy rozmów o globalnych zagrożeniach i wojnie na Ukrainie pilne
BBN w USA. Kulisy rozmów o globalnych zagrożeniach i wojnie na Ukrainie

Polscy przedstawiciele BBN usłyszeli w Waszyngtonie, że celem USA jest zatrzymanie walk na Ukrainie bez narzucania szybkiego pokoju. Zastępca szefa BBN gen. Andrzej Kowalski zaznaczył, że to „bardzo ważny dokument, który pokazuje perspektywę USA” na globalne zagrożenia.

USA wskazuje Polskę jako wzór. Rose: Nie możemy być wszędzie, potrzebujemy was z ostatniej chwili
USA wskazuje Polskę jako wzór. Rose: Nie możemy być wszędzie, potrzebujemy was

Im silniejsza Polska, tym silniejsza Ameryka - podkreślił we wtorek ambasador USA w Polsce Thomas Rose. Jak dodał, wszystkie kraje w Europie muszą podążyć za przykładem Polski, zwiększając swoje zaangażowanie w obronność, by chronić rolę USA jako nieodłącznego partnera w NATO.

Pożar na terenie Portu Wojennego w Gdyni. Wojsko wydało komunikat z ostatniej chwili
Pożar na terenie Portu Wojennego w Gdyni. Wojsko wydało komunikat

We wtorkowy wieczór w gdyńskim Porcie Wojennym doszło do pożaru. Nad Oksywiem uniósł się gęsty dym, a na miejsce natychmiast skierowano kilka zastępów straży pożarnej. Marynarka Wojenna RP wydała komunikat.

Polskie MIGi w zamian za dostęp do ukraińskich technologii dronowych i rakietowych? z ostatniej chwili
Polskie MIGi w zamian za dostęp do ukraińskich technologii dronowych i rakietowych?

Polska rozważa przekazanie Ukrainie wycofywanych ze służby samolotów MIG-29 – wynika z komunikatu Sztab Generalnego Wojska Polskiego, opublikowanego na X. Jak podkreślono, decyzja nie została jeszcze podjęta, a operacja ma wzmocnić wsparcie Ukrainy i bezpieczeństwo wschodniej flanki NATO. "W związku z planowanym przekazaniem MIG-29 prowadzone są także rozmowy z Ukrainą w zakresie udostępnienia wybranych technologii dronowych i rakietowych" - czytamy w komunikacie 

Zełenski gotów przeprowadzić wybory na Ukrainie. Postawił jeden warunek z ostatniej chwili
Zełenski gotów przeprowadzić wybory na Ukrainie. Postawił jeden warunek

Prezydent Ukrainy Wołodymyr Zełenski oświadczył, że wybory na Ukrainie mogłyby odbyć się w ciągu 60–90 dni, jeśli USA i Europa zagwarantują bezpieczeństwo podczas głosowania.

Delhi coraz bliżej Moskwy. Co na to Donald Trump? tylko u nas
Delhi coraz bliżej Moskwy. Co na to Donald Trump?

Wizyta Władimira Putina w Indiach pokazała, że Delhi coraz odważniej zbliża się do Moskwy – mimo presji USA i globalnych sankcji. Rosnące interesy energetyczne i militarne łączą oba kraje, a świat czeka na reakcję Donalda Trumpa, który musi zdecydować, jak odpowiedzieć na ten geopolityczny zwrot.

PKO BP wydał pilny komunikat dla swoich klientów Wiadomości
PKO BP wydał pilny komunikat dla swoich klientów

Przestępcy sięgają po narzędzia sztucznej inteligencji, aby tworzyć przekonujące fałszywe legitymacje bankowe. Dzięki nim podszywają się pod pracowników instytucji finansowych i próbują wyłudzić pieniądze od klientów. Bank ostrzega: żadnych legitymacji ani wizytówek nie wysyłamy SMS-em ani mailem.

Gizela Jagielska już poza szpitalem w Oleśnicy z ostatniej chwili
Gizela Jagielska już poza szpitalem w Oleśnicy

Gizela Jagielska – jedna z najbardziej rozpoznawalnych w Polsce aborcjonistek – poinformowała, że z końcem roku przestaje pracować w szpitalu w Oleśnicy. Jak podkreśliła w nagraniu opublikowanym w mediach społecznościowych, to nie była jej decyzja. 

Ceny gazu spadają. To świetna wiadomość dla Polski i fatalna dla Rosji  Wiadomości
Ceny gazu spadają. To świetna wiadomość dla Polski i fatalna dla Rosji 

Ceny gazu w Europie spadają do poziomów niewidzianych od 2024 roku, co poprawia sytuację polskich importerów i producentów nawozów, a jednocześnie ogranicza dochody Rosji z eksportu surowca. Niższe ceny kontraktów holenderskich dają ulgę sektorowi chemicznemu i przemysłowi nawozowemu, choć konsumenci w domach będą musieli poczekać na tańszy gaz do połowy 2026 roku.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane