Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Zamach PE na suwerenność państw UE. „Autonomia Europy zaczyna się od jednolitego rynku obronnego” z ostatniej chwili
Zamach PE na suwerenność państw UE. „Autonomia Europy zaczyna się od jednolitego rynku obronnego”

Posłowie do Parlamentu Europejskiego przyjęli propozycje mające na celu utworzenie wspólnego rynku obronnego i podjęcie działań w sprawie sztandarowych projektów obronnych Unii Europejskiej.

Młodzi muzułmanie w Niemczech się radykalizują z ostatniej chwili
Młodzi muzułmanie w Niemczech się radykalizują

Jak poinformował portal European Conservative, obawy dotyczące radykalizacji wśród muzułmanów w Niemczech — szczególnie wśród młodszego pokolenia — wzrosły po opublikowaniu badań finansowanych przez trzy ministerstwa federalne.

Ekspert: Pierwsza wypłata zysków NBP przeznaczonych na zbrojenia mogłaby nastąpić dopiero za 1,5 roku z ostatniej chwili
Ekspert: Pierwsza wypłata zysków NBP przeznaczonych na zbrojenia mogłaby nastąpić dopiero za 1,5 roku

Pomysł sfinansowania zbrojeń z zysków NBP uzyskanych ze sprzedaży części złota oznaczałby, że pierwsze wpływy nastąpiłyby za półtora roku, tymczasem potrzeby wojska trzeba zaspokoić jak najszybciej – wskazał w rozmowie z PAP analityk Santander Bank Polska Piotr Bielski.

Wraz z wetem prezydenta ws. SAFE posypie się plan KE rabunku i neutralizacji Polski tylko u nas
Wraz z wetem prezydenta ws. SAFE posypie się plan KE rabunku i neutralizacji Polski

Komisja Europejska nieoficjalnie wyraża „poważne zaniepokojenie” sytuacją wokół polskiego programu SAFE. Chodzi o spór między rządem a Pałacem Prezydenckim, który według informacji z Brukseli wprowadza „niepewność co do realizacji projektu”. Niepokój Ursuli von der Leyen jest o tyle zrozumiały, że wraz z zawetowaniem przez Karola Nawrockiego ustawy ws. SAFE, o ile takie by nastąpiło, posypie się misterny plan rabunku i neutralizacji Polski.

Raport: Niemcy nie nadążają deportować migrantów tylko u nas
Raport: Niemcy nie nadążają deportować migrantów

W Niemczech rośnie liczba migrantów zobowiązanych do opuszczenia kraju. Z rządowego raportu wynika, że w połowie 2025 roku było ich ponad 226 tys., a skuteczność deportacji wynosi zaledwie ok. 5 proc. Problem pogłębia brak dokumentów, bariery prawne i niewydolność systemu dublińskiego.

Trwa debata w Sejmie. Siemoniak przekonuje: Po likwidacji CBA żadna sprawa nie zginie z ostatniej chwili
Trwa debata w Sejmie. Siemoniak przekonuje: "Po likwidacji CBA żadna sprawa nie zginie"

W Sejmie trwa spór o projekt likwidacji Centralnego Biura Antykorupcyjnego. Rządowa koalicja chce zakończyć działalność CBA jeszcze w tym roku, a minister Tomasz Siemoniak przekonuje, że wszystkie prowadzone sprawy zostaną przejęte przez inne służby.

Przez masowe legalizacje Hiszpania staje się magnesem dla nielegalnej migracji z ostatniej chwili
Przez masowe legalizacje Hiszpania staje się magnesem dla nielegalnej migracji

Jak informuje portal tichyseinblick.de, legalizacja przez władze Hiszpanii pół miliona migrantów, którzy nielegalnie przedostali się do kraju, ma wpływ na ruch migracyjny. Nie tylko w Ceucie na granicach czekają nowi pretendenci do stania się Europejczykami. Mieszkańcy Afryki Północnej lecą do Stambułu i przejeżdżają przez Pireneje. Sytuacja wymyka się rządowi Pedro Sáncheza spod kontroli.

Polski SAFE 0% daje możliwość rozbudowy mocy produkcyjnych polskiego przemysłu zbrojeniowego tylko u nas
Polski SAFE 0% daje możliwość rozbudowy mocy produkcyjnych polskiego przemysłu zbrojeniowego

Polska stoi przed strategiczną decyzją dotyczącą finansowania rozwoju przemysłu obronnego. Według byłego wiceministra aktywów państwowych Zbigniewa Gryglasa wybór między unijnym mechanizmem SAFE a propozycją „Polskie SAFE 0%” może przesądzić o tym, czy krajowe firmy zbrojeniowe – w tym spółki z grupy Polska Grupa Zbrojeniowa – będą w stanie znacząco zwiększyć produkcję uzbrojenia w najbliższych latach.

KE poważnie zaniepokojona polskim konfliktem wokół SAFE z ostatniej chwili
KE "poważnie zaniepokojona" polskim konfliktem wokół SAFE

Komisja Europejska z "niepokojem" obserwuje spór polityczny w Polsce wokół programu SAFE. W Brukseli pojawiają się głosy o „bałaganie” i braku pewności co do realizacji projektu, który ma mieć duże znaczenie dla bezpieczeństwa w Europie.

Tusk przyjmie SAFE mimo weta? Prof. Genowefa Grabowska: Tutaj nie ma żartów, jest Trybunał Stanu! tylko u nas
Tusk przyjmie SAFE mimo weta? Prof. Genowefa Grabowska: Tutaj nie ma żartów, jest Trybunał Stanu!

Portal Tysol.pl zapytał prawnik, prof. Genowefę Grabowską, jakie konsekwencje miałoby podpisanie przez Donalda Tuska unijnej pożyczki SAFE mimo ewentualnego weta prezydenta.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane