Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Potężny ukraiński atak rakietowy na Rosję. Potwierdzono użycie pocisków Storm Shadow z ostatniej chwili
Potężny ukraiński atak rakietowy na Rosję. Potwierdzono użycie pocisków Storm Shadow

Ukraińskie wojsko przeprowadziło potężny atak rakietowo-lotniczy na terytorium Rosji – poinformował Sztab Generalny Sił Zbrojnych Ukrainy. Celem była fabryka zbrojeniowa w Briańsku, produkująca m.in. proch, materiały wybuchowe i komponenty paliwa rakietowego dla rosyjskiej armii. W ataku miały zostać użyte brytyjsko-francuskie pociski dalekiego zasięgu Storm Shadow, które miały „skutecznie przebić rosyjski system obrony powietrznej”.

Polska ma 520 ton złota. NBP w światowej czołówce pod względem rezerw Wiadomości
Polska ma 520 ton złota. NBP w światowej czołówce pod względem rezerw

Polska posiada obecnie 520 ton rezerwy złota, co stanowi prawie 24 proc. wszystkich aktywów – poinformował Artur Soboń, wiceprezes Narodowego Banku Polskiego, w programie „Gość Wydarzeń” Polsatnews. – NBP to 12. bank na świecie pod względem zasobów złota – podkreślił Soboń, dodając, że tak wysoki poziom rezerw sprawia, iż polski złoty pozostaje bardzo stabilną walutą.

Fiasko spotkania Trump–Putin. Oto kulisy decyzji Białego Domu z ostatniej chwili
Fiasko spotkania Trump–Putin. Oto kulisy decyzji Białego Domu

Sekretarz stanu USA Marco Rubio po rozmowie z szefem MSZ Rosji Siergiejem Ławrowem przekazał przedstawicielom Białego Domu, że spotkanie przywódców USA i Rosji w najbliższej przyszłości najpewniej nie przyniosłoby pozytywnych rezultatów dla procesu pokojowego - napisał „Wall Street Journal”.

Ujawniono wartość klejnotów skradzionych z Luwru z ostatniej chwili
Ujawniono wartość klejnotów skradzionych z Luwru

Francja wciąż nie może się otrząsnąć po spektakularnej kradzieży w Luwrze. Podano wartość skradzionych klejnotów, którą oszacowano na 88 milionów euro. Władze w Paryżu podkreślają jednak, że wartość historyczna artefaktów jest bezcenna. W sprawę zaangażowano już około 100 funkcjonariuszy i najlepsi śledczy.

Pokój w Gazie? Główne przeszkody to Hamas i żydowscy nacjonaliści tylko u nas
Pokój w Gazie? Główne przeszkody to Hamas i żydowscy nacjonaliści

Pokój w Gazie zagrożony. Hamas odmawia rozbrojenia, a izraelscy nacjonaliści domagają się wznowienia wojny.

Karambol na Śląsku. Droga krajowa nr 1 zablokowana, policja apeluje z ostatniej chwili
Karambol na Śląsku. Droga krajowa nr 1 zablokowana, policja apeluje

We wtorek wieczorem na drodze krajowej nr 1 w Pszczynie (woj. śląskie) doszło do groźnego karambolu. Jak informuje RMF FM, zderzyło się sześć samochodów osobowych i ciężarówka. W wyniku wypadku rannych zostało sześć osób, a trasa w kierunku Bielska-Białej jest całkowicie zablokowana.

Awaria ciepła w Krakowie. MPEC wydało komunikat z ostatniej chwili
Awaria ciepła w Krakowie. MPEC wydało komunikat

We wtorek wczesnym popołudniem doszło do poważnej awarii sieci ciepłowniczej w Krakowie. Pracownicy firmy budowlanej uszkodzili rurociąg należący do Miejskiego Przedsiębiorstwa Energetyki Cieplnej (MPEC). W wyniku zdarzenia mieszkańcy części dzielnicy Zabłocie zostali pozbawieni ogrzewania i ciepłej wody. Według informacji MPEC Kraków, wznowienie dostaw ciepła planowane jest na 22 października około godziny 2:00 w nocy.

Rosja przedstawiła warunki pokoju z Ukrainą w nieoficjalnym dokumencie przekazanym USA z ostatniej chwili
Rosja przedstawiła warunki pokoju z Ukrainą w nieoficjalnym dokumencie przekazanym USA

Rosja w miniony weekend przekazała stronie amerykańskiej nieoficjalny dokument, w którym ponownie przedstawiła swoje poprzednie warunki zawarcia pokoju z Ukrainą – poinformował we wtorek Reuters, powołując się na źródła. Rosjanie powtórzyli swoje żądanie przejęcia kontroli nad całym Donbasem na wschodzie Ukrainy – przekazał przedstawiciel władz amerykańskich. Ten warunek jest sprzeczny ze stanowiskiem prezydenta Donalda Trumpa, który wezwał do zatrzymania walk na obecnej linii frontu.

Znany dziennikarz odchodzi z Wirtualnej Polski z ostatniej chwili
Znany dziennikarz odchodzi z "Wirtualnej Polski"

W redakcji Wirtualnej Polski dochodzi do istotnych zmian personalnych dot. dziennikarzy, którzy zajmowali się polityką. Jak ustalił serwis Wirtualne Media, z końcem listopada z serwisem pożegna się Paweł Figurski, dziennikarz polityczny związany z WP od blisko czterech lat.

Wrocław: Wiceprezydent miasta i szefowa lokalnych struktur PO wyrzucona z partii z ostatniej chwili
Wrocław: Wiceprezydent miasta i szefowa lokalnych struktur PO wyrzucona z partii

Krajowy Sąd Koleżeński Platformy Obywatelskiej wykluczył z partii Renatę Granowską, szefową powiatowych struktur PO we Wrocławiu i wiceprezydent miasta. To oznacza, że podtrzymano decyzję regionalnego sądu koleżeńskiego, od której odwołała się Granowska.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe