Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Ekspert o wyroku TSUE ws. Izby Kontroli Nadzwyczajnej i Spraw Publicznych SN: To zamach na polską suwerenność gorące
Ekspert o wyroku TSUE ws. Izby Kontroli Nadzwyczajnej i Spraw Publicznych SN: To zamach na polską suwerenność

Trybunał Sprawiedliwości Unii Europejskiej wydał orzeczenie ws. Izby Kontroli Nadzwyczajnej i Spraw Publicznych SN. TSUE stwierdził w czwartek, że "sąd krajowy jest zobowiązany uznać za niebyły wyrok wydany przez sąd wyższej instancji, który nie jest niezawisłym i bezstronnym sądem". Sprawę komentuje sędzia Kamila Borszowska-Moszowska.

Wpadka Arłukowicza w programie na żywo. Padło proste pytanie z ostatniej chwili
Wpadka Arłukowicza w programie na żywo. Padło proste pytanie

Dziennikarza Radia Plus postanowił zapytać prominentnego polityka PO o to, kto jest ministrem zdrowia w nowym rządzie Donalda Tuska. Odpowiedź była zaskakująca.

Szef Sztabu Generalnego: Naruszono polską przestrzeń powietrzną z ostatniej chwili
Szef Sztabu Generalnego: Naruszono polską przestrzeń powietrzną

Szef Sztabu Generalnego gen. Wiesław Kukuła poinformował, że w nocy z wtorku na środę dwukrotnie naruszono polską przestrzeń powietrzną. Dodał, że sytuacja była pod pełną kontrolą służb.

TSUE wydał wyrok ws. Izby Kontroli Nadzwyczajnej i Spraw Publicznych. Ekspert: Polacy są robieni w konia z ostatniej chwili
TSUE wydał wyrok ws. Izby Kontroli Nadzwyczajnej i Spraw Publicznych. Ekspert: Polacy są "robieni w konia"

Trybunał Sprawiedliwości Unii Europejskiej stwierdził w czwartek, że "sąd krajowy jest zobowiązany uznać za niebyły wyrok wydany przez sąd wyższej instancji, który nie jest niezawisłym i bezstronnym sądem".

Lizbona w żałobie po katastrofie kultowej kolejki. Są ofiary wśród obcokrajowców Wiadomości
Lizbona w żałobie po katastrofie kultowej kolejki. Są ofiary wśród obcokrajowców

W Lizbonie doszło w środę do katastrofy popularnej kolejki linowo-terenowej Elevador da Gloria. W wyniku wypadku zginęło 15 osób, a 18 zostało rannych. Wśród ofiar znajdują się obcokrajowcy. W Portugalii ogłoszono żałobę narodową.

Biedroń wywołał skandal. Stanowski nie przebierał w słowach z ostatniej chwili
Biedroń wywołał skandal. Stanowski nie przebierał w słowach

Nie milkną echa skandalicznego wpisu europosła Roberta Biedronia, w którym zadrwił z uczczenia pamięci tragicznie zmarłego polskiego pilota. Do sprawy odniósł się założyciel Kanału Zero Krzysztof Stanowski.

ZUS wydał pilny komunikat z ostatniej chwili
ZUS wydał pilny komunikat

ZUS wypłaca "czternastki". Do piątku świadczenie dostanie ponad milion osób. Wysokość 14. emerytury w 2025 r. to 1878,91 zł brutto.

Wiceszef MSZ o wizycie prezydenta w USA: Bardzo ładnie to załatwił z ostatniej chwili
Wiceszef MSZ o wizycie prezydenta w USA: Bardzo ładnie to załatwił

Władysław Teofil Bartoszewski, wiceszef MSZ, skomentował wizytę prezydenta Karola Nawrockiego w Stanach Zjednoczonych. Jak stwierdził w Radiu ZET, był to „oczywiście, sukces prezydenta”, który „bardzo ładnie to załatwił w Waszyngtonie i należą mu się gratulacje”.

Echa wizyty prezydenta Nawrockiego w zagranicznych mediach z ostatniej chwili
Echa wizyty prezydenta Nawrockiego w zagranicznych mediach

Dobiega końca wizyta prezydenta Karola Nawrockiego w Stanach Zjednoczonych, podczas której spotkał się z Donaldem Trumpem w Białym Domu. Rozmowa polskiego przywódcy z amerykańskim prezydentem odbiła się szerokim echem w mediach międzynarodowych, które zwracają uwagę na jej polityczne konsekwencje.

Macron złożył deklarację ws. Ukrainy. Również w imieniu Polski z ostatniej chwili
Macron złożył deklarację ws. Ukrainy. Również w imieniu Polski

W czwartek w Paryżu odbędzie się spotkanie „koalicji chętnych” państw wspierających Ukrainę. Donald Tusk zapowiedział udział w rozmowach w formule online. – Będziemy rozmawiać o tym, co jeszcze możemy zrobić na rzecz pokoju w Ukrainie i zatrzymania rosyjskiej agresji – podkreślił. Jednak kluczową deklarację w imieniu Europy, w tym Polski, ogłosił już dzień wcześniej prezydent Francji Emmanuel Macron. Jego słowa mają być sygnałem dla Donalda Trumpa.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe