Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Burza w USA paraliżuje transport. Odwołano ponad 10 tys. lotów Wiadomości
Burza w USA paraliżuje transport. Odwołano ponad 10 tys. lotów

Z powodu burzy śnieżnej, która nawiedziła w sobotę USA i która ma potrwać do poniedziałku, odwołano ponad 10 tys. lotów - donosi stacja CNN. W sobotę ostrzeżenia w związku z trudnymi warunkami atmosferycznymi dotyczą ok. 190 mln mieszkańców, w 37 stanach.

Nowe doniesienia z Pałacu Buckingham: spotkanie Harry’ego z królem coraz bliżej? Wiadomości
Nowe doniesienia z Pałacu Buckingham: spotkanie Harry’ego z królem coraz bliżej?

Książę Harry i Meghan Markle mają w lipcu odwiedzić Wielką Brytanię. To wydarzenie może stać się okazją do pojednania z rodziną królewską. Para przyjedzie do Birmingham z okazji Invictus Games, które odbędą się 10 lipca.

„Pierwszy taki format od dłuższego czasu”. Zełenski o negocjacjach z USA i Rosją Wiadomości
„Pierwszy taki format od dłuższego czasu”. Zełenski o negocjacjach z USA i Rosją

Rozmowy prowadzone od piątku przez delegacje USA, Rosji i Ukrainy były konstruktywne – ocenił w sobotę po ich zakończeniu ukraiński prezydent Wołodymyr Zełenski. Kolejna runda negocjacji - jak dodał - może odbyć się w przyszłym tygodniu.

Słaby występ Polaków w MŚ w lotach. Prevc zdeklasował rywali Wiadomości
Słaby występ Polaków w MŚ w lotach. Prevc zdeklasował rywali

Piotr Żyła zajął 15. miejsce w mistrzostwach świata w lotach narciarskich w niemieckim Oberstdorfie. Zwyciężył zdecydowanie dominujący w tym sezonie Słoweniec Domen Prevc, który prowadzi też w klasyfikacji Pucharu Świata i triumfował w Turnieju Czterech Skoczni.

Nie żyje legenda Interu Mediolan Wiadomości
Nie żyje legenda Interu Mediolan

Świat włoskiego futbolu pogrążył się w żałobie. Nazzareno Canuti, były piłkarz i legenda Interu Mediolan, zmarł nagle w wieku 70 lat. Informację o jego śmierci przekazał klub, z którym był związany przez większość swojej kariery.

Proszę Was o wsparcie. Natalia Kukulska przekazała smutne wieści Wiadomości
"Proszę Was o wsparcie". Natalia Kukulska przekazała smutne wieści

W mediach społecznościowych Natalii Kukulskiej pojawiła się poruszająca wiadomość. Artystka poinformowała fanów o śmierci Romana Janika – osoby niezwykle bliskiej jej rodzinie. Wpis szybko wywołał falę wsparcia i współczucia.

Ekspert: Siłowe wejście do KRS nie miało podstawy prawnej tylko u nas
Ekspert: Siłowe wejście do KRS nie miało podstawy prawnej

Siłowe wejście policji do siedziby Krajowej Rady Sądownictwa wywołało poważne pytania o granice władzy wykonawczej i obowiązywanie prawa w Polsce. Ekspert wskazuje, że działania podjęte wobec KRS nie miały wyraźnej podstawy ustawowej i mogły stanowić próbę wywołania skutków prawnych bez wymaganych kompetencji.

„Trzecią dekadę Pan klęczy”. Karol Nawrocki ripostuje Donalda Tuska Wiadomości
„Trzecią dekadę Pan klęczy”. Karol Nawrocki ripostuje Donalda Tuska

W mediach społecznościowych doszło do publicznej wymiany zdań między premierem Donaldem Tuskiem a prezydentem Karolem Nawrockim.

„To bardzo ważna, silna grupa społeczna”. Kaczyński o znaczeniu polskiej wsi i rolników Wiadomości
„To bardzo ważna, silna grupa społeczna”. Kaczyński o znaczeniu polskiej wsi i rolników

W sobotę Stary Lubotyń na Mazowszu stał się centrum debaty o przyszłości polskiego rolnictwa. W wydarzeniu organizowanym przez Prawo i Sprawiedliwość uczestniczył prezes partii, Jarosław Kaczyński, który podkreślał znaczenie rolnictwa dla całego kraju, bezpieczeństwa żywnościowego i równości między miastem a wsią. Podczas swojego przemówienia mówił o trudnej pracy rolników, potrzebie wsparcia dla wsi oraz błędnych koncepcjach rozwoju, które faworyzowały duże ośrodki kosztem prowincji.

Polak tuż za rekordzistą toru w Pucharze Świata Wiadomości
Polak tuż za rekordzistą toru w Pucharze Świata

Panczenista Damian Żurek, który w piątek wygrał rywalizację Pucharu Świata w Inzell na 500 m, zajął drugie miejsce na dystansie dwukrotnie dłuższym. Polak uzyskał czas 1.07,20, a szybszy był tylko Amerykanin Jordan Stolz - wynikiem 1.06,83 pobił rekord toru.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane