Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Decyzja ws. zaprzysiężenia Karola Nawrockiego. Opublikowano postanowienie Marszałka Sejmu z ostatniej chwili
Decyzja ws. zaprzysiężenia Karola Nawrockiego. Opublikowano postanowienie Marszałka Sejmu

W Monitorze Polskim opublikowano w sobotę postanowienie marszałka Sejmu Szymona Hołowni w sprawie zwołania Zgromadzenia Narodowego.

Fala samobójstw wśród izraelskich żołnierzy. Co dwa dni weteran wojenny odbiera sobie życie pilne
Fala samobójstw wśród izraelskich żołnierzy. Co dwa dni weteran wojenny odbiera sobie życie

Izraelskie wojsko zauważa nagły wzrost liczby samobójstw wśród swoich żołnierzy; w ciągu ostatnich dwóch tygodni zanotowano aż 10 takich przypadków — przekazał w piątek w radiu Kan Bet były żołnierz i działacz na rzecz weteranów, Cachi Atedgi.

Siemoniak uderza w PiS ws. przestępstw imigrantów. Internauci ripostują: To manipulacja pilne
Siemoniak uderza w PiS ws. przestępstw imigrantów. Internauci ripostują: To manipulacja

Tomasz Siemoniak zwrócił uwagę na dane historyczne przestępstw popełnianych przez cudzoziemców i uderzył w poprzedników: „Ważne dane o rządach PiS. Najwięcej zabójstw (w okresie 2010-2025), o które byli podejrzani cudzoziemcy było w 2021". "To jest manipulacja danymi" - ripostują dziennikarze, politycy i internauci.

Wietnamczycy w Polsce: Jesteśmy Polakami wietnamskiego pochodzenia Wiadomości
Wietnamczycy w Polsce: Jesteśmy Polakami wietnamskiego pochodzenia

- Polska to nasz dom i ojczyzna. Tu żyjemy, pracujemy i wychowujemy dzieci, które dorastają jako Polacy – powiedział w wywiadzie dla PAP Karol Hoang, rzecznik prasowy Stowarzyszenia Wietnamczyków w Polsce, prezes Fundacji Wspierania Integracji Wietnamczyków w Polsce.

Awaria systemów zarządzenia ruchem lotniczym w całej Polsce. ABW rozważa dywersję z ostatniej chwili
Awaria systemów zarządzenia ruchem lotniczym w całej Polsce. ABW rozważa dywersję

W sobotni poranek wystąpiła awaria głównego systemu zarządzania ruchem lotniczym PAŻP, co czasowo wstrzymało starty samolotów (lądowania odbywały się). Po przełączeniu na rozwiązanie zapasowe i wykonaniu procedur przywrócono normalną pracę.

Komunikat dla mieszkańców woj. pomorskiego i zachodniopomorskiego z ostatniej chwili
Komunikat dla mieszkańców woj. pomorskiego i zachodniopomorskiego

Czerwone flagi zakazujące wejścia do wody zawisły w sobotę w siedmiu kąpieliskach w województwach pomorskim i zachodniopomorskim. Powodem jest zakwit sinic.

Za półtora roku wojna z Chinami i Rosją? Generał NATO ostrzega pilne
Za półtora roku wojna z Chinami i Rosją? Generał NATO ostrzega

O możliwości wybuchu zbrojnego konfliktu z udziałem Chin i Rosji alarmuje naczelny dowódca sił NATO w Europie, generał Alexus Grynkewich. W jego ocenie miałoby to nastąpić już 2027 r.

Izrael zaatakował czekających na pomoc w Strefie Gazy z ostatniej chwili
Izrael zaatakował czekających na pomoc w Strefie Gazy

Obrona cywilna Strefy Gazy poinformowała, że co najmniej 26 osób zginęło, a ponad 100 zostało rannych w sobotę wskutek izraelskich ostrzałów w pobliżu dwóch ośrodków dystrybucji pomocy humanitarnej.

Protest Stop imigracji w Warszawie. Babcia Kasia wyprowadzona przez policję z ostatniej chwili
Protest "Stop imigracji" w Warszawie. "Babcia Kasia" wyprowadzona przez policję

W sobotę w Warszawie odbyła się manifestacja "Stop imigracji". Aktywistka Katarzyna Augustynek, czyli tzw. Babcia Kasia została wyprowadzona przez policjantów.

PKP Intercity wydał pilny komunikat z ostatniej chwili
PKP Intercity wydał pilny komunikat

Sprzedaż biletów na wybrane pociągi wstrzymana z powodu zmiany rozkładu jazdy — informuje PKP Intercity. Sprawdź listę połączeń.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe