Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Konfiskata samochodów i sąd deportacyjny. Konfederacja zapowiada z ostatniej chwili
Konfiskata samochodów i sąd deportacyjny. Konfederacja zapowiada

Konfederacja zapowiada projekt ustawy o konfiskacie pojazdów używanych do przewozu migrantów, a także o powołaniu sądu deportacyjnego – poinformował we wtorek poseł Przemysław Wipler.

Gwiazda TVN straci program? Podano wyniki oglądalności z ostatniej chwili
Gwiazda TVN straci program? Podano wyniki oglądalności

Oglądalność "Kropki nad i" w sezonie 2024/2025 spadła aż o 213 tys. widzów – informuje portal Wirtualne Media.

Niepokojące informacje z granicy. Komunikat Straży Granicznej z ostatniej chwili
Niepokojące informacje z granicy. Komunikat Straży Granicznej

Straż Graniczna regularnie publikuje raporty dotyczące wydarzeń na granicy polsko-białoruskiej, która znajduje się pod naciskiem ataku hybrydowego.

Fatalne wieści dla Tuska. Sondaż nie pozostawia złudzeń z ostatniej chwili
Fatalne wieści dla Tuska. Sondaż nie pozostawia złudzeń

Ponad połowa Polaków uważa, że Donald Tusk nie jest skutecznym premierem – wynika z sondażu IBRiS przeprowadzonego dla Radia ZET.

Komunikat dla mieszkańców Gdańska z ostatniej chwili
Komunikat dla mieszkańców Gdańska

Port Lotniczy Gdańsk udostępni miejsce dla zespołu ratowników. Będą mieli swoje zaplecze i będą parkować karetkę. Będą zabezpieczać teren dzielnicy Matarnia i okolic – informuje Port Lotniczy Gdańsk im. Lecha Wałęsy.

Polska 2050 stawia ultimatum Tuskowi: Zagłosujemy z PiS i Konfederacją z ostatniej chwili
Polska 2050 stawia ultimatum Tuskowi: "Zagłosujemy z PiS i Konfederacją"

Jeżeli rząd nie dogada się z Polską 2050 w sprawie jej projektu, partia Szymona Hołowni przegłosuje go razem z PiS i Konfederacją – dowiedział się "Puls Biznesu”. Szykuje się kolejny zgrzyt w łonie koalicji rządzącej.

IMGW wydał komunikat. Oto co nas czeka z ostatniej chwili
IMGW wydał komunikat. Oto co nas czeka

We wtorek po południu i w nocy burze, ulewne deszcze do 40 mm i wiatr do 70 km/h na zachodzie i północnym-wschodzie Polski – ostrzega we wtorek IMGW.

615 lat temu pod Grunwaldem wojska polsko-litewskie pokonały armię Zakonu Krzyżackiego z ostatniej chwili
615 lat temu pod Grunwaldem wojska polsko-litewskie pokonały armię Zakonu Krzyżackiego

15 lipca 1410 r. pod Grunwaldem wojska polsko-litewskie, wspierane przez oddziały ruskie, czeskie i tatarskie, pod wodzą króla Władysława Jagiełły pokonały armię zgromadzoną przez Zakon Krzyżacki. Była to jedna z największych bitew średniowiecza.

Czy uda się wepchnąć dżinna z powrotem do butelki? tylko u nas
Czy uda się wepchnąć dżinna z powrotem do butelki?

Bardzo dobrze, że prowadzący z nim rozmowę w Radiu Wnet Łukasz Jankowski przerwał wywiad po jego słowach o "fejkowych komorach gazowych". Ale dlaczego człowiek o takich poglądach w ogóle się tam znalazł? Dlaczego został mu udostępniony mikrofon? Czy redakcja nie mogła przewidzieć, co będzie mówił?

Reprezentacja Polski ma nowego trenera Wiadomości
Reprezentacja Polski ma nowego trenera

Po ponad miesiącu od rezygnacji Michała Probierza Polski Związek Piłki Nożnej zdecydował, kto przejmie stery w reprezentacji Polski. Jak ustalił Polsat News, nowym selekcjonerem zostanie Jan Urban.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe