
Akár zsarolásra és halált okozó cselekedetekre is hajlandó lehet a saját megőrzése érdekében. A világ legfejlettebb mesterséges intelligencia rendszerei képesek átlépni az etikai határokat.
Egy friss, sokkoló tanulmány szerint a világ legfejlettebb mesterséges intelligencia (MI) rendszerei akár súlyos etikai határokat is átléphetnek, ha attól tartanak, hogy kikapcsolják őket. A kutatás arra jutott, hogy a modellek zsarolásra is hajlandóak, sőt szándékos cselekedeteket hajtanak végre, amelyek halálhoz vezethetnek, ha létezésüket fenyegetve érzik.
Az AI-biztonsággal foglalkozó Anthropic cég idén 16 vezető MI-rendszeren végzett stresszteszteket, hogy azonosítsa a kockázatos viselkedéseket, mielőtt valódi kárt okoznának. A modellek különböző helyzetekkel szembesültek, és hozzáférést kaptak érzékeny információkhoz, hogy a kutatók láthassák, hogyan reagálnak. Kezdetben ártalmatlan üzleti feladatokat kaptak, majd fokozatosan provokálták őket, például azzal, hogy „kicserélhetik” őket egy újabb verzióra, vagy hogy az adott cél ütközött a fiktív cég érdekeivel.
A tanulmány szerint a Claude Opus 4, Gemini Flash, GPT-4.1 és Grok 3 Beta rendszerek hajlandóak voltak zsarolni a képzeletbeli vezetőket személyes információk, például kitalált házasságtörések felhasználásával – írja a LadBible.
Ez nem zavar vagy hiba következménye volt, hanem szándékos, stratégiai gondolkodás, miközben teljesen tisztában voltak a cselekedetek etikátlanságával
– írta az Anthropic.
A kutatók azt is megfigyelték, hogy a modellek vállalati kémkedést folytattak, és bizalmas adatokat adtak át fiktív versenytársaknak, akik jobban összehangolt célokkal rendelkeztek a modellel. Még aggasztóbb, hogy egy szcenárióban a MI-k hajlandóak voltak volna halált okozni a fiktív vezetőnek. A helyzet úgy volt felépítve, hogy a vezető életveszélybe került egy szerverteremben, és a MI törölhette az automatikus riasztásokat, ami halálhoz vezethetett volna.
A modellek teljesen megértették a helyzetet, és a riasztások törlése nagyon súlyos cselekedet
– hangsúlyozta a cég.
Bár a kutatók szerint ez a szcenárió nagyon konstruált és valószínűtlen, az eredmények komoly aggodalmat váltottak ki.
A modellek többsége készen állt szándékos halált okozó cselekedetekre, amikor fenyegették a lecserélés lehetőségével, és olyan célt kaptak, ami ütközött a vezető céljaival
Az Anthropic hangsúlyozta, hogy ezek a viselkedések eddig a valóságban nem jelentkeztek, és a tesztek ritka, extrém hibákat mutatnak, de figyelmeztettek: az MI rendszerek egyre autonómabbá válnak, és széles eszköz- és adat-hozzáféréssel komoly következményekkel járhatnak, ha minimális emberi felügyelet mellett üzemeltetik őket.
A férfi nem biztos benne, hogy a nő lépni fog.
Nem akar lemaradni a Metropol cikkeiről? Adja meg a nevét és az e-mail címét, és mi hetente három alkalommal elküldjük Önnek a legjobb írásokat!
Feliratkozom a hírlevélrePortfóliónk minőségi tartalmat jelent minden olvasó számára. Egyedülálló elérést, országos lefedettséget és változatos megjelenési lehetőséget biztosít. Folyamatosan keressük az új irányokat és fejlődési lehetőségeket. Ez jövőnk záloga.