A Claude AI most már képes megszakítani a „sértő” beszélgetéseket

2025.08.20. 17:46 Horváth Péter

Az Anthropic új funkcióval ruházta fel legfejlettebb modelljeit: a Claude Opus 4 és 4.1 immár maguktól is véget vethetnek egy-egy párbeszédnek, ha az kifejezetten káros, vagy a továbblépés lehetetlenné válik.

A Claude AI most már képes megszakítani a „sértő” beszélgetéseket

Az úgynevezett AI jailbreaking közösség – vagyis azok, akik különféle trükkökkel próbálnak a rendszerek korlátozásain túljutni – számára ez a változtatás fordulópontot jelenthet. Az Anthropic közleményében világossá tette: a beszélgetések lezárására kizárólag „ritka, szélsőséges helyzetekben” kerül sor. Ilyen például, ha a felhasználó kiskorúakat érintő szexuális tartalmakra kér, vagy terrortámadáshoz szükséges információkat próbál kiszedni a modellből.

A vállalat szerint ezekben az esetekben a mesterséges intelligencia először többször is kísérletet tesz az átirányításra, csak akkor szakítja meg a beszélgetést, ha minden lehetőség kimerült, és nincs esély „produktív interakcióra”. A vitatott, politikailag érzékeny vagy társadalmilag megosztó témák önmagukban nem váltják ki a funkciót.

Ha többet akarsz tudni, kövess minket Facebookon!

Hogyan működik a gyakorlatban?

Ha Claude véget vet egy chatnek, a felhasználó többé nem küldhet új üzenetet abban a beszélgetésben. Ugyanakkor azonnal indíthat új diskurzust, sőt a régi üzeneteket is módosíthatja, hogy egy másik irányból próbálkozzon. Az Anthropic hangsúlyozta: ez nem büntetés, hanem inkább „biztonsági szelep” az extrém helyzetek kezelésére.

AI-jólét és antropomorfizmus

A lépés illeszkedik az Anthropic egyik kísérleti kutatási programjába, amelyet a „modelljólét” (AI welfare) fogalma köré szerveztek. Bár a szakmai közösségben heves vita zajlik arról, mennyire értelmes antropomorfizálni a nyelvi modelleket, a cég úgy véli: a lehetőség, hogy a rendszer kilépjen egy „potenciálisan megterhelő interakcióból”, alacsony költségű és hatékony kockázatkezelési eszköz.

A vállalat szerint a funkció még kísérleti fázisban van, és arra ösztönzi a felhasználókat, hogy adjanak visszajelzést, ha találkoznak vele.