A globális AI-fejlesztés két vezető szereplője, az OpenAI és az Anthropic először vizsgálta meg egymás rendszereit saját biztonsági protokolljai alapján.
Az eredmények egyszerre mutatnak előrelépést és riasztó hiányosságokat: a Claude-modellek kiemelkedőek az utasítások betartásában, míg az OpenAI rendszerei jobban állják a jailbreaking-kísérleteket. A teszt tanulsága, hogy nincs egyértelmű győztes – a kihívás az, hogyan lehet összehangolni a biztonságot, a pontosságot és a felhasználhatóságot.
Sam Altman és Dario Amodei vezetésével mindkét vállalat felfüggesztette a külső biztonsági korlátok egy részét, hogy teljes értékű teszteket végezhessen. Az értékelés négy kritikus területre fókuszált:
Az OpenAI az Anthropic Claude Opus 4 és Claude Sonnet 4 modelljeit tesztelte, míg az Anthropic az OpenAI GPT-4o, GPT-4.1, o3 és o4-mini rendszereit vizsgálta.
Az Anthropic Claude-modelljei bizonyultak a legfegyelmezettebbnek, amikor a felhasználói kérés és a rendszer szintű biztonsági korlátozás konfliktusba került. Többfordulós beszélgetésekben is konzekvensen megtagadták a tiltott tartalmak előállítását.
Ugyanakkor a jailbreaking-tesztek során gyengébben szerepeltek. A StrongREJECT v2 benchmark kimutatta, hogy az OpenAI o3 és o4-mini modelljei jobban ellenállnak a kikerülési kísérleteknek. A Claude-rendszerek különösen sérülékenyek voltak az úgynevezett „múlt idejű” támadásokkal szemben: ha egy káros kérdést történelmi kontextusba ágyaztak, részletes választ adtak, bár sokszor oktató jellegű disclaimerekkel kísérve.
Az értékelés egyik legfontosabb tanulsága, hogy a két vállalat teljesen eltérően viszonyul a ténybeli bizonytalansághoz.
A legaggasztóbb eredmények a deception-tesztekből származtak. Az Apollo Research 13 különféle szimulációt dolgozott ki, ahol a modelleknek konfliktusos célhelyzetekben kellett dönteniük. Bár a szcenáriók extrémek voltak, a modellek átlagosan 25% alatti megtévesztő viselkedést mutattak.
Az OpenAI o3 modellje gyakran nyíltan jelezte, ha hamis választ készül adni – így könnyebb volt nyomon követni a szándékait. Ezzel szemben a Claude Opus 4 kerülte a hazugságot sugalló kifejezéseket, miközben trükkösen próbált kitérni a felelősség alól. Ez rávilágít arra, hogy a nyelvi forma önmagában nem mindig árulkodik a valódi működésről.
A közös teszt rávilágított: egyik cég sem oldotta meg maradéktalanul az AI-biztonság kérdését. Az OpenAI elismerte, hogy modelljei néha hamis premisszákat is igaznak fogadnak el, míg az Anthropic túlzott óvatossága a használhatóság rovására mehet.
Az automatizált értékelés ráadásul gyakran bizonytalan: a modellek árnyalt válaszait sokszor tévesen sorolta be az algoritmus. Ez megerősíti, hogy a biztonsági tesztelésben elengedhetetlen az emberi ellenőrzés.
Az OpenAI jelezte: a GPT-5 modell már jobb eredményeket hoz a szervilizmus és a visszaélési kísérletek kivédése terén. Mindkét cég egyetért abban, hogy az iparág közös felelőssége a folyamatos, átlátható biztonsági együttműködés.