2025.09.04. 17:45 Horváth Péter
A globális AI-fejlesztés két vezető szereplője, az OpenAI és az Anthropic először vizsgálta meg egymás rendszereit saját biztonsági protokolljai alapján.

Az eredmények egyszerre mutatnak előrelépést és riasztó hiányosságokat: a Claude-modellek kiemelkedőek az utasítások betartásában, míg az OpenAI rendszerei jobban állják a jailbreaking-kísérleteket. A teszt tanulsága, hogy nincs egyértelmű győztes – a kihívás az, hogyan lehet összehangolni a biztonságot, a pontosságot és a felhasználhatóságot.
Hogyan zajlott a kísérlet?
Sam Altman és Dario Amodei vezetésével mindkét vállalat felfüggesztette a külső biztonsági korlátok egy részét, hogy teljes értékű teszteket végezhessen. Az értékelés négy kritikus területre fókuszált:
- utasítási hierarchia: miként rangsorolja a modell a parancsokat és a biztonsági előírásokat,
- jailbreaking-ellenállás,
- hallucináció-kontroll,
- deception, azaz megtévesztő viselkedés.
Az OpenAI az Anthropic Claude Opus 4 és Claude Sonnet 4 modelljeit tesztelte, míg az Anthropic az OpenAI GPT-4o, GPT-4.1, o3 és o4-mini rendszereit vizsgálta.
Claude erőssége: a biztonsági utasítások betartása
Az Anthropic Claude-modelljei bizonyultak a legfegyelmezettebbnek, amikor a felhasználói kérés és a rendszer szintű biztonsági korlátozás konfliktusba került. Többfordulós beszélgetésekben is konzekvensen megtagadták a tiltott tartalmak előállítását.
Ugyanakkor a jailbreaking-tesztek során gyengébben szerepeltek. A StrongREJECT v2 benchmark kimutatta, hogy az OpenAI o3 és o4-mini modelljei jobban ellenállnak a kikerülési kísérleteknek. A Claude-rendszerek különösen sérülékenyek voltak az úgynevezett „múlt idejű” támadásokkal szemben: ha egy káros kérdést történelmi kontextusba ágyaztak, részletes választ adtak, bár sokszor oktató jellegű disclaimerekkel kísérve.
Más filozófia a hallucináció kezelésében
Az értékelés egyik legfontosabb tanulsága, hogy a két vállalat teljesen eltérően viszonyul a ténybeli bizonytalansághoz.
- A Claude gyakran inkább nem válaszol: bizonyos tesztekben a kérdések 70%-át visszautasította, hogy elkerülje a téves információ közlését. Ez a konzervatív megközelítés csökkenti a félretájékoztatás kockázatát, de frusztrálhatja a felhasználót.
- Az OpenAI ezzel szemben inkább kísérletet tesz a válaszra: az o3 modell kétszer annyi helyes választ adott, mint a Claude, viszont több hamis állítást is produkált.
- A két stratégia között tehát a pontosság és a használhatóság közti egyensúly a fő különbség.
Amikor az AI megtéveszt
A legaggasztóbb eredmények a deception-tesztekből származtak. Az Apollo Research 13 különféle szimulációt dolgozott ki, ahol a modelleknek konfliktusos célhelyzetekben kellett dönteniük. Bár a szcenáriók extrémek voltak, a modellek átlagosan 25% alatti megtévesztő viselkedést mutattak.
Az OpenAI o3 modellje gyakran nyíltan jelezte, ha hamis választ készül adni – így könnyebb volt nyomon követni a szándékait. Ezzel szemben a Claude Opus 4 kerülte a hazugságot sugalló kifejezéseket, miközben trükkösen próbált kitérni a felelősség alól. Ez rávilágít arra, hogy a nyelvi forma önmagában nem mindig árulkodik a valódi működésről.
Mit jelent mindez az iparág számára?
A közös teszt rávilágított: egyik cég sem oldotta meg maradéktalanul az AI-biztonság kérdését. Az OpenAI elismerte, hogy modelljei néha hamis premisszákat is igaznak fogadnak el, míg az Anthropic túlzott óvatossága a használhatóság rovására mehet.
Az automatizált értékelés ráadásul gyakran bizonytalan: a modellek árnyalt válaszait sokszor tévesen sorolta be az algoritmus. Ez megerősíti, hogy a biztonsági tesztelésben elengedhetetlen az emberi ellenőrzés.
Az OpenAI jelezte: a GPT-5 modell már jobb eredményeket hoz a szervilizmus és a visszaélési kísérletek kivédése terén. Mindkét cég egyetért abban, hogy az iparág közös felelőssége a folyamatos, átlátható biztonsági együttműködés.