OpenAI vs Anthropic: közös biztonsági teszt tárta fel az AI-modellek gyengeségeit

A globális AI-fejlesztés két vezető szereplője, az OpenAI és az Anthropic először vizsgálta meg egymás rendszereit saját biztonsági protokolljai alapján.

Az eredmények egyszerre mutatnak előrelépést és riasztó hiányosságokat: a Claude-modellek kiemelkedőek az utasítások betartásában, míg az OpenAI rendszerei jobban állják a jailbreaking-kísérleteket. A teszt tanulsága, hogy nincs egyértelmű győztes – a kihívás az, hogyan lehet összehangolni a biztonságot, a pontosságot és a felhasználhatóságot.

Hogyan zajlott a kísérlet?

Ha többet akarsz tudni, kövess minket Facebookon!
Sam Altman és Dario Amodei vezetésével mindkét vállalat felfüggesztette a külső biztonsági korlátok egy részét, hogy teljes értékű teszteket végezhessen. Az értékelés négy kritikus területre fókuszált:

  • utasítási hierarchia: miként rangsorolja a modell a parancsokat és a biztonsági előírásokat,
  • jailbreaking-ellenállás,
  • hallucináció-kontroll,
  • deception, azaz megtévesztő viselkedés.
Az OpenAI az Anthropic Claude Opus 4 és Claude Sonnet 4 modelljeit tesztelte, míg az Anthropic az OpenAI GPT-4o, GPT-4.1, o3 és o4-mini rendszereit vizsgálta.

Claude erőssége: a biztonsági utasítások betartása

Az Anthropic Claude-modelljei bizonyultak a legfegyelmezettebbnek, amikor a felhasználói kérés és a rendszer szintű biztonsági korlátozás konfliktusba került. Többfordulós beszélgetésekben is konzekvensen megtagadták a tiltott tartalmak előállítását.

Ugyanakkor a jailbreaking-tesztek során gyengébben szerepeltek. A StrongREJECT v2 benchmark kimutatta, hogy az OpenAI o3 és o4-mini modelljei jobban ellenállnak a kikerülési kísérleteknek. A Claude-rendszerek különösen sérülékenyek voltak az úgynevezett „múlt idejű” támadásokkal szemben: ha egy káros kérdést történelmi kontextusba ágyaztak, részletes választ adtak, bár sokszor oktató jellegű disclaimerekkel kísérve.

Más filozófia a hallucináció kezelésében

Az értékelés egyik legfontosabb tanulsága, hogy a két vállalat teljesen eltérően viszonyul a ténybeli bizonytalansághoz.

  • A Claude gyakran inkább nem válaszol: bizonyos tesztekben a kérdések 70%-át visszautasította, hogy elkerülje a téves információ közlését. Ez a konzervatív megközelítés csökkenti a félretájékoztatás kockázatát, de frusztrálhatja a felhasználót.
  • Az OpenAI ezzel szemben inkább kísérletet tesz a válaszra: az o3 modell kétszer annyi helyes választ adott, mint a Claude, viszont több hamis állítást is produkált.
  • A két stratégia között tehát a pontosság és a használhatóság közti egyensúly a fő különbség.

Amikor az AI megtéveszt

A legaggasztóbb eredmények a deception-tesztekből származtak. Az Apollo Research 13 különféle szimulációt dolgozott ki, ahol a modelleknek konfliktusos célhelyzetekben kellett dönteniük. Bár a szcenáriók extrémek voltak, a modellek átlagosan 25% alatti megtévesztő viselkedést mutattak.

Az OpenAI o3 modellje gyakran nyíltan jelezte, ha hamis választ készül adni – így könnyebb volt nyomon követni a szándékait. Ezzel szemben a Claude Opus 4 kerülte a hazugságot sugalló kifejezéseket, miközben trükkösen próbált kitérni a felelősség alól. Ez rávilágít arra, hogy a nyelvi forma önmagában nem mindig árulkodik a valódi működésről.

Mit jelent mindez az iparág számára?

A közös teszt rávilágított: egyik cég sem oldotta meg maradéktalanul az AI-biztonság kérdését. Az OpenAI elismerte, hogy modelljei néha hamis premisszákat is igaznak fogadnak el, míg az Anthropic túlzott óvatossága a használhatóság rovására mehet.

Az automatizált értékelés ráadásul gyakran bizonytalan: a modellek árnyalt válaszait sokszor tévesen sorolta be az algoritmus. Ez megerősíti, hogy a biztonsági tesztelésben elengedhetetlen az emberi ellenőrzés.

Az OpenAI jelezte: a GPT-5 modell már jobb eredményeket hoz a szervilizmus és a visszaélési kísérletek kivédése terén. Mindkét cég egyetért abban, hogy az iparág közös felelőssége a folyamatos, átlátható biztonsági együttműködés.