A mesterséges intelligencia matematikában is utolérte az embert – de milyen áron?

A Google DeepMind és az OpenAI újabb AI-teljesítménye kavarta fel a tudományos és etikai vitákat: az idei Nemzetközi Matematikai Diákolimpián emberi aranyérmes szintet ért el két mesterséges intelligencia-modell. De vajon valódi verseny volt ez, vagy csak demonstrációs erőfitogtatás?

A világ egyik legnehezebb középiskolás matematikaversenyén, a Nemzetközi Matematikai Diákolimpián (IMO) idén nemcsak a fiatal zsenik kaptak reflektorfényt, hanem két olyan versenyző is, akik semmit sem tudnak a stresszről, az érettségiről vagy a vizsgadrukkról: a Google DeepMind és az OpenAI által fejlesztett mesterséges intelligencia-modellek.

Mindkét vállalat azt állítja, hogy AI-rendszereik aranyérmes teljesítményt nyújtottak, vagyis 35 pontot értek el a 42-ből, ezzel bekerültek volna a világ legjobb 67 diákja közé. Csakhogy az út, amelyen idáig jutottak, meglehetősen különböző volt – és ez nemcsak szakmai, hanem erkölcsi kérdéseket is felvet.

A Google DeepMind modellje valódi versenyzőként vett részt a 2024-es diákolimpián. A szervezők hivatalosan meghívták a csapatot, és szigorúan ügyeltek arra, hogy a mesterséges intelligenciát ugyanazok a korlátok kössék, mint az emberi indulókat: két napon keresztül, napi 4,5 órás időkeretben kellett hat, egyenként rendkívül komplex matematikai feladatot megoldania, külső segítség és internetkapcsolat nélkül. A DeepMind a verseny után blogbejegyzésben számolt be az eredményeiről, korrekt módon, a szabályokat betartva.

Ezzel szemben az OpenAI lényegében offline futtatta le ugyanazt a feladatsort – de nem hivatalosan, hanem a verseny után, amikor már elérhetőek voltak a kérdések. A cég saját modelljét engedte rá a feladatokra, majd még azelőtt bejelentette a „sikerét”, hogy a hivatalos eredménylista egyáltalán nyilvánosságra került volna. Bár technikailag valóban aranyérmes szintű pontszámot ért el a modell, az OpenAI lépése komoly felzúdulást váltott ki, hiszen az IMO szervezői előre megkérték a cégeket, hogy ne vonják el a figyelmet a diákok teljesítményéről. Az OpenAI ennek ellenkezőjét tette.

Mit jelent ez?

Ez a különbség nem csupán technikai részlet, hanem az AI-fejlesztés etikáját is érintő dilemma. Vajon mi számít valódi mérésnek? A szimulált teljesítmény, amit ideális környezetben, bármiféle versenyfeszültség nélkül produkál egy modell, vagy az, amikor az AI ugyanolyan versenykörülmények között bizonyít, mint az emberek?

A két vállalat közötti kontraszt különösen éles annak fényében, hogy egyikük sem speciális matematikai modellként futott a pályán. A Google és az OpenAI is „általános célú”, tehát nem konkrétan matekra tanított rendszereket használt, és még így is képesek voltak arra, amire a világ legjobb középiskolásai. Ez önmagában elképesztő technológiai eredmény, amely azt mutatja, hogy a mesterséges intelligencia már nemcsak a nyelvi és képi feldolgozásban, de az elvont, logikai gondolkodást igénylő feladatokban is kezdi felvenni a versenyt az emberrel.

Csakhogy van egy jelentős csillag a történet végén: ezek a csúcsmodellek nem érhetők el a nyilvánosság számára. A publikus változatok – mint például a Gemini 2.5 Pro, a Grok-4 vagy az OpenAI „o4” modellje – ugyanazon a feladatsoron jóval szerényebb, 13 pontos teljesítményre voltak képesek, ami még a bronzérem alsó határát sem súrolja.

Ez a különbség komoly kérdéseket vet fel a mesterséges intelligencia transzparenciájával és elérhetőségével kapcsolatban. Egyfelől lenyűgöző, hogy a laboratóriumi modellek ilyen szintet érnek el, másfelől viszont a nagyközönség által elérhető technológia még mindig messze elmarad ettől – így az „AI utolérte az embert” kijelentés legalábbis erősen kontextusfüggő.

Megosztás Facebookon