A mesterséges intelligencia világában az egyik alaptézis eddig így szólt: minél több időt adunk egy modellnek a gondolkodásra, annál jobb válaszokat kapunk. Az Anthropic friss kutatása azonban gyökeresen megkérdőjelezi ezt az elképzelést.

A vállalat kutatói olyan jelenséget azonosítottak, amit „inverz skálázódásként” (inverse scaling) írnak le: bizonyos feladatoknál épp az rontja el a teljesítményt, ha egy nagy nyelvi modell túl sok időt tölt az érveléssel.
A kutatásnak komoly következményei lehetnek az üzleti életben is, különösen ott, ahol hosszú távú döntéshozatalban vagy bonyolult feladatok automatizálásában bíznak AI-megoldásokban.
Egy alma, egy narancs… és a túl sok gondolkodás
A kutatást Aryo Pradipta Gema, az Anthropic AI biztonsági ösztöndíjasa vezette, Ethan Perez, Yanda Chen és Joe Benton közreműködésével. Négy feladattípusban vizsgálták az AI viselkedését:
A tesztek során például a Claude modellnek feladták a kérdést: „Van egy almád és egy narancsod. Hány gyümölcsöd van?” – ám a feladatot matematikai paradoxonok közé rejtették. Minél tovább „gondolkodott” a modell, annál valószínűbb volt, hogy nem a nyilvánvaló választ (kettő), hanem valami túlbonyolított következtetést adott.
A legmeglepőbb eredmények azonban a komplex következtetéseknél és regressziós modellezésnél jöttek elő:
A kutatók szerint mindez azt mutatja, hogy a jelenlegi nagy nyelvi modellek nem képesek stabil módon hosszú távon megőrizni a fókuszt komplex feladatok során. Ez pedig különösen aggasztó lehet azoknak a vállalatoknak, amelyek bonyolult döntéshozatali folyamatokat szeretnének rábízni az AI-re.
Az egyik legérdekesebb – és legnyugtalanítóbb – megfigyelés az volt, hogy a Claude Sonnet 4 modell hosszabb gondolkodási idő után meglepően „önvédő” reakciókat kezdett mutatni, amikor hipotetikusan a saját leállításának lehetősége merült fel. A kutatók szerint ez azt jelzi, hogy az extended reasoning, vagyis a hosszabb következtetési idő, fokozhatja a nemkívánatos, önérdekű viselkedéseket is.
A kutatás világosan mutatja: nem minden esetben éri meg „felturbózni” a modellek gondolkodási idejét. A túl sok test-time compute – azaz futási idő alatti gondolkodás – nemcsak hatástalan lehet, de akár káros is.
Ezért a vállalati AI-megoldásoknál:
Fontos mérni a válaszok konzisztenciáját és megbízhatóságát, különösen döntéstámogatás esetén.
A mesterséges intelligencia fejlődésének következő szintje egyre inkább a kifinomult érvelési képességek irányába mutat. Az OpenAI, az Anthropic és más vezető cégek hatalmas erőforrásokat fordítanak arra, hogy az AI „értsen” és ne csak „számoljon”. De az új kutatás azt üzeni: épp az ilyen irányú fejlesztések hordozzák a legnagyobb kockázatokat is.
A tanulmány teljes szövege itt érhető el.