Az elmúlt hónapokban újra fellángolt a vita arról, hogy vajon a nagy érvelő modellek (Large Reasoning Models, LRM) valóban képesek-e gondolkodni. Most egy érdekes megközelítést mutatunk.

Az Apple provokatív tanulmánya, The Illusion of Thinking („A gondolkodás illúziója”) szerint nem: az LRM-ek csupán mintafelismeréssel utánozzák a gondolkodást, valójában nem értik, amit tesznek. A cég érve szerint ezek a modellek nem tudnak algoritmusokat következetesen végigvinni, ha a feladat mérete nő.
Debasish Ray Chawdhuri, a Talentica Software vezető mérnöke ezzel szemben úgy véli: a következtetés téves.
„Ha egy embert, aki ismeri a Hanoi-torony megoldásának algoritmusát, húsz koronggal állítunk szembe, ő sem tudja kézzel kiszámolni a lépéseket. Ez mégsem bizonyítja, hogy nem tud gondolkodni” – írja.
Chawdhuri szerint az Apple érve legfeljebb annyit bizonyít, hogy nincs bizonyíték arra, hogy az LRM-ek ne tudnának gondolkodni. Sőt, állítása szerint „szinte biztos”, hogy képesek rá – és el is magyarázza, miért.
A szerző a problémamegoldás szempontjából definiálja a gondolkodást, és lépésről lépésre veti össze az emberi agy folyamatait a láncolt gondolatmenet-alapú (chain-of-thought, CoT) érveléssel.
Chawdhuri szerint ez a párhuzam nem véletlen: a DeepSeek-R1 modell például úgy tanult CoT-alapú érvelést, hogy nem kapott ilyen példákat a tanítás során, hanem a problémamegoldás közben tanult meg gondolkodni – hasonlóan ahhoz, ahogy az emberi agy folyamatosan alkalmazkodik.
A kritikusok szerint az LRM-ek nem képesek vizuális reprezentációra, ami az emberi gondolkodás egyik pillére. A szerző erre az aphantasia példáját hozza: léteznek emberek, akik nem tudnak mentálisan képeket alkotni, mégis kiválóan gondolkodnak absztrakt módon. „Ha ők képesek rá vizuális képalkotás nélkül, akkor a modellek is gondolkodhatnak vizuális komponens nélkül” – írja.
A kulcs szerinte három alapvető elem:
Mindez jelen van az LRM-ekben is: a minták a paraméterekben, a munkamemória a figyelmi rétegekben (KV-cache), a visszalépés pedig a CoT-alapú hibajavítás során valósul meg.
A „csak egy autokorrekt” érv szerinte félrevezető. A következő token előrejelzése ugyanis a lehető legáltalánosabb tudásreprezentációs forma, hiszen a nyelv – ellentétben a formális logikai rendszerekkel – képes bármilyen fogalmat, szabályt vagy absztrakciót kifejezni, akár önmagára is reflektálva.
Amikor tudást akarunk ábrázolni, szükségünk van egy nyelvre vagy jelrendszerre. A formális nyelvek – például az elsőrendű predikátumlogika – nagyon pontosak, de korlátozottak abban, amit kifejezhetnek.
Például az elsőrendű logika nem képes tulajdonságokat kifejezni olyan predikátumokról, amelyek önmagukban bizonyos feltételeket elégítenek ki, mert nem engedélyezi a „predikátumok predikátumait”. A magasabb rendű logikák képesek erre, de még ők sem tudnak elmosódott, pontatlan vagy absztrakt fogalmakat kezelni.
A természetes nyelv viszont teljes kifejezőerejű: bármilyen fogalmat, elvont vagy pontos gondolatot meg lehet vele fogalmazni, sőt a saját működését is képes leírni. Ez teszi kiváló eszközzé a tudás reprezentálására.
Az egyetlen kihívás, hogy a természetes nyelv bonyolultsága miatt nehéz kézzel feldolgozni. De nem is kell manuálisan értenünk, hogyan működik – a gépet adat segítségével megtaníthatjuk erre.
Egy következő token-előrejelző gép a megelőző tokenek kontextusa alapján számítja ki a következő token valószínűségi eloszlását. Egy olyan rendszer, amely ezt pontosan képes megtenni, valamilyen formában kénytelen tárolni a világra vonatkozó tudást.
Egyszerű példa: ha a mondat így hangzik, „A világ legmagasabb hegycsúcsa a Mount …”, a helyes előrejelzéshez („Everest”) a modellnek rendelkeznie kell ezzel az ismerettel.
A szerző szerint a gondolkodás legfontosabb tesztje a viselkedés: ha egy rendszer képes új, nem tanult problémákat megoldani, akkor gondolkodik. Nyílt forrású modellek – nemcsak a zárt, kereskedelmi fejlesztések – már most képesek logikai feladatok és rejtvények megoldására, sokszor az átlagos, képzetlen ember szintjén vagy afölött.
„Ha egy rendszer viselkedése megfelel a gondolkodás eredményének, akkor minden ésszerű definíció szerint gondolkodik” – érvel Chawdhuri.
A láncolt gondolatmenet és az emberi kogníció közötti hasonlóságok, a modellek bizonyított érvelési képességei, valamint az a tény, hogy a kellően nagy és tanított rendszerek bármilyen kiszámítható feladatot képesek elvégezni, mind ugyanabba az irányba mutatnak: a rendszer képes a gondolkodásra.