2025.10.10. 16:37 Horváth Péter
Új szintre emelheti a mesterséges intelligencia érvelési képességét a Reinforcement Learning Pre-training (RLP).

A mesterséges intelligencia egyik legnagyobb kihívása, hogy a modellek nem értik a világot – csak előrejelzéseket készítenek. Az Nvidia kutatói most olyan áttörést értek el, amely ezen változtathat: új módszerük, a Reinforcement Learning Pre-training (RLP) már az előképzés fázisában megtanítja a modelleket önállóan gondolkodni.
Miről is van szó pontosan?
A hagyományos nyelvi modellek – például a ChatGPT vagy a Claude – úgy tanulnak, hogy hatalmas mennyiségű szövegen keresztül próbálják megtippelni, mi következik egy mondatban. Ez az úgynevezett next-token prediction folyamat: a modell a nyelvtan, a jelentés és az asszociációk mintázatait ismeri meg, de nem alakít ki belső gondolkodási folyamatot.
A bonyolultabb, „láncszerű gondolkodás” (chain-of-thought) általában csak a finomhangolás során jelenik meg – például az RLHF (Reinforcement Learning from Human Feedback) segítségével, amikor emberi visszajelzések tanítják meg a modellt az érvelésre.
Az Nvidia kutatói szerint ez a sorrend nem tükrözi az emberi gondolkodást, amely nem lineáris, hanem párhuzamos folyamat: az új információkat azonnal összekapcsoljuk a korábbi tudásunkkal. Innen jött az ötlet, hogy az érvelést ne utólag, hanem már a tanulás elején építsék be.
Hogyan működik az RLP?
Az RLP alapelve egyszerű, de forradalmi: a modell minden jóslat előtt „meggondolja”, mit fog mondani.
A folyamat két lépésből áll:
- A modell először belső gondolatot („thought chain”) generál, vagyis egy rövid érvelést arról, mit és miért kellene mondania.
- Ezután megjósolja a következő szót, immár a kontextust és a saját gondolatát is figyelembe véve.
A rendszer ezután jutalmat ad, ha a belső gondolat valóban javította a jóslat pontosságát. Ha nem, nincs jutalom. Ez a jutalmazás teljesen automatizált, nem igényel emberi értékelést vagy külön adatgyűjtést – a modell önmagát tanítja gondolkodni.
Az így kialakuló visszacsatolási kör arra ösztönzi a mesterséges intelligenciát, hogy csak a hasznos gondolatokat tartsa meg, és megtanulja, mikor elég az intuíció, és mikor van szükség mélyebb érvelésre.
Bryan Catanzaro, az Nvidia alkalmazott mélytanulási kutatásának alelnöke szerint:
„Az RLP célja nem az, hogy lecserélje a későbbi finomhangolást, hanem hogy megalapozza azt. Egy olyan gondolkodási stílust tanítunk a modellnek, amely a későbbi fejlesztéseket is hatékonyabbá teszi.”
Eredmények: gondolkodó nyelvi modellek
A kutatók az új módszert több modellre is alkalmazták, köztük a Qwen3-1.7B és a Nemotron-Nano-12B rendszerekre. Az RLP-vel tanított modellek minden esetben felülmúlták a hagyományosan képzetteket, különösen a matematikai és tudományos érvelést igénylő feladatokban.
A fejlesztés hatása messze túlmutat a kutatólaboron: vállalati környezetben például pontosabb pénzügyi elemzésekre, megbízhatóbb jogi szövegértelmezésre vagy összetettebb dokumentum-összegzésekre is alkalmasabbá teheti a modelleket.
Catanzaro szerint:
„Az RLP elősegíti, hogy a modell tanulás közben is gondolkodjon. Ez csökkentheti a logikai hibákat és növelheti a hosszú érvelési láncok pontosságát.”
Az RLP további előnye, hogy nem felejt, vagyis a későbbi finomhangolási fázisban – amely sokszor „kitörli” a korábbi tudást – megtartja és tovább erősíti az érvelési képességeket. A kutatások szerint a módszerrel tanított modellek 7–8 százalékkal jobb teljesítményt értek el azonos utótréning mellett, és az előny később is megmaradt.
Hatékonyság és skálázhatóság
A Qwen3-1.7B modellen az RLP 17 százalékos teljesítményjavulást hozott a hagyományos előképzéshez képest, még akkor is, ha a referencia-modell 35-ször több adatot kapott. Ez bizonyítja, hogy az előny nem a nagyobb adatból, hanem a módszerből fakad.
A még nagyobb, Nemotron-Nano-12B esetében a fejlesztés 35 százalékos relatív javulást eredményezett – mindössze az adatmennyiség töredékével.
Új alap az AI-fejlesztésben
Az Nvidia kutatói úgy vélik, a jövőben az előképzés nem csupán a következő szó megtippeléséről fog szólni. Az új generációs modellek egyszerre több célt szolgáló tanulási folyamatban fejlődhetnek: az egyik komponens megtanítja, mit látnak a világban, a másik pedig, hogyan gondolkodjanak róla.
Catanzaro ezt így foglalta össze:
„A token-előrejelzés megmutatja, hogyan néz ki a világ. Az olyan megerősítéses célok, mint az RLP, viszont megtanítják a modelleket arra, hogyan gondolkodjanak arról, amit látnak. A kettő kombinációja segíthet abban, hogy a modellek már a tanulás korai szakaszában mélyebb, strukturáltabb gondolkodást alakítsanak ki.”
A kutatók szerint a megerősítéses tanulás előképzési fázisba való bevezetése új tengelyt nyithat a mesterséges intelligencia skálázásában – nemcsak méretben, hanem abban is, hogyan tanulnak meg érvelni.