Az Nvidia új módszere megtanítja a nyelvi modelleket gondolkodni

Új szintre emelheti a mesterséges intelligencia érvelési képességét a Reinforcement Learning Pre-training (RLP).

A mesterséges intelligencia egyik legnagyobb kihívása, hogy a modellek nem értik a világot – csak előrejelzéseket készítenek. Az Nvidia kutatói most olyan áttörést értek el, amely ezen változtathat: új módszerük, a Reinforcement Learning Pre-training (RLP) már az előképzés fázisában megtanítja a modelleket önállóan gondolkodni.

Miről is van szó pontosan?

Ha többet akarsz tudni, kövess minket Facebookon!
A hagyományos nyelvi modellek – például a ChatGPT vagy a Claude – úgy tanulnak, hogy hatalmas mennyiségű szövegen keresztül próbálják megtippelni, mi következik egy mondatban. Ez az úgynevezett next-token prediction folyamat: a modell a nyelvtan, a jelentés és az asszociációk mintázatait ismeri meg, de nem alakít ki belső gondolkodási folyamatot.

A bonyolultabb, „láncszerű gondolkodás” (chain-of-thought) általában csak a finomhangolás során jelenik meg – például az RLHF (Reinforcement Learning from Human Feedback) segítségével, amikor emberi visszajelzések tanítják meg a modellt az érvelésre.

Az Nvidia kutatói szerint ez a sorrend nem tükrözi az emberi gondolkodást, amely nem lineáris, hanem párhuzamos folyamat: az új információkat azonnal összekapcsoljuk a korábbi tudásunkkal. Innen jött az ötlet, hogy az érvelést ne utólag, hanem már a tanulás elején építsék be.

Hogyan működik az RLP?

Az RLP alapelve egyszerű, de forradalmi: a modell minden jóslat előtt „meggondolja”, mit fog mondani.

A folyamat két lépésből áll:

  1. A modell először belső gondolatot („thought chain”) generál, vagyis egy rövid érvelést arról, mit és miért kellene mondania.
  2. Ezután megjósolja a következő szót, immár a kontextust és a saját gondolatát is figyelembe véve.
A rendszer ezután jutalmat ad, ha a belső gondolat valóban javította a jóslat pontosságát. Ha nem, nincs jutalom. Ez a jutalmazás teljesen automatizált, nem igényel emberi értékelést vagy külön adatgyűjtést – a modell önmagát tanítja gondolkodni.

Az így kialakuló visszacsatolási kör arra ösztönzi a mesterséges intelligenciát, hogy csak a hasznos gondolatokat tartsa meg, és megtanulja, mikor elég az intuíció, és mikor van szükség mélyebb érvelésre.

Bryan Catanzaro, az Nvidia alkalmazott mélytanulási kutatásának alelnöke szerint:
„Az RLP célja nem az, hogy lecserélje a későbbi finomhangolást, hanem hogy megalapozza azt. Egy olyan gondolkodási stílust tanítunk a modellnek, amely a későbbi fejlesztéseket is hatékonyabbá teszi.”

Eredmények: gondolkodó nyelvi modellek

A kutatók az új módszert több modellre is alkalmazták, köztük a Qwen3-1.7B és a Nemotron-Nano-12B rendszerekre. Az RLP-vel tanított modellek minden esetben felülmúlták a hagyományosan képzetteket, különösen a matematikai és tudományos érvelést igénylő feladatokban.

A fejlesztés hatása messze túlmutat a kutatólaboron: vállalati környezetben például pontosabb pénzügyi elemzésekre, megbízhatóbb jogi szövegértelmezésre vagy összetettebb dokumentum-összegzésekre is alkalmasabbá teheti a modelleket.

Catanzaro szerint: „Az RLP elősegíti, hogy a modell tanulás közben is gondolkodjon. Ez csökkentheti a logikai hibákat és növelheti a hosszú érvelési láncok pontosságát.”

Az RLP további előnye, hogy nem felejt, vagyis a későbbi finomhangolási fázisban – amely sokszor „kitörli” a korábbi tudást – megtartja és tovább erősíti az érvelési képességeket. A kutatások szerint a módszerrel tanított modellek 7–8 százalékkal jobb teljesítményt értek el azonos utótréning mellett, és az előny később is megmaradt.

Hatékonyság és skálázhatóság

A Qwen3-1.7B modellen az RLP 17 százalékos teljesítményjavulást hozott a hagyományos előképzéshez képest, még akkor is, ha a referencia-modell 35-ször több adatot kapott. Ez bizonyítja, hogy az előny nem a nagyobb adatból, hanem a módszerből fakad.

A még nagyobb, Nemotron-Nano-12B esetében a fejlesztés 35 százalékos relatív javulást eredményezett – mindössze az adatmennyiség töredékével.

Új alap az AI-fejlesztésben

Az Nvidia kutatói úgy vélik, a jövőben az előképzés nem csupán a következő szó megtippeléséről fog szólni. Az új generációs modellek egyszerre több célt szolgáló tanulási folyamatban fejlődhetnek: az egyik komponens megtanítja, mit látnak a világban, a másik pedig, hogyan gondolkodjanak róla.

Catanzaro ezt így foglalta össze:
„A token-előrejelzés megmutatja, hogyan néz ki a világ. Az olyan megerősítéses célok, mint az RLP, viszont megtanítják a modelleket arra, hogyan gondolkodjanak arról, amit látnak. A kettő kombinációja segíthet abban, hogy a modellek már a tanulás korai szakaszában mélyebb, strukturáltabb gondolkodást alakítsanak ki.”

A kutatók szerint a megerősítéses tanulás előképzési fázisba való bevezetése új tengelyt nyithat a mesterséges intelligencia skálázásában – nemcsak méretben, hanem abban is, hogyan tanulnak meg érvelni.