A Microsoft Research bemutatta a rStar2-Agent nevű új keretrendszerét, amely gyökeresen átalakíthatja a nagyméretű nyelvi modellek tréningjét. Az innováció lényege, hogy a komplex érvelési feladatokra képes modellek tanítását jóval kisebb számítási költséggel és adatigénnyel teszi lehetővé, miközben felülmúlja a sokszor nagyságrendekkel nagyobb riválisokat is.

A mai AI-modellek gyakran a hosszabb gondolatmenet stratégiáját alkalmazzák: lépésről lépésre, sok tokenen át fejtik ki a megoldást, abban bízva, hogy így nagyobb eséllyel találnak helyes választ. A probléma az, hogy egyetlen hiba a hosszú láncban végzetes lehet. A Microsoft kutatói ezzel szemben a „gondolkodj hosszabban” helyett a „gondolkodj okosabban” megközelítést javasolják, vagyis olyan modelleket fejlesztenek, amelyek képesek eszközöket használni, önmagukat ellenőrizni és a visszajelzésekből tanulni.
Ezt az irányt nevezték el agentic reinforcement learningnek, ahol a modell ügynökként viselkedik: párbeszédbe lép egy kódkörnyezet – például a Python interpreter – eszközeivel, futtatja az utasításait, majd az eredmény alapján finomítja a gondolatmenetét.
A rStar2-Agent működését három fő fejlesztés teszi lehetővé:
A kutatók a 14 milliárd paraméteres Qwen3-14B-base modellt tesztelték 64 darab AMD MI300X GPU-n. Az egész tréning mindössze egy hétig tartott, 510 RL-lépéssel – ez nagyságrendekkel kevesebb, mint más módszerek esetében.
Az eredmények figyelemreméltóak:
Li Lyna Zhang, a projekt egyik vezető kutatója kiemelte: a keretrendszer kettős előnyt kínál. Egyrészt lehetőséget ad kisebb, költséghatékony modellek létrehozására, amelyek vállalati környezetben is stabilan működnek. Másrészt ugyanazok az elvek nagyobb modellekre is alkalmazhatók, így új szintre emelhetik a legmodernebb AI-rendszerek megbízhatóságát és hatékonyságát.
A kutatók szerint a módszer a jövőben olyan területeken is áttörést hozhat, mint a gyógyszerkutatás, a pénzügyi modellezés vagy a jogi elemzés, ahol a komplex feladatok megoldása egyszerre igényel nagy számítási kapacitást és hibamentes logikát.
A következő kihívás a Pythonhoz hasonló, tisztán strukturált környezetekből való továbblépés lesz a való világ zajosabb, kevésbé kiszámítható eszközeire, ahol az AI-nak megbízhatóan kell boldogulnia.