Microsoft új AI-keretrendszere okosabban tanítja a modelleket, lényegesen olcsóbban

A Microsoft Research bemutatta a rStar2-Agent nevű új keretrendszerét, amely gyökeresen átalakíthatja a nagyméretű nyelvi modellek tréningjét. Az innováció lényege, hogy a komplex érvelési feladatokra képes modellek tanítását jóval kisebb számítási költséggel és adatigénnyel teszi lehetővé, miközben felülmúlja a sokszor nagyságrendekkel nagyobb riválisokat is.

A mai AI-modellek gyakran a hosszabb gondolatmenet stratégiáját alkalmazzák: lépésről lépésre, sok tokenen át fejtik ki a megoldást, abban bízva, hogy így nagyobb eséllyel találnak helyes választ. A probléma az, hogy egyetlen hiba a hosszú láncban végzetes lehet. A Microsoft kutatói ezzel szemben a „gondolkodj hosszabban” helyett a „gondolkodj okosabban” megközelítést javasolják, vagyis olyan modelleket fejlesztenek, amelyek képesek eszközöket használni, önmagukat ellenőrizni és a visszajelzésekből tanulni.

Ha többet akarsz tudni, kövess minket Facebookon!
Ezt az irányt nevezték el agentic reinforcement learningnek, ahol a modell ügynökként viselkedik: párbeszédbe lép egy kódkörnyezet – például a Python interpreter – eszközeivel, futtatja az utasításait, majd az eredmény alapján finomítja a gondolatmenetét.

Három kulcsinnováció

A rStar2-Agent működését három fő fejlesztés teszi lehetővé:

  1. Skálázható infrastruktúra: akár 45 000 párhuzamos eszközhívás kezelésére képes, átlagosan 0,3 másodperces válaszidővel. A rendszer dinamikusan osztja el a feladatokat a GPU-k között, elkerülve, hogy erőforrások tétlenül maradjanak.
  2. GRPO-RoC algoritmus: a hagyományos Group Relative Policy Optimization továbbfejlesztett változata, amely kiszűri a zajos, hibás kódkimeneteket, és a legjobb minőségű gondolatmenetekre erősít rá. Ez megbízhatóbb, stabilabb kódgenerálást és rövidebb hibajavítási ciklusokat eredményez.
  3. Lépcsőzetes tréningrecept: a modellek először egyszerű instrukciókövetésre és kódhasználatra tanulnak, majd fokozatosan egyre komplexebb feladatokkal szembesülnek. Ez megakadályozza a korai túltanulást, és hatékonyabbá teszi a folyamatot.

Kis modell, nagy teljesítmény

A kutatók a 14 milliárd paraméteres Qwen3-14B-base modellt tesztelték 64 darab AMD MI300X GPU-n. Az egész tréning mindössze egy hétig tartott, 510 RL-lépéssel – ez nagyságrendekkel kevesebb, mint más módszerek esetében.

Az eredmények figyelemreméltóak:

  • Az AIME24 matematikai benchmarkon a modell 80,6%-os pontosságot ért el, felülmúlva a DeepSeek-R1 és Claude Opus 4.0 eredményeit.
  • A válaszai nemcsak pontosabbak, hanem jóval rövidebbek is, ami közvetlenül csökkenti az üzemeltetési költségeket.
  • Bár a tréning kizárólag matematikai problémákon zajlott, a modell tudása tudományos és kódolási feladatokra is jól átültethető volt.

Vállalati haszon: olcsóbb, megbízhatóbb, gyorsabb

Li Lyna Zhang, a projekt egyik vezető kutatója kiemelte: a keretrendszer kettős előnyt kínál. Egyrészt lehetőséget ad kisebb, költséghatékony modellek létrehozására, amelyek vállalati környezetben is stabilan működnek. Másrészt ugyanazok az elvek nagyobb modellekre is alkalmazhatók, így új szintre emelhetik a legmodernebb AI-rendszerek megbízhatóságát és hatékonyságát.

A kutatók szerint a módszer a jövőben olyan területeken is áttörést hozhat, mint a gyógyszerkutatás, a pénzügyi modellezés vagy a jogi elemzés, ahol a komplex feladatok megoldása egyszerre igényel nagy számítási kapacitást és hibamentes logikát.

A következő kihívás a Pythonhoz hasonló, tisztán strukturált környezetekből való továbblépés lesz a való világ zajosabb, kevésbé kiszámítható eszközeire, ahol az AI-nak megbízhatóan kell boldogulnia.