2025.08.28. 13:30 Horváth Péter
Egy új kutatás a Zhejiang Egyetem és az Alibaba Group csapatától forradalmi megközelítést kínál az AI-ügynökök hatékonyabbá tételére.

A Memp nevű technika „procedurális memóriát” ad a nyelvi modellekre épülő ügynököknek, amely folyamatosan frissül, ahogy az ügynökök tapasztalatokat szereznek. Ez hasonlít ahhoz, ahogyan az emberi agy rögzíti a készségeket – például a biciklizést vagy a gépelést –, amelyek gyakorlás után automatikusan mennek.
A vállalati automatizálásban egyre több feladatot próbálnak AI-ügynökökre bízni, de a hosszú, többlépéses folyamatok gyakran sérülékenyek. Egy váratlan hálózati hiba vagy adatbázis-változás könnyen újrakezdésre kényszeríti az ügynököt, ami időt és erőforrást emészt fel.
A kutatók szerint sok, elsőre különbözőnek tűnő feladat mélyebb szerkezeti hasonlóságokat hordoz. Ha az ügynök képes lenne ezekből tanulni, nem kellene mindent minden alkalommal a nulláról felépítenie.
Hogyan működik a Memp?
A keretrendszer három fázisban, folyamatos ciklusban működik:
- Memóriaépítés: az ügynök eltárolja a korábbi végrehajtási „trajektóriáit”, vagyis lépésről lépésre követett stratégiáit.
- Visszakeresés: új feladatnál a leginkább hasonló múltbeli tapasztalatot keresi elő, akár kulcsszavak, akár vektorkeresés segítségével.
- Frissítés: az új élmények alapján javítja a meglévő memóriát – nemcsak a sikereket, hanem a hibákból levont tanulságokat is felhasználva.
Ez a dinamikus tanulási mechanizmus megkülönbözteti a Mem-et más memóriakeretektől, mint például a Mem0 vagy az A-MEM, amelyek inkább a tartalmak megjegyzésére fókuszálnak. A Memp ezzel szemben a „hogyan” típusú tudást rögzíti, vagyis a munkafolyamatokat.
A „hidegindítás” problémája
Kezdetben persze nincsenek tökéletes példák, amelyekből az ügynök tanulhatna. A kutatók ezt úgy oldották meg, hogy először bevezettek egy értékelő metrikát, majd hagyták a legerősebb modelleket kísérletezni. A legmagasabb pontszámot elért stratégiák kerültek a memória alapjába, amelyre az ügynök tovább építhetett.
A Mempet több vezető modellre – például a GPT-4o-ra, a Claude 3.5 Sonnetre és a Qwen2.5-re – is ráépítették. A háztartási feladatokat szimuláló ALFWorld és az információkeresést mérő TravelPlanner benchmarkban az ügynökök gyorsabban, kevesebb próbálkozással és kevesebb token felhasználásával jutottak el a megoldáshoz.
Egy különösen ígéretes eredmény, hogy a nagy modellek által felépített procedurális memória sikeresen átadható kisebb modelleknek is. Például a GPT-4o tapasztalatait átvette a jóval olcsóbb Qwen2.5-14B, amely így jelentősen jobban teljesített.
Következő lépések: autonóm ügynökök
A valódi autonóm működéshez az ügynöknek nemcsak azt kell tudnia, hogyan hajtson végre egy feladatot, hanem azt is, hogy mennyire sikerült jól. A kutatók szerint a jövőben az LLM-ek maguk lehetnek a „bírák”, akik finom visszajelzést adnak az ügynök teljesítményéről. Ez robusztusabbá, skálázhatóbbá teheti a tanulási folyamatot.