2025.08.12. Horváth Péter
A mesterséges intelligencia fejlődésének egyik legizgalmasabb – és legkockázatosabb – területe robbanásszerűen növekszik: az úgynevezett „OS agentek” már nemcsak szöveget generálnak vagy képeket elemeznek, hanem önállóan irányíthatják a számítógépek, okostelefonok és webböngészők felületeit.

Egy frissen megjelent, 30 oldalas
tudományos áttekintés – amelyet a rangos Association for Computational Linguistics konferencia fogadott be – átfogó képet ad erről az új technológiai hullámról, amelybe már milliárdokat fektettek a legnagyobb techcégek.
A kutatók szerint a „digitális J.A.R.V.I.S.” álma – az Iron Man univerzumából ismert mindenre képes AI-asszisztens – a multimodális nagy nyelvi modellek fejlődésével közelebb került a valósághoz, mint valaha.
A nagy tech versenyfutása
Az elmúlt hónapokban a legnagyobb vállalatok sorra jelentették be saját OS agent-megoldásaikat: az OpenAI az „Operator”-t, az Anthropic a „Computer Use”-t, az Apple az Apple Intelligence bővített funkcióit, a Google pedig a „Project Mariner”-t. Ezek a rendszerek képesek képernyőképeket értelmezni, felületeket elemezni, majd pontos kattintásokat, görgetéseket, űrlapkitöltéseket és többalkalmazásos munkafolyamatokat végrehajtani – mindezt önállóan.
A kutatás több mint 60 alapmodellt és 50 keretrendszert azonosított, amelyek kifejezetten számítógép-irányításra készültek, és a publikációk száma 2023 óta meredeken nő.
Új támadási felület a vállalati IT-ban
A tanulmány egyik legfontosabb üzenete, hogy ezzel a technológiával a vállalatok egy teljesen új kiberbiztonsági kockázattal szembesülnek. Az OS agentek ugyanis a felhasználó helyett „nyomkodják” a gépet, ami azt jelenti, hogy ha egy támadó képes manipulálni az ügynököt, az hozzáférhet e-mailekhez, pénzügyi adatokhoz vagy ügyféladatbázisokhoz.
A kutatók két különösen veszélyes módszert emelnek ki:
- Web Indirect Prompt Injection – rejtett utasítások elhelyezése weboldalakban, amelyek eltérítik az AI működését.
- Environmental Injection Attacks – ártalmatlannak tűnő tartalmak, amelyek adatlopásra vagy jogosulatlan műveletekre veszik rá az ügynököt.
Mivel a jelenlegi vállalati biztonsági modellek emberi felhasználók viselkedésére vannak optimalizálva, az OS agentek teljesen új kihívást jelentenek, amelyre még kevés célzott védelem létezik.
A képességek és a korlátok
A hype ellenére a valós teljesítmény vegyes képet mutat. Az ügynökök jól boldogulnak egyszerű, jól definiált feladatokkal (például gombnyomások vagy űrlapkitöltés), de összetett, több lépéses, kontextusfüggő munkafolyamatoknál még gyakran hibáznak. Ezért a korai vállalati bevezetések jellemzően szűk, ismétlődő feladatokra koncentrálnak.
A következő nagy lépés: személyre szabás és önfejlesztés
A tanulmány szerint a jövő OS agentjei nem maradhatnak „statikusak”. Ahhoz, hogy valódi digitális asszisztensként működjenek, folyamatosan tanulniuk kell a felhasználó szokásaiból és preferenciáiból – a levelezési stílustól a kedvenc éttermekig. Ez hatalmas produktivitási előrelépést hozhat, de súlyos adatvédelmi dilemmákat is felvet.
A kutatók kiemelik, hogy ehhez multimodális memória (szöveg, kép, hang) integrációjára van szükség – ez azonban jelenleg komoly technológiai kihívás.
Időzített biztonsági bomba?
Az OS agentek fejlesztése villámgyorsan halad, miközben a biztonsági és adatvédelmi keretek még nem álltak készen. A szakértők szerint a kérdés már nem az, hogy ezek az ügynökök átalakítják-e a számítógép-használatot, hanem az, hogy a társadalom és az ipar fel tud-e készülni a következményekre, mielőtt a technológia tömegesen elterjed.