2025.07.14. Horváth Péter
A Google DeepMind kutatócsapata éppen azon dolgozik, hogy a robotok ne csak figyeljenek, hanem – emberi mintára – saját belső hangon végiggondolják, amit látnak.

A DeepMind mérnökei egy olyan megoldáson dolgoznak, amely lehetővé teszi a robotok számára a belső monológ, azaz az úgynevezett „inner speech” kialakítását. Ez nem egy sci-fi szerű vízió, hanem egy konkrét technológiai irány, amit már szabadalmi bejegyzés is véd.
A lényege, hogy a robotok természetes nyelvű, önmaguknak szóló megjegyzésekkel dolgozzák fel, amit látnak vagy csinálnak. Ha például egy videóban azt látják, hogy valaki felemel egy csészét, akkor ezt „magukban” is megfogalmazzák: „felemelt egy csészét az asztalról”.
Ez az „önbeszéd” nem hangosan történik – nincsenek zajos robotmonológok –, hanem belső adatfolyamként jelenik meg. A cél az, hogy a robot így összekösse a látottakat a cselekvéssel, és legközelebb hasonló helyzetben már önállóan tudjon döntést hozni.
Miért forradalmi ez a megközelítés?
A belső monológ segít a gépnek abban, hogy ne csak egyedi ingereket tároljon, hanem azokat kontextusba helyezze. Vagyis nem csak felismeri, hogy látott már csészét, hanem emlékszik arra is, mi történt vele legutóbb. Ez jelentősen lecsökkentheti a memória- és számítási terhelést, hiszen nem kell mindent újra feldolgozni – elég, ha „visszaemlékszik” rá. Az ember is így működik: ha egyszer már elmondtuk magunknak, mit csináltunk, könnyebben idézzük fel a jövőben.
A The Daily Upside szerint ez a módszer a robotokat tanulékonyabbá, alkalmazkodóképesebbé és összetettebb gondolkodásra képessé teszi. Ráadásul gyorsabb tanulást eredményezhet: nem kell hosszú időn át tréningelni a gépet minden egyes helyzetre, elég, ha „megnéz” néhány példát, és elmondja magának, mi történt.
Ez a fejlesztés nem elszigetelt kísérlet: a Google az elmúlt időszakban egyre aktívabb a robotikában. Nemrég például bejelentették, hogy a Gemini 2.0 nyelvi modellt integrálták egy robotba – de nem szó szerint. A fizikai környezetre szabott változat a Gemini Robotics VLA (vision-language-action) nevet viseli, és nem csak nyelvet ért: mozgásokat, vizuális helyzeteket is. Ebben az esetben a „válasz” nemcsak beszéd lehet, hanem egy mozdulat is – például odanyúl valamiért.
Egy másik változat, a Gemini Robots-ER már fejlett térérzékeléssel is rendelkezik. Ez azt jelenti, hogy a robot valós időben tud reagálni arra, ha például megváltozik a környezete. Elég egy odatolt szék, vagy egy új tárgy az asztalon, és máris másként kell viselkednie – ehhez viszont fejlett értelmező képesség kell.
Mit jelent ez a jövőre nézve?
Az AI-technológiák egyre közelebb kerülnek ahhoz, amit emberi gondolkodásnak nevezünk – még akkor is, ha nem rendelkeznek öntudattal vagy érzésekkel. A belső monológ bevezetése például azt jelenti, hogy a robot nemcsak végrehajt, hanem reflektál is arra, amit csinál. Ez pedig az önállóság irányába mutat.
Különösen fontos ez olyan környezetekben, ahol gyors alkalmazkodásra van szükség – például idősek otthonában, raktárlogisztikában vagy balesetveszélyes területeken. Ha a robot felismeri, hogy mit csinált korábban, és el tudja dönteni, hogy ezt most újra megteheti-e, az jelentősen növeli a biztonságot.
Ugyanakkor etikai kérdések is felmerülnek: mit jelent, ha egy gép „gondolkodik”? Hol van a határ az önreflexió és a tudatosság között? És kié a felelősség, ha egy robot rosszul „emlékszik vissza”?