Meta nyílt forráskódú multiszenzoros AI-modell, amely hatféle adatot kombinál

A Meta bemutatott egy nyílt forráskódú AI-modellt, az ImageBind-et, amely hat adatfolyamot integrál, előrevetítve a jövő magával ragadó, multiszenzoros AI-élményeit.

A Meta nemrég jelentette be az ImageBind nevű nyílt forráskódú AI-modellt, amely több adatfolyamot integrál, köztük szöveget, hangot, vizuális adatokat, hőmérsékletet és mozgásérzékeléseket. Bár az ImageBind egyelőre kutatási projekt, amelynek nincsenek közvetlen fogyasztói vagy gyakorlati alkalmazásai, az ImageBind megmutatja, hogy a jövőbeni mesterséges intelligencia rendszerek képesek lesznek magával ragadó, multiszenzoros élményeket létrehozni.

A modell alapkoncepciója a különböző adattípusok egyetlen többdimenziós indexbe vagy "beágyazási térbe" történő kombinálása. Ez a koncepció hasonló a generatív AI mögött álló koncepcióhoz, például az olyan mesterséges intelligencia képgenerátorokhoz, mint a DALL-E, a Stable Diffusion és a Midjourney, amelyek a képzési szakaszban összekapcsolják a szöveget és a képeket.

Az ImageBind az első olyan modell, amely hatféle adatot integrál: vizuális (kép és videó), termikus (infravörös képek), szöveg, hang, mélységinformáció és az inerciális mérőegységek (IMU-k) mozgásmérési adatai, amelyek általában az okostelefonokban és az okosórákban találhatók. A cél az, hogy a jövőbeli mesterséges intelligencia rendszerek képesek legyenek ezeket az adatokat kereszthivatkozással kezelni, hasonlóan ahhoz, ahogyan a jelenlegi mesterséges intelligencia rendszerek a szöveges beviteleket kezelik.

Ennek a technológiának egy lehetséges alkalmazása lehet egy olyan futurisztikus virtuális valóság eszköz, amely nemcsak hang- és vizuális inputot képes generálni, hanem környezetet és fizikai mozgást is szimulál. A felhasználó például kérhetne egy hosszú tengeri utazást, és az eszköz megteremtené a hajón való tartózkodás élményét, a hullámok hangjával, a fedélzet ringatózásának érzésével és a hűvös óceáni szellővel együtt.

A Meta azt sugallja, hogy további szenzoros bemeneti folyamokat, például érintés, beszéd, szaglás és agyi fMRI-jelek is beépíthetők a modellekbe. A vállalat úgy véli, hogy ez a kutatás egy lépéssel közelebb viszi a gépeket az emberek azon képességéhez, hogy egyszerre, holisztikusan és közvetlenül különböző információforrásokból tanuljanak.

Az ImageBind nyílt forráskódúvá tétele figyelemre méltó az AI-iparágban, mivel ellentétben áll az olyan riválisok egyre inkább titkolózó gyakorlatával, mint az OpenAI és a Google. A nyílt forráskód támogatói azzal érvelnek, hogy ez lehetővé teszi harmadik felek számára, hogy megvizsgálják a rendszereket a hibák után és potenciálisan még kereskedelmi előnyöket is kínálnak azáltal, hogy külső fejlesztőket vonnak be a munka javítására.

Megosztás Facebookon