A mesterséges intelligencia mostantól nemcsak szöveget vagy képeket, hanem teljes videókat is képes feldolgozni: a Google Gemini új funkciója forradalmi, mégis felvet komoly kérdéseket is.

A Google mesterséges intelligenciája, a Gemini új szintre lépett: képes videók tartalmát elemezni, azaz megérti, mi történik a képkockákon, kérdésekre válaszol a látottakkal kapcsolatban, és a jövőben akár automatikusan is összefoglalhatja a tartalmat.
Ez elsőre izgalmasnak tűnik – főleg, ha tanulásról, információszerzésről vagy a digitális oktatásról van szó. De ugyanilyen gyorsan vetődnek fel etikai, adatvédelmi és nevelési dilemmák is: mi történik, ha az AI félreértelmez egy videót, vagy olyan tartalmat ajánl, amit gyerekek is megnézhetnek, de nem nekik való?
A Gemini új funkciója lehetővé teszi, hogy a felhasználó egyszerűen megadjon egy YouTube-videó linket, majd a mesterséges intelligencia:
A 9to5Google beszámolója szerint mostantól közvetlenül feltölthetünk videókat is elemzésre az Androidos Gemini appba. A folyamat hasonló, mint amikor képet csatolunk: a + gombra kattintva a galériából választhatunk videóklipet, majd a feltöltés után:
Fontos tudni, hogy a hosszabb klipeknél az elemzés több időt is igénybe vehet – vagyis ez nem mindig azonnali művelet. A multimodális mesterséges intelligencia tehát szintet lépett.
Mit jelent az, hogy multimodális mesterséges intelligencia?
Olyan AI-rendszer, amely különböző típusú adatokat – például szöveget, képet, hangot és videót – egyidejűleg képes értelmezni. Ez a típusú gépi tanulás a korábbi modellekhez képest komplexebb és sokkal „emberibb” módon képes feldolgozni az információkat.