A Google Gemini már videókat is ért – itt az AI, ami megnézi helyettünk a YouTube-ot?

2025.06.18. 12:49 Horváth Péter

A mesterséges intelligencia mostantól nemcsak szöveget vagy képeket, hanem teljes videókat is képes feldolgozni: a Google Gemini új funkciója forradalmi, mégis felvet komoly kérdéseket is.

A Google Gemini már videókat is ért – itt az AI, ami megnézi helyettünk a YouTube-ot?

A Google mesterséges intelligenciája, a Gemini új szintre lépett: képes videók tartalmát elemezni, azaz megérti, mi történik a képkockákon, kérdésekre válaszol a látottakkal kapcsolatban, és a jövőben akár automatikusan is összefoglalhatja a tartalmat.

Ez elsőre izgalmasnak tűnik – főleg, ha tanulásról, információszerzésről vagy a digitális oktatásról van szó. De ugyanilyen gyorsan vetődnek fel etikai, adatvédelmi és nevelési dilemmák is: mi történik, ha az AI félreértelmez egy videót, vagy olyan tartalmat ajánl, amit gyerekek is megnézhetnek, de nem nekik való?

Ha többet akarsz tudni, kövess minket Facebookon!

Mit tud pontosan a Google Gemini?

A Gemini új funkciója lehetővé teszi, hogy a felhasználó egyszerűen megadjon egy YouTube-videó linket, majd a mesterséges intelligencia:

automatikusan azonosítsa a jeleneteket,
összefoglalja a történteket,
kérdésekre válaszoljon a videó egyes részeiről (pl. „Mi történik a 18. másodpercben?”, „Milyen színű a ruha a szereplőn?”).

A 9to5Google beszámolója szerint mostantól közvetlenül feltölthetünk videókat is elemzésre az Androidos Gemini appba. A folyamat hasonló, mint amikor képet csatolunk: a + gombra kattintva a galériából választhatunk videóklipet, majd a feltöltés után:

kérhetünk összefoglalót a tartalomról,
kereshetünk jelenetekre, tárgyakra,
a Gemini szöveges válasza mellett megjelenik a kapcsolódó videórészlet is.

Fontos tudni, hogy a hosszabb klipeknél az elemzés több időt is igénybe vehet – vagyis ez nem mindig azonnali művelet. A multimodális mesterséges intelligencia tehát szintet lépett.

^{Mit jelent az, hogy multimodális mesterséges intelligencia?}
^{Olyan AI-rendszer, amely különböző típusú adatokat – például szöveget, képet, hangot és videót – egyidejűleg képes értelmezni. Ez a típusú gépi tanulás a korábbi modellekhez képest komplexebb és sokkal „emberibb” módon képes feldolgozni az információkat.}