A Google legújabb AI-innovációja, az Imagen 2

2023.12.14. 17:27 VipAIR

A Google legújabb AI-innovációja, az Imagen 2 eddig nem látott képességeket kínál a képgenerálásban, fejlett szöveg- és logómegjelenítéssel és többnyelvűséggel rendelkezik.

A Google Imagen 2, egy fejlett AI-modell, most jobb képminőséget, valamint több nyelvű szöveg és logó létrehozásának lehetőségét kínálja.
Elődjével ellentétben az Imagen 2 újszerű képzési technikákat és vízjel-technológiát tartalmaz a jobb képhitelesség és a szellemi tulajdonjogok védelme érdekében.
Ha többet akarsz tudni, kövess minket Facebookon!
A fejlesztések ellenére a Google továbbra is hallgat az Imagen 2 által használt képzési adatokról, ami kérdéseket vetve fel a szerzői jogokkal és az alkotók kompenzációjával kapcsolatban.

A Google a közelmúltban mutatta be Imagen 2-t, az Imagen nevű mesterséges intelligencia modelljének második generációját, amely most már továbbfejlesztett képességekkel büszkélkedhet a szöveges felszólítások alapján történő képalkotás és képszerkesztés terén. Az új verzió, amely jelenleg a Google Cloud kiválasztott ügyfelei számára elérhető, jelentős javulást jelent elődjéhez képest a képminőség tekintetében és bevezeti a szöveg és logók képekben való megjelenítésének lehetőségét.

A Google DeepMind technológiájának felhasználásával kifejlesztett Imagen 2 kiemelkedik többnyelvű képességeivel, olyan nyelveket támogatva, mint a kínai, a hindi, a japán, a koreai, a portugál, az angol és a spanyol. Ez a funkció más vezető képgeneráló modellek, például az OpenAI DALL-E 3 és az Amazon Titan Image Generator mellé helyezi, de azzal a hozzáadott képességgel, hogy logókat helyezhet el különböző felületeken, és lefordíthatja a különböző nyelvekre a felszólításokat.

Az Imagen 2 egyik legfontosabb előrelépése az újszerű képzési és modellezési technikák alkalmazása, amelyek javítják a leíró, hosszú formátumú utasítások megértését és a többnyelvűségét. Ez lehetővé teszi a mesterséges intelligencia számára, hogy részletes válaszokat adjon a kép elemeire vonatkozó kérdésekre és lefordítsa az utasításokat egyik nyelvről a másikra, ami a képgenerálás sokoldalúságának új szintjét adja.

A szellemi tulajdon védelmét illetően az Imagen 2 a DeepMind által kifejlesztett SynthID módszerrel láthatatlan vízjeleket alkalmaz az általa generált képekre. Ezeket a vízjeleket úgy tervezték, hogy ellenálljanak a különböző képszerkesztéseknek, beleértve a tömörítést és a színbeállításokat. A vízjelek észleléséhez azonban a Google által biztosított, harmadik felek számára nem elérhető eszközre van szükség, ami aggodalomra ad okot az AI-által generált félretájékoztatásokkal kapcsolatban.

E technológiai előrelépések ellenére a Google nem hozta nyilvánosságra az Imagen 2 képzése során felhasznált adatokat, ami eltér az első generációs Imagen esetében alkalmazott megközelítéstől. Az átláthatóság hiánya, valamint a beleegyezés visszavonásának mechanizmusa, vagy az alkotók kompenzációs rendszerének hiánya tükrözi több AI-gyártó óvatos hozzáállását a nyilvánosan elérhető adatok mesterséges intelligencia képzésben való felhasználásáról a folyó jogi viták közepette.