A Google Muse modellje a generatív mesterséges intelligencia fejlődését mutatja be

A Google bemutatta legújabb, Muse nevű szöveg-kép modelljét, amely elődeihez képest nagyobb hatékonysággal és pontossággal büszkélkedhet.

A Google bemutatta legújabb szöveg-kép modelljét, a Muse-t, amely a generatív mesterséges intelligencia fejlődését mutatja be. Más szövegből képbe modellekhez hasonlóan a Muse is egy mély neurális hálózat, amely bemenetként egy szöveges kérést fogad el, és a leírásnak megfelelő képet generál. A Muse-t azonban hatékonysága és pontossága különbözteti meg elődeiétől. A Google kutatóinak a területen végzett korábbi munkák tapasztalataira építve és új technikákat hozzáadva sikerült egy olyan generatív modellt létrehozniuk, amely kevesebb számítási erőforrást igényel, és előrelépést tesz néhány olyan probléma megoldásában, amelyektől más generatív modellek szenvednek.

A Muse a mélytanulás területén végzett korábbi kutatásokra épül, beleértve a nagy nyelvi modelleket (LLM), a kvantált generatív hálózatokat és a maszkolt generatív képtranszformátorokat. "Erős motiváció volt az érdeklődésünk a kép- és szöveggenerálás egyesítése iránt a tokenek használata révén" - mondta Dilip Krishnan, a Google kutatója. "A Muse a MaskGitben, a csoportunk egy korábbi munkájában szereplő ötletekre, valamint a nagy nyelvi modellekből származó maszkoló modellezési ötletekre épül."

A Muse és más hasonló modellek közötti egyik érdekes különbség a diszkrét tokenek generálása a pixel szintű reprezentációk helyett, ami sokkal stabilabbá teszi a modell kimenetét. Más szöveg-kép generátorokhoz hasonlóan a Muse-t is kép-felirat párok nagy korpuszán képezték ki. Egy előképzett LLM feldolgozza a feliratot, és létrehoz egy beágyazást, a szöveges leírás többdimenziós numerikus reprezentációját.

A kutatócsoport által közzétett eredmények szerint a Muse a CLIP- és FID-pontszámok tekintetében megegyezik a többi korszerű modellel, vagy felülmúlja azokat. A Google egyelőre nem adta ki a Muse-t a nyilvánosság számára, mivel fennáll a veszélye annak, hogy a modellt "félretájékoztatásra, zaklatásra és különböző típusú társadalmi és kulturális elfogultságokra" használják fel.

Megosztás Facebookon