A Microsoftnak van egy új AI-modellje - a Kosmos-1

2023.03.03. 10:33 VipAIR

A Microsoft bemutatta a Kosmos-1-et, egy multimodális nagy nyelvi modellt, amely képes a vizuális jelek megértésére és a nyelvi utasításokra való reagálásra is.

A Microsoftnak van egy új AI-modellje - a Kosmos-1

A Microsoft a közelmúltban mutatta be új mesterséges intelligencia-modelljét, a Kosmos-1-et, amely egy multimodális nagy nyelvi modell (MLLM), amely nemcsak a nyelvi, hanem a vizuális jelzésekre is képes reagálni, így számos feladatra, többek között képfeliratozásra és vizuális kérdések megválaszolására is alkalmas. Míg az LLM-ek a szöveges be- és kimeneti képességeikről ismertek, a Kosmos-1 képes multimodális bemeneteket érzékeli, ami kulcsfontosságú több nagy értékű területen, például a multimodális gépi tanulás, a dokumentum-intelligencia és a robotika számára.

A Microsoft AI kutatói szerint a nyelvi modelleknek multimodális érzékelésre, ismeretszerzésre és a valós világban való „alapozásra” van szükségük ahhoz, hogy a ChatGPT-szerű képességeken túlmutatva a mesterséges általános intelligencia (AGI) irányába lépjenek. A megalapozás a nyelvi modellek valós feladatokhoz való igazítását jelenti és kulcsfontosságú a robotikában, ahol a robotok követik a fizikai feladatok emberi leírásait.

Ha többet akarsz tudni, kövess minket Facebookon!

A Kosmos-1 MLLM képes általános módozatokat érzékelni, utasításokat követni (zero-shot learning) és kontextusban tanulni (few-shot learning). Alkalmazásai közül néhány: megmondja egy Windows 10 felhasználónak, hogyan indítsa újra a számítógépét, webes keresést kezdeményez egy weboldal olvasásával, értelmezi egy eszköz egészségügyi adatait, és képfeliratokat készít. Bár a modell nem rendelkezik videóelemző képességgel, a modell több helyzetben is képes automatizálni különböző feladatokat, ami jól mutatja a benne rejlő lehetőségeket.

A kutatók a Kosmos-1-et a Raven IQ tesztben is próbára tették, ahol az eredmények azt mutatták, hogy az MLLM-ek képesek "felfogni absztrakt fogalmi mintákat nonverbális kontextusban" azáltal, hogy az érzékelést összehangolják a nyelvi modellekkel. Emellett a Microsoft azt tervezi, hogy a Transformer-alapú nyelvi modellekkel a Bing-et a Google kereső jobb riválisává teszi, a "weboldalak kérdéseinek megválaszolásával" kapcsolatos kutatás célja pedig annak értékelése, hogy a modell képes-e megérteni a weboldalak szemantikáját és szerkezetét.