2023.09.27. VipAIR
Miközben az OpenAI a GPT-4-gyel a képfelismerés területére merészkedik, egy nemrégiben megjelent technikai dokumentum feltárja a modell küzdelmeit és az előttünk álló rögös utat.
-
A szöveggenerálásáról ismert OpenAI GPT-4 képelemző képességekkel is büszkélkedhet.
-
Egy nemrégiben megjelent technikai dokumentum rávilágít a modell bizonyos következtetésekkel, torzításokkal és lehetséges visszaélésekkel kapcsolatos küzdelmeire.
-
Az OpenAI aktívan dolgozik a GPT-4V képességeinek biztonságos és felelősségteljes továbbfejlesztését célzó enyhítéseken és fejlesztéseken.
Az
OpenAI GPT-4, amelyet kezdetben a szöveggeneráló képességei miatt ünnepeltek, a képelemzés területére merészkedett és azt ígérte, hogy képes lesz összetett vizuális elemek értelmezésére. A visszaélésekkel és a magánélet védelmével kapcsolatos aggodalmak azonban ahhoz vezettek, hogy ideiglenesen leállították ezeket a képi funkciókat. Az OpenAI nemrégiben megjelent technikai
dokumentuma szerint, a GPT-4 képelemző eszközeinek (belső nevén GPT-4V) finomítása során felmerült kihívásokkal foglalkozik.
A GPT-4V alkalmazása elsődleges a látássérült felhasználók segítése volt a „Be My Eyes” alkalmazáson keresztül. Az OpenAI és a Red Team szakértőkkel való együttműködése a modell tesztelése során azonban számos nem szándékolt viselkedést tárt fel. A vállalat intézkedéseket vezetett be a rosszindulatú használat megakadályozására, például a CAPTCHA-k feltörésére vagy a fotókból való indokolatlan következtetések levonására. Erőfeszítéseket tettek a torzítások csökkentése érdekében is, különösen a fizikai megjelenéssel, nemmel vagy etnikai hovatartozással kapcsolatosakra.
A modell azonban nem mentes a hibáktól. A GPT-4V időnként félreértelmezi az információkat, tényeket talál ki, vagy figyelmen kívül hagyja a képek lényeges részleteit. Például, bár néha képes azonosítani a mérgező anyagokat, bizonyos vegyi anyagok szerkezetük alapján történő felismerésével nehezen boldogul. Az orvosi területen a GPT-4V következetlenségei nyilvánvalóvá válnak, ami téves diagnózisokhoz vezethet. Továbbá a modell néha nem ismeri fel bizonyos szimbólumok jelentőségét, vagy akár gyűlölködő alakokat dicsőítő tartalmakat is produkál.
Az OpenAI elismeri, hogy a GPT-4V még mindig fejlődik. A vállalatnak szigorú biztosítékokat kellett érvényre juttatnia, hogy a modell ne terjesszen téves információkat vagy sértse meg a magánéletet. Miközben az OpenAI azon dolgozik, hogy a GPT-4V képességeit biztonságosan fejlessze, a technikai dokumentum kiemeli, hogy a képelemzés mesterséges intelligenciával történő tökéletesítéséhez vezető út még messze nem ért véget.