2023.11.07. VipAIR
Az OpenAI új API-jai a képzeletet látványelemekké és a szöveget párbeszédekké alakítva új mércét állítanak fel a kreatív AI-alkalmazások terén.
-
Az OpenAI elindította a DALL-E 3 API-t, amely nagy felbontású képgenerálást kínál beépített moderálással a visszaélések megelőzése érdekében.
-
Az új Audio API hat előre beállított hangot kínál, aminek célja a természetes interakció és az alkalmazásokhoz való hozzáférés.
-
Az OpenAI legújabb beszédfelismerő modellje, a Whisper large-v3, jobb teljesítményt ígér és mostantól elérhető a GitHubon, megengedő licenc alatt.
Az
OpenAI jelentős ugrást tett a mesterséges intelligencia terén a
DALL-E 3 API bevezetésével, amely egy fejlett szöveg-kép modell, amely lehetővé teszi a fejlesztők számára, hogy a szöveges felszólításokat nagy felbontású képekké alakítsák. Ez az új API számos formátumlehetőséggel és felbontással rendelkezik, biztosítva a képgenerálás sokoldalúságát és kreativitását. Jelenleg azonban hiányzik belőle a meglévő képek szerkesztésének vagy variációinak létrehozása, ami az elődjében, a
DALL-E 2-ben is jelen volt. A biztonság és a részletesség növelése érdekében az OpenAI a generálási kérések automatikus átírását valósította meg, ami a megadott súgók alapján befolyásolhatja az eredmények pontosságát.
A hallással kapcsolatos innováció terén az OpenAI új
Audio API-ja egy szövegfelolvasó csoda, amely hat különböző hangot kínál. Ennek a technológiának a célja, hogy természetesebb és elérhetőbb alkalmazás interakciókat hozzon létre, megnyitva az ajtókat olyan alkalmazások előtt, mint a nyelvtanulás és a hangalapú szolgáltatások. Bár nem teszi lehetővé az érzelmi hangszín szabályozását, az API árnyalt hanggenerálását befolyásolják a szöveg olyan jellemzői, mint a nagybetűs írásmód és a nyelvtan, bár az OpenAI belső tesztjei során e hatások eredményei nem voltak következetesek.
Ezeket kiegészítve az OpenAI frissítette automatikus beszédfelismerő modelljét, a
Whisper large-v3-at is, amely az ígéretek szerint több nyelven is javított teljesítményt nyújt. Ez a modell mostantól
elérhető a
GitHub-on, felkérve a fejlesztőket, hogy rugalmas licenc alapján integrálják és építsenek rá. Az OpenAI innováció iránti elkötelezettsége egyértelmű, mivel továbbra is feszegeti az AI-által lehetséges képi és hangzási lehetőségek határait.