Az OpenAI új API-jai a szavakat képpé és beszéddé alakítják át

Az OpenAI új API-jai a képzeletet látványelemekké és a szöveget párbeszédekké alakítva új mércét állítanak fel a kreatív AI-alkalmazások terén.

  • Az OpenAI elindította a DALL-E 3 API-t, amely nagy felbontású képgenerálást kínál beépített moderálással a visszaélések megelőzése érdekében.

  • Az új Audio API hat előre beállított hangot kínál, aminek célja a természetes interakció és az alkalmazásokhoz való hozzáférés.

  • Az OpenAI legújabb beszédfelismerő modellje, a Whisper large-v3, jobb teljesítményt ígér és mostantól elérhető a GitHubon, megengedő licenc alatt.

Az OpenAI jelentős ugrást tett a mesterséges intelligencia terén a DALL-E 3 API bevezetésével, amely egy fejlett szöveg-kép modell, amely lehetővé teszi a fejlesztők számára, hogy a szöveges felszólításokat nagy felbontású képekké alakítsák. Ez az új API számos formátumlehetőséggel és felbontással rendelkezik, biztosítva a képgenerálás sokoldalúságát és kreativitását. Jelenleg azonban hiányzik belőle a meglévő képek szerkesztésének vagy variációinak létrehozása, ami az elődjében, a DALL-E 2-ben is jelen volt. A biztonság és a részletesség növelése érdekében az OpenAI a generálási kérések automatikus átírását valósította meg, ami a megadott súgók alapján befolyásolhatja az eredmények pontosságát.

A hallással kapcsolatos innováció terén az OpenAI új Audio API-ja egy szövegfelolvasó csoda, amely hat különböző hangot kínál. Ennek a technológiának a célja, hogy természetesebb és elérhetőbb alkalmazás interakciókat hozzon létre, megnyitva az ajtókat olyan alkalmazások előtt, mint a nyelvtanulás és a hangalapú szolgáltatások. Bár nem teszi lehetővé az érzelmi hangszín szabályozását, az API árnyalt hanggenerálását befolyásolják a szöveg olyan jellemzői, mint a nagybetűs írásmód és a nyelvtan, bár az OpenAI belső tesztjei során e hatások eredményei nem voltak következetesek.

Ezeket kiegészítve az OpenAI frissítette automatikus beszédfelismerő modelljét, a Whisper large-v3-at is, amely az ígéretek szerint több nyelven is javított teljesítményt nyújt. Ez a modell mostantól elérhető a GitHub-on, felkérve a fejlesztőket, hogy rugalmas licenc alapján integrálják és építsenek rá. Az OpenAI innováció iránti elkötelezettsége egyértelmű, mivel továbbra is feszegeti az AI-által lehetséges képi és hangzási lehetőségek határait.

Megosztás Facebookon