A Stability AI bemutatja a Stable Audio-t, amely elérhetővé teszi a szöveg-hang generálást

2023.09.14. 08:22 VipAIR

Képzelje el, hogy begépel egy szöveget és hallja, ahogy az zeneként életre kel. Üdvözöljük a Stability AI, Stable Audio által szövegből hanggá generálás korszakában.

A Stability AI bemutatja a Stable Audio-t, amely elérhetővé teszi a szöveg-hang generálást

A Stability AI bemutatja a Stable Audio-t, amely lehetővé teszi a felhasználók számára, hogy szöveges utasításokból hangklipeket generáljanak.
A technológia a Stability AI kutatóstúdiójában, a Harmonai-ban gyökerezik és egy Diffusion-modellt használ.
Ha többet akarsz tudni, kövess minket Facebookon!
A Stable Audio-ból ingyenes és prémium csomagok is vannak, amelynek célja, hogy a hanggenerálás mindenki számára elérhető legyen.

A Stability AI, a generatív AI technológia úttörője bemutatta legújabb csodáját: a Stable Audio-t. Ez az innovatív technológia képessé teszi a felhasználókat arra, hogy egyszerű szöveges utasításokat magával ragadó hangklipekké alakítsanak. A korábban a Stable Diffusion szöveg-kép generálásáról ismert Stability AI betör a hangok birodalmába is.

Az év elején a Stability AI a StableCode bevezetésével és a jobb képkompozíciót biztosító SDXL alapmodelljük továbbfejlesztésével áll a figyelem középpontjában. A StableAudio, bár egy új képesség, a Stable Diffusion képalkotását működtető alapvető AI-technikákból merít. A titkos összetevő? A hangokra finomhangolt Diffusion-modell, amely teljesen új hangélményeket teremt.

Ed Newton-Rex, a Stability AI audio részlegének felelős alelnöke megosztotta a Stable Audio mögött rejlő egyszerűséget és zsenialitást. „Ön szövegesen leírja a zenét vagy hangot, amit hallani szeretne és a rendszerünk életre kelti azt” – magyarázta. Newton-Rexnek nem ez az első menete a számítógép által generált zenében. Ő alapította a Jukedecket 2011-ben, amely később, 2019-ben a TikTok részévé vált. A Stable Audio gyökerei azonban a Stability AI zenei generáló kutatóstúdiójához, a Harmonai-hoz nyúlnak vissza, amelyet Zach Evans alapított. Evans hangsúlyozta a technológia egyediségét, kiemelve, hogy eltér a hagyományos „szimbolikus generálási” technikáktól. Ahelyett, hogy ismétlődő MIDI-fájlokra támaszkodna, a Stable Audio nyers hangmintákat használ, így biztosítva a kiváló minőségű kimenetet.

De mi a csapda? Bár a felhasználók kísértést érezhetnek arra, hogy ikonikus dallamokat hozzanak létre, a Stable Audio nem arra lett tervezve, hogy konkrét művészeket utánozzon. „Nem a Beatles-en edződtünk” – mutatott rá Ed Newton-Rex, hangsúlyozva, hogy az eszköz az eredetiség elősegítésére összpontosít. Azok számára, akik szívesen belevetnék magukat ebbe a hangzásvilágba, a Stability AI ingyenes verziót kínál a Stable Audio-ból, a kalandvágyóbbak számára pedig prémium csomag is elérhető. „Azt akarjuk, hogy mindenki kísérletezzen és tapasztaljon” – zárta gondolatait Newton-Rex.