A Meta új AI-modellje, a Voicebox átalakítja a szövegről beszédre történő beszédkészítés területét és ugrásszerű előrelépést tesz a természetes, emberszerű beszéd utánzásában.
A Voicebox, a Meta legújabb innovációja, egy élvonalbeli szövegfelolvasó modell, amelynek célja a hanggenerálás átalakítása, hasonlóan ahhoz, amit az OpenAI ChatGPT és a Dall-E elért a szöveg-, illetve a képgenerálás terén. A Meta nem autoregresszív folyam-illesztési modellként definiálta, több mint 50 000 órányi szűretlen hanganyagon képezték ki, beszédfelvételek és nyilvános hangoskönyvek átiratai alapján, több nyelven, többek között angolul, franciául, spanyolul, németül, lengyelül és portugálul. Az adatok széles spektruma felruházta a rendszert azzal a képességgel, hogy a használt nyelvtől függetlenül képes társalgási hangzású beszédet generálni. A Voicebox által generált szintetikus beszéd lenyűgözően teljesített a teszteken, mindössze 1 százalékos hibaarányt mutatott, ami szöges ellentétben áll a meglévő szöveg-beszéd modellek esetében megfigyelhető 45-70 százalékkal. A Voiceboxot kezdetben arra képezték ki, hogy a beszédszegmenseket a környező kontextus és a szöveg átirata alapján jósolja meg. Ezzel a modell képes beszédszegmenseket generálni anélkül, hogy a teljes bemenetet újra kellene alkotnia, ami figyelemre méltó rugalmasságot mutat. A generáláson túl a Voicebox állítólag képes a hangklipek aktív szerkesztésére, a zajok eltávolítására és akár a hibás szavak helyettesítésére is, hasonlóan ahhoz, ahogyan a képszerkesztő szoftverek segítségével tisztítják a képeket. A Voicebox eltér a hagyományos szöveg-beszéd képzési módszerektől, mivel egy új megközelítést alkalmaz, amelyet Flow Matching-nek neveznek. A rendszer a meglévő megoldásokhoz képest kiváló teljesítményt mutatott az érthetőség és a hanghasonlóság tekintetében, miközben hússzor gyorsabban működik. A benne rejlő lehetőségek ellenére a Meta úgy döntött, hogy a Voicebox alkalmazást vagy annak forráskódját nem adja ki a nyilvánosság számára a lehetséges visszaélési kockázatok miatt. A csapat azonban bízik abban, hogy a technológia végül utat talál majd különböző alkalmazásokban, például hangszálsérült protézisekben, játékbeli NPC-kben és digitális asszisztensekben.