A Microsoft bejelentette, hogy olyan mesterséges intelligencia (AI) eszközt fejleszt, a VALL-E-t, amely képes klónozni valakinek a hangját egy három másodperces hangfelvételből.
A Microsoft bejelentette, hogy egy VALL-E nevű mesterséges intelligencia eszközön dolgozik, amely képes valakinek a hangját klónozni egy három másodperces hangklipből. A VALL-E, amelyet 60 000 órányi angol beszéddel képeztek ki, képes egy hang utánzására "zéró lövéses forgatókönyvekben", vagyis az AI-eszköz képes arra, hogy egy hangot olyan szavakat mondjon, amelyeket korábban még soha nem hallott a hangtól. A fejlesztők által az eszközt bemutató tanulmány szerint a VALL-E a text-to-speech technológiát használja arra, hogy az írott szavakat "magas színvonalú, személyre szabott" beszédekben beszélt szavakká alakítsa át. A mintavételhez több mint 7000 valódi beszélő felvételét használta fel a LibriLightból, egy önkéntesek által felolvasott, nyilvános szövegekből álló hangoskönyv-adathalmazból. A Microsoft mintákat tett közzé arról, hogyan működne a VALL-E, bemutatva, hogyan klónozzák a beszélő hangját. A mesterséges intelligencia eszköz jelenleg nem nyilvános használatra készült, és a Microsoft nem tette egyértelművé, hogy mi a tervezett célja. A kutatók az arXiv tudományos oldalon megosztva eredményeiket elmondták, hogy az eddigi eredmények azt mutatják, hogy a VALL-E "jelentősen felülmúlja" a maga nemében legfejlettebb rendszereket, "a beszéd természetessége és a beszélő hasonlósága tekintetében". Rámutattak azonban arra, hogy a hanglejtések nem sokszínűek a beszélők között, és hogy a szintetizált beszédben egyes szavak "nem voltak egyértelműek, kimaradtak vagy megkettőződtek". A VALL-E-vel és annak kockázataival kapcsolatban etikai figyelmeztetést is megfogalmaztak, mondván, hogy az eszközzel vissza lehet élni, például "a hangazonosítás meghamisítására vagy egy adott beszélő megszemélyesítésére".