A Meta egy új nyelvfelismerő AI-t mutatott be, amely több mint 4000 nyelv megértésére és több mint 1100 nyelv szöveges beszéd előállítására képes.
A hagyományos AI-modellektől jelentősen eltérve a Meta kifejlesztette a Massively Multilingual Speech (MMS) projektet, egy olyan mesterséges intelligenciát, amely több mint 4000 nyelvet képes felismerni és több mint 1100 nyelven képes beszédet generálni. A globális nyelvi sokféleség fenntartása érdekében a technológiai óriás nyílt forráskódúvá teszi az MMS-t, így a kutatók világszerte továbbfejleszthetik és építhetnek erre a robusztus alapra. A beszédfelismerő és szövegből beszéddé alakító modellek általában több ezer órányi hangképzést igényelnek a megfelelő átírási címkékkel együtt. Ez különösen nagy kihívást jelent a kevésbé beszélt nyelvek esetében, amelyeket gyakran az eltűnés veszélye fenyeget. A Meta innovatív megoldása a lefordított vallási szövegek hangfelvételeinek felhasználásával valósult meg, amely stratégia jelentősen kibővítette az MMS modell által támogatott nyelvek körét. Az adatok vallási eredete ellenére a Meta biztosította a felhasználókat, hogy a modell nem mutat vallási vagy nemi előítéleteket. Ezt az időbeli osztályozási (CTC) megközelítés használatának tulajdonítják, amely más nagy nyelvi modellekhez képest viszonylag korlátozott. Továbbá, annak ellenére, hogy az adatokban a férfi hangok túlsúlyban vannak, a modell ugyanolyan jól teljesít férfi és női hangokkal. Végül a Meta saját "ön felügyelt beszédreprezentációs tanulási" modelljének, a wav2vec 2.0-nak az alkalmazásával lenyűgöző eredményeket ért el. A Meta azonban emlékezteti a felhasználókat, hogy ezek a modellek nem hibátlanok, és hangsúlyozza a közösségi együttműködés fontosságát a mesterséges intelligencia technológiák tökéletesítésében. Az MMS nyílt forráskódú kiadásával a Meta optimista a nyelvi sokszínűség csökkenő tendenciájának ellensúlyozásában és egy olyan jövő kialakításában, ahol a technológia elősegíti az anyanyelvek megőrzését és használatát.