A Cerebras bevezeti a nyílt forráskódú generatív AI-t, miközben az OpenAI titokban tartja kutatásait

A generatív AI világában egyre inkább terjedő titkolózási tendenciára válaszul a Cerebras Systems kiadta generatív AI programjainak több, korlátozás nélkül használható, nyílt forráskódú változatát.

A Cerebras Systems bejelentette, hogy több olyan nyílt forráskódú generatív AI-programot adott ki, amelyeket a vállalat "betanított", és amelyek optimális teljesítményét nagy teljesítményű szuperszámítógépének használatával érte el. A Cerebras betöltötte azt a nyilvánosságra hozatalban keletkezett űrt, amelyet olyan vállalatok hagytak, mint az OpenAI, amely úgy döntött, hogy nem teszi közzé a technikai részleteket, amikor kiadta legújabb generatív AI programját, a GPT-4-et, amit az AI-kutatók világában széles körben kritizáltak.

A Cerebras társalapítója és vezérigazgatója, Andrew Feldman kifejtette: "Úgy gondoljuk, hogy egy nyitott, élénk közösség, amelyben startupok, közepes méretű vállalatok és vállalkozások nagy nyelvi modelleket képeznek, jó nekünk, és jó másoknak is". A nagy nyelvi modell olyan mesterséges intelligencia programokra utal, amelyek a gépi tanulás elvein alapulnak, amelyek lehetővé teszik a neurális hálózat számára, hogy rögzítse a szavak statisztikai eloszlását a mintaadatokban.

A generatív AI-modell ugyanezen a gépi tanulási megközelítésen alapul, ahogyan azt az OpenAI Dall-E programja is mutatja, amely egy javasolt mondat alapján képeket generál. A Cerebras hét nagy nyelvi modellt tett közzé, amelyek mérete 111 millió és tizenhárom milliárd paraméter között változik. A kód elérhető a Hugging Face nevű AI-startup honlapján és a GitHub-on, valamint annak a képzési rendnek a részleteivel, amellyel a programokat fejlett funkcionalitási állapotba hozták.

A Cerebras kiadása az első alkalom, hogy a legmodernebb képzési hatékonysági technikákat alkalmazó GPT-stílusú programot hoztak nyilvánosságra. A vállalat nemcsak a programok forrását tette közzé Python és TensorFlow formátumban, hanem a tréningfolyamat részleteit is elérhetővé tette. Ez a közzététel lehetővé teszi a kutatók számára, hogy megvizsgálják és reprodukálják a Cerebras munkáját.

A Cerebras nagy méretű nyelvi modelljeit egy tizenhat CS-2 számítógépből álló, kifejezetten mesterséges intelligencia stílusú programokhoz hangolt klaszteren fejlesztették ki. A klaszter az Andromeda szuperszámítógépeként ismert, amely drámaian le tudja csökkenteni az Nvidia több ezer GPU-chipjén működő LLM-ek betanításának munkáját. Emellett a vállalat felajánlotta az első nyílt forráskódú méretezési törvényt, egy benchmark szabályt arra vonatkozóan, hogy az ilyen programok pontossága hogyan növekszik a nyílt forráskódú adatokon alapuló programok méretével.

A felhasznált adathalmaz a nyílt forráskódú The Pile, egy 825 gigabájtos, főként szakmai és tudományos szövegekből álló gyűjtemény, amelyet 2020-ban mutatott be a nonprofit Eleuther laboratórium. Az OpenAI és a Google DeepMind korábbi méretezési törvényei olyan képzési adatokat használtak, amelyek nem voltak nyílt forráskódúak. Andrew Feldman szerint az igényes természetes nyelvi programok hatékony betanításának képessége a nyílt publikálás kérdéseinek középpontjába áll.

Megosztás Facebookon