2023.06.24. VipAIR
A Microsoft AI csapata egy kompakt, mégis hatékony kódgeneráló modellt mutatott be phi-1 néven, amely a nagyobb nyelvi modellekhez, például a GPT-3.5-höz képest kimagasló teljesítményt mutatott.

A
Microsoft AI kutatócsoportja nemrégiben bemutatott egy új, könnyű kódgeneráló modellt, a phi-1-et, amely felülmúlja a GPT-3.5, a
ChatGPT mögött álló robusztus nyelvi modell teljesítményét. A
GitHub Copilot alapjául szolgáló, 12 milliárd paramétert tartalmazó
OpenAI Codex modellhez képest a Transformer-alapú phi-1 modell mindössze 1,3 milliárd paraméterrel rendelkezik. Az
Nvidia nyolc A100-as chipjén négy nap alatt kiképzett phi-1-et hatmilliárd webes token és további egymilliárd, a GPT-3.5 által generált token felhasználásával oktatták.
Teljesítményét tekintve a phi-1 felülmúlta társait a HumanEval benchmarkon, 50,6%-os pontosságot ért el, és ezzel felülmúlta a
Hugging Face StarCoder-ét, az
OpenAI GPT-3.5-ét és a
Google PaLM 2-S-ét. Az MBPP teszten a phi-1 még a 15 milliárd paraméteres
WizardCoder modellt is felülmúlta 55,5%-os eredményével.
A phi-1 magas teljesítményét a Microsoft kutatói szerint a kiváló minőségű adatok használatának tulajdonítják. Úgy vélik, hogy egy jól felépített, mélyreható tankönyvvel egyenértékű adat jelentősen növelheti egy nyelvi modell jártasságát a kódgenerálási feladatokban. A phi-1 jelenlegi verziója azonban a
Python kódolásra korlátozódik, és nem rendelkezik olyan szakterület-specifikus ismeretekkel, mint a sajátos API-kkal való programozás. Munkájuk továbbfejlesztése érdekében a kutatócsoport fontolóra veszi a
GPT-4 használatát a képzéshez szükséges szintetikus adatok generálásához, valamint az adatállományuk sokszínűségének és kreativitásának fokozásához.
A phi-1 mellett a Microsoft kutatói bemutatták a ZeRO++-t is, egy új módszert a nagy AI-modellek, például a ChatGPT és a GPT-4 előképzésének és finomhangolásának fokozására. A ZeRO++ célja a modell és a GPU-k közötti kommunikáció javítása, különösen akkor, ha a hardver a modellhez képest alulméretezett. Az adatokkal kombinált kvantálási folyamat segítségével a ZeRO++ képes a teljes kommunikációs mennyiséget elődjéhez, a ZeRO-hoz képest négyszeresére csökkenteni anélkül, hogy a modell minőségét veszélyeztetné.