A Microsoft AI csapata egy kompakt, mégis hatékony kódgeneráló modellt mutatott be phi-1 néven, amely a nagyobb nyelvi modellekhez, például a GPT-3.5-höz képest kimagasló teljesítményt mutatott.
A Microsoft AI kutatócsoportja nemrégiben bemutatott egy új, könnyű kódgeneráló modellt, a phi-1-et, amely felülmúlja a GPT-3.5, a ChatGPT mögött álló robusztus nyelvi modell teljesítményét. A GitHub Copilot alapjául szolgáló, 12 milliárd paramétert tartalmazó OpenAI Codex modellhez képest a Transformer-alapú phi-1 modell mindössze 1,3 milliárd paraméterrel rendelkezik. Az Nvidia nyolc A100-as chipjén négy nap alatt kiképzett phi-1-et hatmilliárd webes token és további egymilliárd, a GPT-3.5 által generált token felhasználásával oktatták. Teljesítményét tekintve a phi-1 felülmúlta társait a HumanEval benchmarkon, 50,6%-os pontosságot ért el, és ezzel felülmúlta a Hugging Face StarCoder-ét, az OpenAI GPT-3.5-ét és a Google PaLM 2-S-ét. Az MBPP teszten a phi-1 még a 15 milliárd paraméteres WizardCoder modellt is felülmúlta 55,5%-os eredményével. A phi-1 magas teljesítményét a Microsoft kutatói szerint a kiváló minőségű adatok használatának tulajdonítják. Úgy vélik, hogy egy jól felépített, mélyreható tankönyvvel egyenértékű adat jelentősen növelheti egy nyelvi modell jártasságát a kódgenerálási feladatokban. A phi-1 jelenlegi verziója azonban a Python kódolásra korlátozódik, és nem rendelkezik olyan szakterület-specifikus ismeretekkel, mint a sajátos API-kkal való programozás. Munkájuk továbbfejlesztése érdekében a kutatócsoport fontolóra veszi a GPT-4 használatát a képzéshez szükséges szintetikus adatok generálásához, valamint az adatállományuk sokszínűségének és kreativitásának fokozásához. A phi-1 mellett a Microsoft kutatói bemutatták a ZeRO++-t is, egy új módszert a nagy AI-modellek, például a ChatGPT és a GPT-4 előképzésének és finomhangolásának fokozására. A ZeRO++ célja a modell és a GPU-k közötti kommunikáció javítása, különösen akkor, ha a hardver a modellhez képest alulméretezett. Az adatokkal kombinált kvantálási folyamat segítségével a ZeRO++ képes a teljes kommunikációs mennyiséget elődjéhez, a ZeRO-hoz képest négyszeresére csökkenteni anélkül, hogy a modell minőségét veszélyeztetné.