A Datasaur olyan innovatív eszközt vezetett be, amely lehetővé teszi a felhasználók számára, hogy könnyedén címkézzék az adatokat és személyre szabott ChatGPT modelleket képezzenek.
A Datasaur, az adatcímkézési platform új funkciót vezetett be, amely támogatja a felhasználókat saját ChatGPT-modellek létrehozásában és képzésében. Ezen legújabb ajánlat célja, hogy egyszerűsítse a nyelvi modellek válaszainak értékelését és rangsorolását és végső soron ezeket használható meglátásokká alakítsa. A vállalat új fejlesztése válasz a természetes nyelvi feldolgozás (NLP), különösen a ChatGPT és a nagy nyelvi modellek (LLM) növekvő jelentőségére. Célja, hogy átfogó segítséget nyújtson a képzéshez szükséges adatok összeállításához, a hangsúlyt a kiváló minőségű képzési adatok szolgáltatására és a torzítások csökkentésére helyezve. A vállalat, amelynek korai befektetői között az OpenAI elnöke, Greg Brockman is szerepel, hangsúlyozta, hogy új funkciója egyszerűbbé teszi a modellek képzését. Tartalmazza az LLM kimenetek értékelésére és rangsorolására szolgáló eszközöket, ezáltal javítva azok minőségét és megkönnyítve az emberi visszajelzésekből történő megerősítő tanulást. A szubjektív elfogultságok leküzdése érdekében egy felülvizsgálati módot építettek be, amely több jegyzet hozzárendelését engedélyezi, lehetővé téve az adattudósok végső ítélethozatalát. Ezenkívül a Datasaur az átláthatóságot és a minőségbiztosítást célzó funkciókat vezet be. Az Inter-Annotator Agreement (IAA) funkció például statisztikai számításokat használ az jegyzetek közötti egyetértési szintek mérésére, segítve a további képzésre szoruló személyek azonosítását. Egy másik figyelemre méltó újítás az eredeti dokumentum bemutatása, amelyből az LLM az információit meríti, ami a félreértelmezések megelőzését és az átláthatóságot szolgálja. Ivan Lee, a Datasaur vezérigazgatója és alapítója felvázolta a vállalat azon törekvését, hogy szélesítse az LLM-ek alkalmazását. Kiemelte az olyan kérdéseket, mint a megfelelés, az adatvédelem és a stratégiai megfontolások, mint potenciális akadályok, különösen az LLM-ek jelenlegi angol nyelvre való összpontosítása miatt, ami korlátozza a globális felhasználói hasznot. A Datasaur ezt az NLP-hez való hozzáférés demokratizálásával és a kézi munka lehető legnagyobb részének automatizálásával kívánja leküzdeni, lehetővé téve a felhasználók számára, hogy bármilyen nyelven dolgozzanak, és hatékonyabban képezzék és fejlesszék az LLM-eket. Végül a Datasaur platformja olyan funkciókat kínál, amelyekkel automatizálható az adatok címkézése, és 30% - 80%-kal csökkenthető a kapcsolódó idő és költség. Ez magában foglalja az olyan bevált modellek használatát, mint a spaCy és az NLTK az entitások azonosításához, a beépített OpenAI API-t az automatizált dokumentumcímkézéshez, valamint a platform emberi visszajelzésből történő megerősítő tanulás (Reinforcement Learning from Human Feedback, RLHF) funkcióját az LLM képzési képességeinek javításához.