A Databricks és a Hugging Face együttműködik az AI modellépítés fokozása érdekében

A Databricks és a Hugging Face olyan integrációt indított, amely egyszerűbb módszert kínál az adatok betöltésére és átalakítására az AI modellek képzéséhez és finomhangolásához.

Az adattudósok és az AI-fejlesztők mostantól kihasználhatják ezt az új integrációt, hogy hatékony adatátalakítást hajthassanak végre hatalmas AI-adatkészleteken, mindkét világ legjobbjaival: a Apache Spark költségmegtakarítási és sebességelőnyeit a Hugging Face adatkészletek memória-leképezésével és intelligens gyorsítótárazási optimalizálásával.

A Databricks és a Hugging Face új integrációja megkönnyíti a magas minőségű adathalmazok létrehozását az AI-modellek számára. A Databricks állítása szerint ez az integráció leegyszerűsíti a modellképzéshez és -hangoláshoz szükséges adatkezelés folyamatát és így egy nagyon szükséges eszközt biztosít az AI-fejlesztéshez.

A Spark adatkeret biztosításával a felhasználók könnyedén hozzáférhetnek egy teljesen betöltött Hugging Face adatkészlethez a kódbázisukban a „_from_spark_” függvény egyszerű meghívásával. Ez az integráció jelentősen csökkenti az adatok súrlódását a Sparkból a Hugging Face adatkészletekbe, az új modellek betanításához, kiküszöbölve a bonyolult és időigényes adat-előkészítési folyamatok szükségességét.

Ez az új funkció lehetővé teszi a felhasználók számára, hogy a Sparkban rejlő teljes potenciált kiaknázzák a modellek hangolásához és jelentős előrelépést jelent az AI-modellek fejlesztése terén, lehetővé téve a szervezetek számára, hogy gyorsan és megbízhatóan hatalmas mennyiségű adatot dolgozzanak fel a gépi tanulási munkafolyamatok működtetéséhez.

Hagyományosan a felhasználóknak az adatokat parkettfájlokba kellett írniuk, majd azokat az Hugging Face adatkészletek segítségével újra be kellett tölteniük. Mégis, az új „_from_spark_” funkcióval a felhasználók mostantól a Spark segítségével hatékonyan tölthetik be és alakíthatják át adataikat a képzéshez, drámaian csökkentve az adatfeldolgozási időt és költségeket.

A Databricks állítása szerint az új Spark integráció több mint 40%-kal csökkentette egy 16 GB-os adathalmaz feldolgozási idejét, 22 percről 12 percre. Ez az új integráció a Spark párhuzamosítási képességeit használja ki az adathalmazok letöltéséhez és feldolgozásához, kihagyva az adatok újraformázásához szükséges extra lépéseket.

Az új integráció célja a nyílt forráskódú közösség támogatása, a Databricks állítása szerint a Hugging Face kiemelkedik a nyílt forráskódú modellek és adathalmazok szállításában. A Databricks azt tervezi, hogy a Sparkon keresztül streaming támogatást hoz az adathalmazok betöltésének javítása érdekében, hozzájárulva a nyílt forráskódú mesterséges intelligencia fejlesztéséhez.

Megosztás Facebookon