A TinyLlama: 3 billiónyi token kiképzése egy kompakt AI-modellben

Amikor a méret számít, de nem a gondolkodásmód! Egy új AI-modell, a TinyLlama elképesztő hárombillió tokenre való kiképzésével ez megvalósítható lesz.

  • A fejlesztők a peremeszközökre optimalizált, kisebb AI-modelleket keresnek.

  • A TinyLlama, a Szingapúri Műszaki és Tervezési Egyetem projektje egy kompakt modell előzetes betanítását tűzte ki célul három trillió tokenre.

  • A modell tömörségét a korlátozott számítási és memóriaigényű alkalmazásokhoz, például a valós idejű gépi fordításhoz tervezték.

A fejlesztők manapság a kisebb AI-modellek felé hajlanak, különösen, ha korlátozott memóriával és számítási kapacitással rendelkező peremeszközökről van szó. Andrej Karpathy, a Tesla korábbi vezető AI-igazgatója még azt is sugallja, hogy ezek az apró modellek segíthetnek nagyobb társaik dekódolásában. Itt lép be a TinyLlama, egy merész projekt, amelynek élére a Szingapúri Műszaki és Tervezési Egyetem egyik kutatóasszisztense állt. Ez a projekt egy 1,1 milliárd Llama-modell előzetes betanítását tűzte ki célul, elképesztő három trillió tokenre, miközben mindössze 550 MB RAM-ot foglal el.

A TinyLlama szépsége a tömörségében rejlik. Kialakítása olyan, hogy a szűk számítási és memóriaterületet igénylő alkalmazások széles körét képes kiszolgálni. Képzelje el a valós idejű gépi fordítást internetkapcsolat nélkül, ez a TinyLlama potenciális ereje. A modell képzése szeptember 1-jén kezdődött, 16 A100-40G GPU felhasználásával, azzal az ambiciózus céllal, hogy mindössze három hónap alatt befejeződjön. Mostanáig már 105 milliárd tokent dolgoztak fel.

Ami még érdekesebb, hogy a TinyLlama csapata ugyanazt az architektúrát és tokenizálót használja, mint a Meta a Llama 2 esetében. Ez azt jelenti, hogy zökkenőmentesen integrálható a Llama-ra épülő nyílt forráskódú projektekkel. A TinyLlama adatkészlete a Cerebras Systems Slimpajama és a StarCoder kódgeneráló modellhez használt Starcoderdata keveréke. A TinyLlama elkészülte után csatlakozik a kompakt nyelvi modellek sorához, amelyeket a fejlesztők innovatív alkalmazások építéséhez használnak.

Megosztás Facebookon