A Meta új AI-szenzációja: A Llama 2 Long

Miközben a technológiai világ a Meta egyéb bejelentéseitől zengett, addig a bemutatott Llama 2 Long, egy úttörő AI-modell csendben ellopta a show-t.

  • A Meta bemutatta a Llama 2 Long-ot, a nyílt forráskódú Llama 2 AI-modell továbbfejlesztett változatát.

  • Az új modell felülmúlja a versenytársakat, például az OpenAI GPT-3.5 Turbo és a Claude 2-t a hosszú felhasználói kérésekre adott válaszok generálásában.

  • Az AI-közösség pozitívan fogadta a Llama 2 Long-ot, ami igazolja a Meta nyílt forráskódú megközelítését a generatív AI-terén.

A Meta Platforms az éves Meta Connect konferenciáján finoman bemutatta, az új innovatív AI-modellt, a Llama 2 Long-ot. Ez az új modell a korábban kiadott nyílt forráskódú Llama 2 továbbfejlesztett változata, ami „folyamatos előképzésen” esett át hosszabb képzési szekvenciákkal és egy olyan adatkészlettel, amely a hosszabb szövegeket helyezi előtérbe. Az eredmény egy olyan mesterséges intelligencia modell, amely kiemelkedik a hosszabb felhasználói kérésekre adott válaszok generálásában és még az olyan neves modelleket is felülmúlja, mint az OpenAI GPT-3.5 Turbo és az Anthropic Claude 2.

A Llama 2 Long teljesítménye mögött rejlő varázslat az architektúrában és a képzésben rejlik. A Meta kutatói megtartották az eredeti Llama 2 szerkezetét, de kulcsfontosságú változtatásokat eszközöltek a Rotary Positional Embedding (RoPE) kódoláson. Ez a módosítás lehetővé teszi a modell számára, hogy a token beágyazásokat egy 3D-s gráfra képezze le, bemutatva azok relatív helyzetét. A RoPE-kódolás forgási szögének csökkentésével a modell most már több „távoli token”-et is be tud vonni, így bővítve a tudásbázisát. Továbbá az emberi visszajelzésekből történő megerősített tanulás és a Llama 2 chat által generált szintetikus adatok használata jelentősen javította a modell teljesítményét különböző feladatokban, például kódolásban, nyelvi megértésben és józan gondolkodásban.

Az AI-közösség válasza a Llama 2 Long-ra túlnyomórészt pozitív volt. Az olyan platformok, mint a Reddit, a Twitter és a Hacker News csodálattal és izgatottan fogadják ezt az új modellt. Ez a lelkesedés nem csak a modell képességeinek szól, hanem a Meta elkötelezettségét is jelzi a nyílt forráskódú megközelítés mellett az AI-területén. Ez egyértelműen jelzi, hogy a nyílt forráskódú modellek valóban felvehetik a versenyt a zárt forráskódú, kereskedelmi modellekkel.

Megosztás Facebookon