A rejtett adatháború: Az AI könyörtelen adatvadászata

A generatív AI térhódítása láthatatlan csatát robbantott ki az adatokért, amelynek mélyreható következményei vannak a világhálóra nézve.

  • A generatív AI sikere hatalmas keresletet eredményezett a kiváló minőségű adatkészletek iránt.

  • Sok AI-modell az internetről származó, gyakran engedély nélkül begyűjtött adatokat használ, ami vitákhoz vezet a szerzői jogokról és a licencelésről.

  • A vállalatok és a tartalomkészítők visszavágnak, kártérítést és az adataik feletti jogokat követelnek, mivel aggódnak amiatt, hogy munkájukat ellenük használják fel.

A generatív AI robbanásszerű terjedése, amelyet a ChatGPT 2022-es térnyerése fémjelez, a technológiai fejlődés új korszakát nyitotta meg. A felszín alatt azonban egy kevésbé ismert történet bontakozik ki. Ezek az AI-modellek, amelyeket a tudásukért ünnepelnek, hatalmas, több millió helyről származó adathalmazokra támaszkodnak. A Github korábbi vezérigazgatója, Nat Friedman rávilágít erre a rejtett történetre, hangsúlyozva, hogy az AI-laboratóriumok milyen hatalmas befektetéseket eszközölnek a modellek képzéséhez szükséges „nyersanyagok” megszerzésében.

Azonban nem minden adat beszerzése történik etikusan. A képzési adatok jelentős részét kifejezett engedély nélkül nyerik ki az internetről. Ez a gyakorlat heves vitát váltott ki a szerzői jogok jövőjéről az AI-által vezérelt világban. Miért osztanának meg egyének és közösségek szabadon információkat az interneten, ha azokat az AI-modellek kisajátítják, amelyek potenciálisan vetekedhetnek velük? Például a Stack Overflow, egy híres kódolási kérdés-felelet platform adatait AI-tréningre használták fel, ami a forgalom csökkenéséhez vezetett, mivel az AI-modellek most már közvetlenül kínálnak kódolási megoldásokat.

Ennek az adatátvételnek a következményei egyre nyilvánvalóbbá válnak. A vállalatok és a tartalomkészítők felismerik munkájuk burkolt felhasználását, ami az árulás növekvő érzéséhez vezet. Marc Benioff, a Salesforce vezérigazgatója és a Time magazin tulajdonosa megdöbbenésének adott hangot, amikor felfedezte a Time magazin tartalmát az AI-modellekben. Válaszul számos weboldal blokkolja a webrobotokat, vagyis az AI-tréninghez szükséges adatok gyűjtéséért felelős eszközöket. Különösen az OpenAI által létrehozott GPTbotot tiltotta le két héten belül a 100 legnépszerűbb weboldal több mint 15%-a.

A visszahatás érezhető. A mesterséges intelligenciával foglalkozó vállalatok most intézkedéseket tesznek a lehetséges jogi kockázatok mérséklésére. Míg egyesek, mint például a Meta, megszüntették a képzési adatforrásaik nyilvánosságra hozatalát, mások, köztük az OpenAI ChatGPT-je, a pletykák szerint eltitkolják, hogy a képzésük során szerzői jogvédelem alatt álló anyagokat használnak fel. A mesterséges intelligencia ipar válaszút előtt áll, az innováció és az etikus adatgyakorlatok közötti egyensúlyozásban.

Megosztás Facebookon