2023.09.17. VipAIR
A generatív AI térhódítása láthatatlan csatát robbantott ki az adatokért, amelynek mélyreható következményei vannak a világhálóra nézve.
-
A generatív AI sikere hatalmas keresletet eredményezett a kiváló minőségű adatkészletek iránt.
-
Sok AI-modell az internetről származó, gyakran engedély nélkül begyűjtött adatokat használ, ami vitákhoz vezet a szerzői jogokról és a licencelésről.
-
A vállalatok és a tartalomkészítők visszavágnak, kártérítést és az adataik feletti jogokat követelnek, mivel aggódnak amiatt, hogy munkájukat ellenük használják fel.
A generatív AI robbanásszerű terjedése, amelyet a
ChatGPT 2022-es térnyerése fémjelez, a technológiai fejlődés új korszakát nyitotta meg. A felszín alatt azonban egy kevésbé ismert történet bontakozik ki. Ezek az AI-modellek, amelyeket a tudásukért ünnepelnek, hatalmas, több millió helyről származó adathalmazokra támaszkodnak. A
Github korábbi vezérigazgatója, Nat Friedman rávilágít erre a rejtett történetre, hangsúlyozva, hogy az AI-laboratóriumok milyen hatalmas befektetéseket eszközölnek a modellek képzéséhez szükséges „nyersanyagok” megszerzésében.
Azonban nem minden adat beszerzése történik etikusan. A képzési adatok jelentős részét kifejezett engedély nélkül nyerik ki az internetről. Ez a gyakorlat heves vitát váltott ki a szerzői jogok jövőjéről az AI-által vezérelt világban. Miért osztanának meg egyének és közösségek szabadon információkat az interneten, ha azokat az AI-modellek kisajátítják, amelyek potenciálisan vetekedhetnek velük? Például a
Stack Overflow, egy híres kódolási kérdés-felelet platform adatait AI-tréningre használták fel, ami a forgalom csökkenéséhez vezetett, mivel az AI-modellek most már közvetlenül kínálnak kódolási megoldásokat.
Ennek az adatátvételnek a következményei egyre nyilvánvalóbbá válnak. A vállalatok és a tartalomkészítők felismerik munkájuk burkolt felhasználását, ami az árulás növekvő érzéséhez vezet. Marc Benioff, a
Salesforce vezérigazgatója és a
Time magazin tulajdonosa megdöbbenésének adott hangot, amikor felfedezte a Time magazin tartalmát az AI-modellekben. Válaszul számos weboldal blokkolja a webrobotokat, vagyis az AI-tréninghez szükséges adatok gyűjtéséért felelős eszközöket. Különösen az
OpenAI által létrehozott GPTbotot tiltotta le két héten belül a 100 legnépszerűbb weboldal több mint 15%-a.
A visszahatás érezhető. A mesterséges intelligenciával foglalkozó vállalatok most intézkedéseket tesznek a lehetséges jogi kockázatok mérséklésére. Míg egyesek, mint például a
Meta, megszüntették a képzési adatforrásaik nyilvánosságra hozatalát, mások, köztük az OpenAI ChatGPT-je, a pletykák szerint eltitkolják, hogy a képzésük során szerzői jogvédelem alatt álló anyagokat használnak fel. A mesterséges intelligencia ipar válaszút előtt áll, az innováció és az etikus adatgyakorlatok közötti egyensúlyozásban.