A Generatív AI titkos összetevője – az adatkaparás – támadás alá kerül

A generatív AI egyik alapvető összetevőjét, az adatkaparás gyakorlatát támadások érik, amelyek a magánélet védelmével és a szerzői jogok megsértésével kapcsolatos kérdéseket vetnek fel.

  • A generatív AI egyik kulcsfontosságú eleme, az adatkaparás jogi és etikai kihívásokkal néz szembe, és olyan vállalatok állnak a vita középpontjában, mint az OpenAI és a Twitter.

  • A vita a magánélet védelmével, a szerzői jogok megsértésével és az átláthatóság hiányával kapcsolatos kérdések körül forog, hogy a személyes adatokat hogyan használják fel az AI-modellekben.

  • Az adatkaparásáról szóló vitát pozitív lépésnek tekintik az AI etikájában a nagyobb átláthatóság és elszámoltathatóság felé.

Az adatkaparás, azaz az internetről hatalmas mennyiségű információ kinyerése a generatív AI titkos összetevője. Az olyan mesterséges intelligencia chatbotok, mint az OpenAI ChatGPT, az Anthropic Claude, a Google Bard és a Meta LLaMA erre a gyakorlatra támaszkodnak, hogy összefüggő szöveget állítsanak elő, miután hatalmas, többnyire az internetről származó adathalmazokon képezték ki őket. Ez a gyakorlat azonban a közelmúltban tűz alá került, ami jogi és etikai kihívásokhoz vezetett.

Az OpenAI, a mesterséges intelligencia egyik vezető szereplője két perbe is keveredett. Az egyik azt állítja, hogy az OpenAI jogellenesen másolt könyvszövegeket anélkül, hogy a szerzői jogtulajdonosok beleegyezését kérte volna, illetve nem ajánlott volna fel nekik elismerést, sem kártérítést. A másik azt állítja, hogy az OpenAI ChatGPT és DALL-E az egész internetről személyes adatokat gyűjt, és ezzel megsérti az adatvédelmi törvényeket. A Twitter, egy másik technológiai óriás, szintén érintett az adatkaparási vitában, és intézkedéseket vezetett be adatainak védelme érdekében, korlátozva az azokhoz való hozzáférést.

Margaret Mitchell, a Hugging Face kutatója és vezető etikusa szerint az AI-tréning céljából történő adatgyűjtésről szóló legújabb hírek nem véletlenek. Úgy véli, hogy a közvélemény egyre jobban megismeri a generatív AI modelleket és kezdi megkérdőjelezni, hogy honnan származnak ezekhez a modellekhez tartozó adatok.

Gregory Leighton, egy ügyvédi iroda adatvédelmi jogi szakértője szerint az adatkaparás körüli vita már jó ideje zajlik. Úgy véli, hogy az OpenAI ellen indított perek olyan gyújtópontot jelentenek, amely elkerülhetetlenné teszi a további ellenlépéseket. Katie Gardner, egy nemzetközi ügyvédi iroda partnere egyetért ezzel, és kijelentette, hogy az olyan vállalatok, mint a Twitter és a Reddit számára az adatok jelentik a versenyelőnyt és nem akarják, hogy bárki ingyen megkaparintsa őket.

A személyes adatok mesterséges intelligencia modellekben való felhasználása azonban egyedi adatvédelmi problémákat vet fel. Az egyik fő aggály az átláthatóság hiánya. Kihívást jelent tudni, hogy személyes adatokat használtak-e fel, hogyan használják fel azokat, és milyen lehetséges károkat okozhat a felhasználás. Egy másik probléma az, hogy miután egy modellt betanítottak az adatokra, előfordulhat, hogy lehetetlen lesz "kitanítani", illetve törölni vagy eltávolítani az adatokat.

A mesterséges intelligencia képzéséhez történő adatgyűjtés körüli vita azt is érinti, hogy a szerzői jogvédelem alatt álló művek az amerikai szerzői jogi törvények szerint "tisztességes felhasználásnak" minősülnek-e. A tisztességes felhasználás azonban a szerzői jog megsértésével szembeni védekezés, nem pedig jog és nagyon nehéz megjósolni, hogy a bíróságok hogyan fognak dönteni egy adott tisztességes felhasználási ügyben.

A szabadalmaztatott „fekete dobozos” modellek felé mutató jelenlegi tendencia ellenére az a tény, hogy az adatkaparás jelenleg is vita tárgyát képezi, annak pozitív jeleként értékelhető, hogy a mesterséges intelligencia etikai diskurzus tovább gazdagítja a közmegértést. Az adatkészletek és a mesterséges intelligencia körüli vita évek óta zajlik, de ez most kezdi elérni a nyilvános áttörést, ami biztató.

Megosztás Facebookon