A Google nyílt titka, hogy a kimásolt webes adatokból is tanítja Bard-ot

A Google frissítette adatvédelmi szabályzatát, megerősítve, hogy AI-szolgáltatásait, köztük a Bard-ot és a Cloud AI-t a webről származó adatok felhasználásával képzik.

  • A Google frissített adatvédelmi irányelveiből kiderül, hogy a vállalat AI-szolgáltatásait az internetről származó nyilvános adatokon képzik ki.

  • A szabályzat frissítése egyértelművé teszi, hogy milyen szolgáltatásokat képeznek az összegyűjtött adatok felhasználásával, beleértve a Bard-ot és a Cloud AI képességeket.

  • A szabályzat nem határozza meg, hogy a Google hogyan fogja megakadályozni, hogy szerzői jogvédelem alatt álló anyagok kerüljenek az adathalmazba, ami kérdéseket vet fel a lehetséges jogi következményekkel és az adatokkal való visszaéléssel kapcsolatban.

A Google nemrégiben frissített adatvédelmi irányelvei fényt derítettek arra a gyakorlatra, hogy a vállalat az internetről lekapart nyilvános adatokon képzi ki mesterséges intelligencia szolgáltatásait, például a Bard-ot és a Cloud AI-t. A szabályzat mostantól kimondja, hogy a Google ezeket az információkat szolgáltatásainak fejlesztésére, valamint a felhasználók és a nyilvánosság javát szolgáló új termékek, funkciók és technológiák kifejlesztésére használja fel. A frissítés egyértelműbbé teszi az összegyűjtött adatok felhasználásával betanított szolgáltatásokat, és a dokumentum a „nyelvi modellek” helyett „AI-modelleket” említ, így a Google nagyobb rugalmasságot biztosít a nyilvános adatokon alapuló rendszerek betanításában és felépítésében.

A szabályzat azonban nem részletezi, hogy a Google hogyan fogja megakadályozni, hogy szerzői jogvédelem alatt álló anyagok kerüljenek az adathalmazba. Számos nyilvánosan elérhető weboldal rendelkezik olyan irányelvekkel, amelyek tiltják az adatgyűjtést vagy webkaparást nagy nyelvi modellek és más AI-eszközök képzése céljából. Ez a megközelítés potenciálisan ellentétes lehet az olyan globális szabályozásokkal, mint a GDPR, amelyek megvédik az embereket az adataikkal való visszaéléstől, kifejezett engedélyük nélkül.

Ez a gyakorlat kérdéseket vetett fel a népszerű generatív AI rendszerek képzéséhez használt adatok forrásával kapcsolatban is. A tisztességes felhasználás doktrínájának alkalmazhatósága az ilyen típusú alkalmazásokra jelenleg jogi szürke zónában mozog, ami különböző pereket vált ki és egyes nemzetek törvényhozóit arra ösztönzi, hogy szigorúbb törvényeket vezessenek be annak szabályozására, hogy az AI-vállalatok hogyan gyűjtik és használják fel a képzési adataikat.

Az Egyesült Államok legnagyobb újságkiadója, a Gannett beperelte a Google-t és anyavállalatát, az Alphabet-et, azt állítva, hogy az AI-technológia fejlődése segített a keresőóriásnak abban, hogy monopóliumot tartson fenn a digitális hirdetési piacon. Eközben az olyan közösségi platformok, mint a Twitter és a Reddit drasztikus intézkedéseket hoztak annak érdekében, hogy megakadályozzák, hogy más vállalatok szabadon gyűjtsék az adataikat, ami a saját közösségeik ellenszenves visszajelzéséhez vezetett.

Megosztás Facebookon