2023.09.29. VipAIR
Az AI-által uralt digitális korszakban a GPTBot és a CCBot váratlan akadályokkal találja magát szemben, mivel egyre több vállalat dönt úgy, hogy blokkolja az AI webes feltérképezőket.
-
Számos vezető weboldal, köztük az Amazon és a The Guardian, blokkolja az OpenAI webes feltérképezőjét.
-
A GPTBot-ot blokkoló webhelyek száma néhány hét alatt 250 fölé emelkedett.
-
A Common Crawl CCBot-ja is egyre nagyobb ellenállásba ütközik, a top 1000 weboldal 14%-a blokkolja.
Egyre több vállalat tesz intézkedéseket annak megakadályozására, hogy adataikat az AI-által vezérelt webes feltérképező robotok begyűjtsék. Az
OpenAI nemrég mutatta be a GPTBot nevű feltérképezőjét, amely ígéretet tett arra, hogy tiszteletben tartja a robots.txt protokollt – egy régóta létező módszert, amely lehetővé teszi a webhelyek számára, hogy utasítsák a webes feltérképezőket, hogy megkerüljék őket. Kezdetben az 1000 legnépszerűbb webhely közül körülbelül 70, köztük olyan óriások, mint az
Amazon és a
Tumblr, blokkolta a GPTBot-ot. Friss adatokból azonban kiderül, hogy ez a szám három hét alatt 250 fölé emelkedett. Ezen a növekvő listán már olyan nevek szerepelnek, mint a
Pinterest, a
Vimeo, a
The Guardian, a
Reuters, de még a
weather.com és az
Ikea is.
Az egyedi és pontos adatok jelentőségét nem lehet eléggé hangsúlyozni az OpenAI
GPT-4-hez hasonló generatív AI modellek számára. Ezek a modellek nagymértékben támaszkodnak az internetről származó hatalmas mennyiségű szövegre, hogy intelligens válaszokat adjanak. Ezen információk többsége azonban szerzői jogvédelem alatt áll, ami fokozott ellenőrzést és esetleges jogi lépéseket tesz szükségessé. Ez a növekvő tudatosság hamarosan új kormányzati szabályozást eredményezhet. A webes feltérképezés másik nagy szereplője, a
Common Crawl által használt CCBot szintén kihívásokkal néz szembe. Annak ellenére, hogy a
ChatGPT-hez képest régebb óta van jelen a weben, az adatok szerint mostanra a top 1000 weboldal közel 14%-a blokkolja.
A digitális kötélhúzásnak ezzel még nincs vége. Míg sok online vállalkozás robots.txt-t alkalmaz az AI-adatgyűjtés megakadályozására, számos technológiai óriás frissítette szolgáltatási feltételeit. Ezek az új feltételek korlátlan hozzáférést biztosítanak számukra a felhasználói tartalmakhoz és tevékenységekhez, megnyitva az utat a kiterjedtebb AI-képzés és -projektek előtt.