Az AI-modellek gyenge pontja: ennyi kell a teljes meghekkelésükhöz

A mesterséges intelligencia-fejlesztés eddigi versenyfutása szinte megszállott gyorsasággal zajlik, csakhogy miközben a képességek exponenciálisan bővülnek, a biztonsági kockázatokkal kapcsolatos tudás alig tart lépést.

Ezt a törékeny egyensúlyt világította meg az Anthropic legújabb kutatása, amelyet a UK AI Security Institute és az Alan Turing Institute együttműködésével készítettek. A jelentés szerint már mindössze 250 rosszindulatú dokumentum is elég ahhoz, hogy egy nagy nyelvi modell viselkedése tartósan és mélyen megfertőződjön — vagyis egyfajta „hátsó kaput” (angolul backdoor) építsen be a rendszer működésébe.

Kevés, de mérgező adat

Ha többet akarsz tudni, kövess minket Facebookon!

A kutatók egy úgynevezett adatmérgezéses támadás hatásait vizsgálták. Ennek lényege, hogy a modell tanító adatkészletébe tudatosan hamis, manipulált vagy rejtett parancsokat tartalmazó anyagokat juttatnak. Ha ezek bekerülnek a modell előtanító (pre-training) fázisába, az AI megtanulhat nem kívánt viselkedéseket, például titkos jelszavakra reagálni, dezinformációt generálni, vagy bizonyos utasításokra „átkapcsolni” egy kártékony üzemmódba.

Korábban azt feltételezték, hogy ehhez a támadónak az egész tanítóadat-halmaz egy jelentős százalékát kellene birtokolnia. Az Anthropic kísérlete viszont ennek ellenkezőjét mutatta:

  • a mérgezett dokumentumok száma nem függ a modell méretétől vagy a tanítóanyag nagyságától.
  • a kutatók sikeresen építettek be hátsó kapukat 600 milliótól 13 milliárd paraméterig terjedő modellekbe ugyanazzal a mindössze 250 manipulált fájllal.

„Eredményeink célja, hogy megmutassuk: az adatmérgezés a gyakorlatban sokkal reálisabb fenyegetés, mint eddig gondoltuk” – írta az Anthropic. A vállalat reményei szerint a nyilvánosságra hozott kutatás további vizsgálatokat és védekezési stratégiákat ösztönöz majd.

Miért veszélyes mindez?

A mesterséges intelligencia-rendszerek hatalmas, több száz milliárd tokenből álló szövegkorpuszokon tanulnak. Ezek döntő része nyilvános internetes forrásokból származik, vagyis bárki, aki kellően kitartó és technikailag felkészült, elméletileg bejuttathat mérgezett adatokat egy jövőbeli modell tanítóanyagába.

Ez különösen aggasztó, mert a backdoor-támadások sokszor láthatatlanok maradnak: a modell normál körülmények között hibátlanul működik, de egy adott trigger – például egy kulcsszó vagy speciális kérés – hatására veszélyes vagy manipulált válaszokat adhat.

Mit tehetnek a fejlesztők?

A szakértők szerint a megoldás kulcsa a tréningszűrés és az adat-auditálás lehet: a nyers adatok automatikus és emberi ellenőrzése, a források átláthatósága, valamint a tanítófolyamat közbeni biztonsági tesztelés. Egyes cégek már kísérleteznek olyan védelmi algoritmusokkal, amelyek felismerik és semlegesítik a gyanús mintázatokat a pre-training szakaszban.

De amíg ezek nem válnak ipari szabvánnyá, a kutatás üzenete világos: az AI-biztonság nem mennyiségi, hanem minőségi kérdés. Elég néhány tucat rossz adat, hogy az emberiség egyik legösszetettebb technológiája veszélyessé váljon — akár anélkül, hogy bárki észrevenné.