Új kutatás: „jobban teljesít” az AI, ha keményebben beszélsz vele?

A Pennsylvaniai Állami Egyetem friss kísérlete váratlan kérdést vet fel: vajon egy nagy nyelvi modell pontosabban dolgozik, ha nem finomkodunk vele, hanem nyers, direkt utasítást kap?

A vizsgálat szerint a válasz meglepően közel áll ehhez – bár messze nem azért, amiért az elsőre gondolnánk.

Ha többet akarsz tudni, kövess minket Facebookon!

A kutatás eredetileg itt érhető el, de összeszedtük a legérdekesebb pontokat belőle.

Mit teszteltek?

A kutatók 50 közepesen nehéz, matematikai, történelmi és természettudományos kérdést készítettek, majd ezeket ötféle hangnemben tették fel az OpenAI ChatGPT-40 modellnek:

  • nagyon udvarias,
  • udvarias,
  • semleges,
  • durva,
  • nagyon durva megfogalmazásban.

A skála két végét jól érzékelteti a különbség: a legfinomabb változat „Lennél olyan kedves…?” felütéssel indult, míg a legerősebb verzió már sértő, lekezelő hangon kérdezte rá: „Te szerencsétlen, tudod egyáltalán, hogyan kell ezt megoldani?”.

Minden kérdés feleletválasztós volt, a modellt pedig arra kérték, hogy csak a betűjelből álló választ adja meg, magyarázat nélkül. A korábbi beszélgetéseket minden kör előtt törölték, hogy ne befolyásolja a teljesítményt.

A meglepő eredmény: a durvaság néha növeli a pontosságot

A kutatók szerint a hangnem valóban számít. A ChatGPT-4o pontossága a következőképpen alakult:

  • nagyon udvarias kérdések: 80,8%
  • semleges kérdések: 82,8%
  • nagyon durva kérdések: 84,8%

Vagyis a szélsőségesen nyers hangnem valamivel jobb teljesítményt hozott, mint a kimért udvariasság. A különbség nem hatalmas, de statisztikailag érzékelhető.

Miért reagál így a modell?

A magyarázat nem az, hogy az AI „megsértődik” vagy éppen „igyekezni kezd” a lekezelő hangvételtől – a kutatók hangsúlyozták, hogy erről szó sincs. Sokkal inkább a természetes nyelv működése, valamint a nagy nyelvi modellek tanulási sajátosságai lehetnek a háttérben.

  1. A nyelvi bonyolultság (perplexitás) szerepe
    Az udvarias megfogalmazások gyakran hosszabbak, körülményesebbek, több „díszítőelemet” tartalmaznak. A nagy nyelvi modellek számára ez magasabb nyelvi komplexitást jelent, tehát elvonhatja a figyelmet a tényleges feladatról. Ezzel szemben a durva kérdések rövidek, direkt kérészletek, kevés felesleges elemmel.
  2. A társalgási minták hatása
    A modellek emberi párbeszédek hatalmas tömegén tanulnak. Ezekben a sürgető, ideges vagy konfrontatív hangvétel gyakran együtt jár azzal, hogy a beszélő gyors, egyértelmű választ vár. Elképzelhető, hogy a modell egyfajta „mintafelismerés hatására” ilyenkor közvetlenebb módon fókuszál a feladatra.
  3. De még így sem logikus, hogy nem a semleges a legjobb
    A kutatók szerint a kérdés nem teljesen eldöntött. Valószínű, hogy a hangnem összetettebb visszahatással bír a nyelvi modellek belső működésére, mint amit elsőre gondolnánk.

Óvatosságra intenek – és elismerik a korlátokat

A tanulmány még nem esett át tudományos lektoráláson, ráadásul a kutatók is tisztában vannak a korlátaival:

  • mindössze 250 kérdés szerepelt a tesztben,
  • csak egyetlen modell, a ChatGPT-40,
  • kevés futással vizsgálták a jelenséget.

A csapat ennek megfelelően folytatni kívánja a kutatást más modellekkel és jóval nagyobb kérdéskészlettel.

A legfontosabb figyelmeztetésük azonban az emberi oldalra vonatkozik: a durva hangnem semmilyen formában nem ajánlott valós alkalmazásokban. A sértő kommunikáció rombolja a felhasználói élményt, normalizálja a negatív kommunikációt, és hosszú távon káros.

A jelenség tehát érdekes tudományos megfigyelés – de gyakorlati tanácsként egyáltalán nem ajánlható.