Új kutatás: „jobban teljesít” az AI, ha keményebben beszélsz vele?

2025.11.13. 06:42 Horváth Péter

A Pennsylvaniai Állami Egyetem friss kísérlete váratlan kérdést vet fel: vajon egy nagy nyelvi modell pontosabban dolgozik, ha nem finomkodunk vele, hanem nyers, direkt utasítást kap?

A vizsgálat szerint a válasz meglepően közel áll ehhez – bár messze nem azért, amiért az elsőre gondolnánk.

Ha többet akarsz tudni, kövess minket Facebookon!

A kutatás eredetileg itt érhető el, de összeszedtük a legérdekesebb pontokat belőle.

Mit teszteltek?

A kutatók 50 közepesen nehéz, matematikai, történelmi és természettudományos kérdést készítettek, majd ezeket ötféle hangnemben tették fel az OpenAI ChatGPT-40 modellnek:

nagyon udvarias,
udvarias,
semleges,
durva,
nagyon durva megfogalmazásban.

A skála két végét jól érzékelteti a különbség: a legfinomabb változat „Lennél olyan kedves…?” felütéssel indult, míg a legerősebb verzió már sértő, lekezelő hangon kérdezte rá: „Te szerencsétlen, tudod egyáltalán, hogyan kell ezt megoldani?”.

Minden kérdés feleletválasztós volt, a modellt pedig arra kérték, hogy csak a betűjelből álló választ adja meg, magyarázat nélkül. A korábbi beszélgetéseket minden kör előtt törölték, hogy ne befolyásolja a teljesítményt.

A meglepő eredmény: a durvaság néha növeli a pontosságot

A kutatók szerint a hangnem valóban számít. A ChatGPT-4o pontossága a következőképpen alakult:

nagyon udvarias kérdések: 80,8%
semleges kérdések: 82,8%
nagyon durva kérdések: 84,8%

Vagyis a szélsőségesen nyers hangnem valamivel jobb teljesítményt hozott, mint a kimért udvariasság. A különbség nem hatalmas, de statisztikailag érzékelhető.

Miért reagál így a modell?

A magyarázat nem az, hogy az AI „megsértődik” vagy éppen „igyekezni kezd” a lekezelő hangvételtől – a kutatók hangsúlyozták, hogy erről szó sincs. Sokkal inkább a természetes nyelv működése, valamint a nagy nyelvi modellek tanulási sajátosságai lehetnek a háttérben.

A nyelvi bonyolultság (perplexitás) szerepe
Az udvarias megfogalmazások gyakran hosszabbak, körülményesebbek, több „díszítőelemet” tartalmaznak. A nagy nyelvi modellek számára ez magasabb nyelvi komplexitást jelent, tehát elvonhatja a figyelmet a tényleges feladatról. Ezzel szemben a durva kérdések rövidek, direkt kérészletek, kevés felesleges elemmel.
A társalgási minták hatása
A modellek emberi párbeszédek hatalmas tömegén tanulnak. Ezekben a sürgető, ideges vagy konfrontatív hangvétel gyakran együtt jár azzal, hogy a beszélő gyors, egyértelmű választ vár. Elképzelhető, hogy a modell egyfajta „mintafelismerés hatására” ilyenkor közvetlenebb módon fókuszál a feladatra.
De még így sem logikus, hogy nem a semleges a legjobb
A kutatók szerint a kérdés nem teljesen eldöntött. Valószínű, hogy a hangnem összetettebb visszahatással bír a nyelvi modellek belső működésére, mint amit elsőre gondolnánk.

Óvatosságra intenek – és elismerik a korlátokat

A tanulmány még nem esett át tudományos lektoráláson, ráadásul a kutatók is tisztában vannak a korlátaival:

mindössze 250 kérdés szerepelt a tesztben,
csak egyetlen modell, a ChatGPT-40,
kevés futással vizsgálták a jelenséget.

A csapat ennek megfelelően folytatni kívánja a kutatást más modellekkel és jóval nagyobb kérdéskészlettel.

A legfontosabb figyelmeztetésük azonban az emberi oldalra vonatkozik: a durva hangnem semmilyen formában nem ajánlott valós alkalmazásokban. A sértő kommunikáció rombolja a felhasználói élményt, normalizálja a negatív kommunikációt, és hosszú távon káros.

A jelenség tehát érdekes tudományos megfigyelés – de gyakorlati tanácsként egyáltalán nem ajánlható.