Kutatók egy automatikus plágiumfelismerő rendszert fejlesztettek ki, amely megállapította, hogy a nyelvi modellek a plágium mindhárom típusát elkövették, ami aggályokat vet fel a szöveggenerátorokra nézve.
Ahogy a nagy nyelvi modellek mérete nő, úgy nő a generálási képességük is, ami lehetséges veszélyt jelent a képzési tudományos anyagokban található tartalmak eredetiségére és kreativitására. Ennek a jelenségnek a következményeit vizsgálták a Penn State egyetem kutatói, akik megállapították, hogy az olyan nyelvi modellek, mint az OpenAI GPT-2, potenciálisan képesek a plágium mindhárom típusát előállítani: szó szerint, parafrázisban és ötletben. A tanulmány azt is kimutatta, hogy a finomhangolt nyelvi modellek csökkentették a szó szerinti plágiumot, de növelték a parafrázis és az ötletplagizálás eseteit. A kutatók emellett olyan eseteket is azonosítottak, amikor a nyelvi modellek a plágium mindhárom formája révén felfedték az egyének magánjellegű információit. A kutatók úgy vélik, hogy munkájuk hozzájárulhat az oktatók, kutatók és kiadók által használható hatékonyabb plágiumfelismerő eszközök kifejlesztéséhez. Bár a ChatGPT-hez hasonló nyelvi modellek kimenete vonzó lehet, a kutatók arra kérik az egyéneket, hogy legyenek óvatosak a használatuk során, mivel olyan plágiumtartalmakat állíthatnak elő, amelyek negatív következményekkel járhatnak a felhasználó számára. A tanulmány eredményei csak a GPT-2-re vonatkoznak, de a kutatók által létrehozott automatikus plágiumfelismerési folyamat alkalmazható az újabb nyelvi modellekhez, annak megállapítására, hogy ezek a modellek plagizálják-e a képzési tartalmat és ha igen, milyen gyakran.