A ChatGPT a szoftvermérnöki kérdések több mint felére helytelenül válaszol

2023.08.11. 08:08 VipAIR

A szoftvermérnökök körében való népszerűsége ellenére egy friss tanulmány megkérdőjelezte a ChatGPT képességét a műszaki kérdések pontos megválaszolására.

A ChatGPT-t 517 Stack Overflow kérdéssel tesztelték, hogy felmérjék pontosságát a szoftverfejlesztésben.
Ha többet akarsz tudni, kövess minket Facebookon!
Az eredmények azt mutatták, hogy a ChatGPT válaszainak 52%-a helytelen volt, 77%-a pedig bőbeszédű.
A tanulmányban részt vevők gyakran figyelmen kívül hagyták a ChatGPT válaszaiban szereplő helytelen információkat, ami rávilágít a chatrobotok egyik jelentős problémájára.

Mielőtt az AI chatbotok, például a ChatGPT elterjedtek, a Stack Overflow volt a projekttanácsot kereső programozók elsődleges menedéke. A ChatGPT vonzereje az azonnali válaszadásban rejlik, kiküszöbölve a Stack Overflow kérdés-felelet modelljéhez kapcsolódó várakozási időt. Ez a kényelem sok szoftvermérnököt arra késztetett, hogy a ChatGPT-hez forduljon kérdéseivel. A hatékonysága azonban ezen a területen mindaddig ismeretlen maradt, amíg a Purdue Egyetem egy nemrégiben készült tanulmánya úgy nem döntött, hogy mélyebbre ás.

A kutatók 517 Stack Overflow-kérdést tettek fel a ChatGPT-nek, és aprólékosan elemezték a chatbot válaszainak pontosságát és minőségét. Az eredmények meglehetősen árulkodóak voltak: 512 kérdésből 259-re adott helytelen választ a ChatGPT és a válaszok jelentős 77%-a bőbeszédűnek minősült. A pozitívum azonban az volt, hogy a válaszok 65%-a átfogó volt és a feltett kérdések minden aspektusára kitért.

A ChatGPT válaszminőségének további megértése érdekében 12 programozási szakértőt kértek fel a válaszok értékelésére. Az egyetértés a Stack Overflow felé hajlott, a résztvevők gyakran nem vették észre a ChatGPT hibáit, ami a jól megfogalmazott és emberi stílusú válaszoknak tulajdonítható. Ez a tendencia, hogy a chatbotok hihető, de hibás válaszokat adnak, minden esetben aggodalomra ad okot és hangsúlyozza az óvatosság szükségességét, amikor speciális lekérdezéseknél rájuk támaszkodunk.