2023.08.11. VipAIR
A szoftvermérnökök körében való népszerűsége ellenére egy friss tanulmány megkérdőjelezte a ChatGPT képességét a műszaki kérdések pontos megválaszolására.
-
A ChatGPT-t 517 Stack Overflow kérdéssel tesztelték, hogy felmérjék pontosságát a szoftverfejlesztésben.
-
Az eredmények azt mutatták, hogy a ChatGPT válaszainak 52%-a helytelen volt, 77%-a pedig bőbeszédű.
-
A tanulmányban részt vevők gyakran figyelmen kívül hagyták a ChatGPT válaszaiban szereplő helytelen információkat, ami rávilágít a chatrobotok egyik jelentős problémájára.
Mielőtt az AI chatbotok, például a
ChatGPT elterjedtek, a
Stack Overflow volt a projekttanácsot kereső programozók elsődleges menedéke. A ChatGPT vonzereje az azonnali válaszadásban rejlik, kiküszöbölve a Stack Overflow kérdés-felelet modelljéhez kapcsolódó várakozási időt. Ez a kényelem sok szoftvermérnököt arra késztetett, hogy a ChatGPT-hez forduljon kérdéseivel. A hatékonysága azonban ezen a területen mindaddig ismeretlen maradt, amíg a
Purdue Egyetem egy nemrégiben készült
tanulmánya úgy nem döntött, hogy mélyebbre ás.
A kutatók 517 Stack Overflow-kérdést tettek fel a ChatGPT-nek, és aprólékosan elemezték a chatbot válaszainak pontosságát és minőségét. Az eredmények meglehetősen árulkodóak voltak: 512 kérdésből 259-re adott helytelen választ a ChatGPT és a válaszok jelentős 77%-a bőbeszédűnek minősült. A pozitívum azonban az volt, hogy a válaszok 65%-a átfogó volt és a feltett kérdések minden aspektusára kitért.
A ChatGPT válaszminőségének további megértése érdekében 12 programozási szakértőt kértek fel a válaszok értékelésére. Az egyetértés a Stack Overflow felé hajlott, a résztvevők gyakran nem vették észre a ChatGPT hibáit, ami a jól megfogalmazott és emberi stílusú válaszoknak tulajdonítható. Ez a tendencia, hogy a chatbotok hihető, de hibás válaszokat adnak, minden esetben aggodalomra ad okot és hangsúlyozza az óvatosság szükségességét, amikor speciális lekérdezéseknél rájuk támaszkodunk.