Az OpenAI egy olyan innovatív eszközt fejleszt, amelynek célja, hogy a ChatGPT-hez hasonló nagy nyelvi modellek viselkedését megmagyarázza azáltal, hogy azonosítja, mely komponensek felelősek az egyes műveletekért.
Az OpenAI ChatGPT-hez hasonló nagy nyelvi modelleket (LLM) gyakran tekintették fekete doboznak, mivel nehéz megérteni, hogy miért reagálnak bizonyos módon. Az LLM-ek rejtélyeinek tisztázása érdekében az OpenAI egy olyan eszközön dolgozik, amely képes automatikusan azonosítani, hogy egy LLM mely részei felelősek a különböző viselkedésekért. Az eszköz kódja jelenleg korai stádiumban van, de nyílt forráskódú és elérhető a GitHub-on. William Saunders, az OpenAI értelmezhetőségi csapatának vezetője elmondta, hogy a cél az, hogy előre jelezzék a mesterséges intelligencia rendszerekkel kapcsolatos potenciális problémákat, és biztosítsák, hogy a modell cselekedetei és válaszai megbízhatóak legyenek. Az eszköz egy nyelvi modellt használ arra, hogy elemezze más, egyszerűbb LLM-ekben, konkrétan az OpenAI GPT-2-ben lévő összetevők funkcióit. Az eszköz az értékelt modellen keresztülfuttatott szövegsorozatokkal azonosítja azokat az eseteket, amikor bizonyos neuronok gyakran aktiválódnak. A GPT-4, az OpenAI legújabb szöveggeneráló AI-modellje ezután magyarázatot generál a magasan aktív neuronokhoz, és szimulálja azok viselkedését, hogy meghatározza a magyarázat pontosságát. Ez a módszertan lehetővé teszi a kutatók számára, hogy a GPT-2 minden egyes neuronjára előzetes természetes nyelvű magyarázatokat generáljanak, és pontozással jelezzék, hogy a magyarázat mennyire felel meg a tényleges viselkedésnek. A kutatók a GPT-2 mind a 307200 neuronjára vonatkozó magyarázatokból összeállítottak egy adatkészletet, amelyet az eszköz kódjával együtt tettek közzé. A végső cél az LLM teljesítményének javítása a torzítások és a toxicitás csökkentése révén. Az eszköz azonban még messze van attól, hogy valóban hasznos legyen, mivel csak körülbelül 1000 neuron magyarázatai esetében magabiztos. Bár az eszköz működése a GPT-4-től függ, Jeff Wu, az OpenAI skálázható igazítási csapatának vezetője azt állítja, hogy a GPT-4 használata véletlenszerű, és rávilágít a GPT-4 gyengeségeire ezen a területen. A jövőben az eszközt potenciálisan úgy lehetne átalakítani, hogy a GPT-4-től eltérő LLM-eket is használjon. Jeff Wu úgy véli, hogy az eszköz mögöttes mechanizmusait úgy lehetne finomítani, hogy megértsük, miért döntenek a neuronok bizonyos keresőmotoros lekérdezések vagy bizonyos weboldalak elérése mellett, ami új lehetőségeket nyitna meg az automatizált módon történő értelmezhetőség számára.