A GPT-5 is elbukik a valós vállalati feladatok felében

A Salesforce AI Research MCP-Universe nevű új tesztje megmutatta: a legfejlettebb nyelvi modellek – köztük az OpenAI GPT-5 – is megbicsaklanak, ha valós, vállalati környezetben kell MCP-szerverekkel dolgozniuk.

A vállalatok egyre inkább az interoperabilitás felé fordulnak: szabványos protokollokra, mint a Model Context Protocol (MCP), amely lehetővé teszi, hogy különböző rendszerek, ügynökök és nyelvi modellek együttműködjenek. A hagyományos benchmarkok azonban eddig leginkább izolált képességeket mértek – például instrukciókövetést vagy matematikai logikát –, de kevésbé azt, hogyan boldogul egy modell a valós, eszközökkel teli ökoszisztémában.

Ha többet akarsz tudni, kövess minket Facebookon!
Ezt a hiányt célozza most a Salesforce által fejlesztett MCP-Universe, amely kifejezetten a valós szerverekhez és eszközökhöz illesztett, gyakorlati feladatokat állít a modellek elé.

Hat terület, 231 feladat

Az MCP-Universe a vállalati felhasználás szempontjából hat kulcsdoménben vizsgálja a modelleket:

  • Helymeghatározás és navigáció (Google Maps MCP)
  • Kódtár- és verziókezelés (GitHub MCP)
  • Pénzügyi elemzés (Yahoo Finance MCP)
  • 3D tervezés (Blender MCP)
  • Böngészőautomatizáció (Playwright MCP)
  • Webkeresés és információszerzés (Google Search MCP, Fetch MCP)
Összesen 11 MCP-szerveren, 231 feladat várt a modellekre, a feladatok között olyan kihívásokkal, mint optimális útvonaltervezés, kódbázisban keresés, piaci döntéshozatal, 3D-s szerkesztés vagy böngészőszintű automatizáció.

A kutatók végrehajtás-alapú értékelést választottak, nem pedig LLM-as-a-judge megközelítést. Ez azért fontos, mert a valós idejű adatokkal dolgozó MCP-feladatokat egy statikus tudású modellbíró nem tudná objektíven pontozni.

Mit bírnak a legnagyobb modellek?

A tesztben több mint tíz vezető modellt vizsgáltak, köztük:

  • OpenAI GPT-5, GPT-4.1, GPT-4o
  • xAI Grok-4
  • Anthropic Claude-4 Sonnet, Claude 3.7 Sonnet
  • Google Gemini 2.5 Pro, Gemini 2.5 Flash
  • DeepSeek-V3, GLM-4.5, Qwen3, Moonshot Kimi-K2
Az eredmények vegyesek:

  • A GPT-5 teljesített összességében a legjobban, különösen a pénzügyi elemzési feladatokban.
  • A Grok-4 dominált a böngészőautomatizációban.
  • A Claude-4 Sonnet stabilan hozta a harmadik helyet, de nem ugrott a vezetők fölé.
  • A nyílt forrású mezőnyben a GLM-4.5 volt a legerősebb.
Mindezek ellenére a kutatók szerint még a legjobb modellek sem tudták a feladatok több mint felét sikeresen teljesíteni.

Hol buknak el?

A Salesforce szerint két visszatérő gyengeség mutatkozott:

  1. Hosszú kontextuskezelés: amikor sok adatot vagy több lépésből álló utasítást kellett átlátni, a modellek gyakran elvesztették a szálat.
  2. Ismeretlen eszközök használata: a modellek nem tudtak kellő rugalmassággal alkalmazkodni, ha új MCP-funkcióval találkoztak, amit „nem tanultak meg előre”.
„Ez jól mutatja, hogy nem érdemes egyetlen modelltől várni a teljes ügynöki működést” – mondta Junnan Li, a Salesforce AI Research igazgatója. – „Valódi megoldást csak olyan platformok kínálnak, amelyek kombinálják a kontextust, az erősebb érvelést és a biztonsági korlátokat.”

Miért számít ez az iparnak?

Az MCP-Universe a kutatók szerint új mércét állít a valós vállalati LLM-használatban. Míg más benchmarkok (pl. MCP-Radar vagy a kínai MCPWorld) is a protokoll köré épülnek, a Salesforce újdonsága, hogy valós MCP-szervereken futtatott, éles adatokat használ.

A vállalat célja, hogy az iparági szereplők e tesztekből lássák: hol törik meg a modellek teljesítménye, és ehhez igazítsák saját fejlesztéseiket vagy implementációjukat.

Ez az eredmény kettős üzenetet hordoz: egyrészt a GPT-5 és társai kétségkívül erősek, másrészt viszont a vállalatoknak számolniuk kell azzal, hogy a valós munkafolyamatokban még mindig gyakran elakadnak. Az MCP-Universe benchmark tehát nemcsak a modellek, hanem a cégek stratégiájának stressztesztje is.