2025.08.25. 20:01 Horváth Péter
A Salesforce AI Research MCP-Universe nevű új tesztje megmutatta: a legfejlettebb nyelvi modellek – köztük az OpenAI GPT-5 – is megbicsaklanak, ha valós, vállalati környezetben kell MCP-szerverekkel dolgozniuk.

A vállalatok egyre inkább az interoperabilitás felé fordulnak: szabványos protokollokra, mint a Model Context Protocol (MCP), amely lehetővé teszi, hogy különböző rendszerek, ügynökök és nyelvi modellek együttműködjenek. A hagyományos benchmarkok azonban eddig leginkább izolált képességeket mértek – például instrukciókövetést vagy matematikai logikát –, de kevésbé azt, hogyan boldogul egy modell a valós, eszközökkel teli ökoszisztémában.
Ezt a hiányt célozza most a Salesforce által fejlesztett MCP-Universe, amely kifejezetten a valós szerverekhez és eszközökhöz illesztett, gyakorlati feladatokat állít a modellek elé.
Hat terület, 231 feladat
Az MCP-Universe a vállalati felhasználás szempontjából hat kulcsdoménben vizsgálja a modelleket:
- Helymeghatározás és navigáció (Google Maps MCP)
- Kódtár- és verziókezelés (GitHub MCP)
- Pénzügyi elemzés (Yahoo Finance MCP)
- 3D tervezés (Blender MCP)
- Böngészőautomatizáció (Playwright MCP)
- Webkeresés és információszerzés (Google Search MCP, Fetch MCP)
Összesen 11 MCP-szerveren, 231 feladat várt a modellekre, a feladatok között olyan kihívásokkal, mint optimális útvonaltervezés, kódbázisban keresés, piaci döntéshozatal, 3D-s szerkesztés vagy böngészőszintű automatizáció.
A kutatók végrehajtás-alapú értékelést választottak, nem pedig LLM-as-a-judge megközelítést. Ez azért fontos, mert a valós idejű adatokkal dolgozó MCP-feladatokat egy statikus tudású modellbíró nem tudná objektíven pontozni.
Mit bírnak a legnagyobb modellek?
A tesztben több mint tíz vezető modellt vizsgáltak, köztük:
- OpenAI GPT-5, GPT-4.1, GPT-4o
- xAI Grok-4
- Anthropic Claude-4 Sonnet, Claude 3.7 Sonnet
- Google Gemini 2.5 Pro, Gemini 2.5 Flash
- DeepSeek-V3, GLM-4.5, Qwen3, Moonshot Kimi-K2
Az eredmények vegyesek:
- A GPT-5 teljesített összességében a legjobban, különösen a pénzügyi elemzési feladatokban.
- A Grok-4 dominált a böngészőautomatizációban.
- A Claude-4 Sonnet stabilan hozta a harmadik helyet, de nem ugrott a vezetők fölé.
- A nyílt forrású mezőnyben a GLM-4.5 volt a legerősebb.
Mindezek ellenére a kutatók szerint még a legjobb modellek sem tudták a feladatok több mint felét sikeresen teljesíteni.
Hol buknak el?
A Salesforce szerint két visszatérő gyengeség mutatkozott:
- Hosszú kontextuskezelés: amikor sok adatot vagy több lépésből álló utasítást kellett átlátni, a modellek gyakran elvesztették a szálat.
- Ismeretlen eszközök használata: a modellek nem tudtak kellő rugalmassággal alkalmazkodni, ha új MCP-funkcióval találkoztak, amit „nem tanultak meg előre”.
„Ez jól mutatja, hogy nem érdemes egyetlen modelltől várni a teljes ügynöki működést” – mondta Junnan Li, a Salesforce AI Research igazgatója. – „Valódi megoldást csak olyan platformok kínálnak, amelyek kombinálják a kontextust, az erősebb érvelést és a biztonsági korlátokat.”
Miért számít ez az iparnak?
Az MCP-Universe a kutatók szerint új mércét állít a valós vállalati LLM-használatban. Míg más benchmarkok (pl. MCP-Radar vagy a kínai MCPWorld) is a protokoll köré épülnek, a Salesforce újdonsága, hogy valós MCP-szervereken futtatott, éles adatokat használ.
A vállalat célja, hogy az iparági szereplők e tesztekből lássák: hol törik meg a modellek teljesítménye, és ehhez igazítsák saját fejlesztéseiket vagy implementációjukat.
Ez az eredmény kettős üzenetet hordoz: egyrészt a GPT-5 és társai kétségkívül erősek, másrészt viszont a vállalatoknak számolniuk kell azzal, hogy a valós munkafolyamatokban még mindig gyakran elakadnak. Az MCP-Universe benchmark tehát nemcsak a modellek, hanem a cégek stratégiájának stressztesztje is.