A Salesforce AI Research MCP-Universe nevű új tesztje megmutatta: a legfejlettebb nyelvi modellek – köztük az OpenAI GPT-5 – is megbicsaklanak, ha valós, vállalati környezetben kell MCP-szerverekkel dolgozniuk.
A vállalatok egyre inkább az interoperabilitás felé fordulnak: szabványos protokollokra, mint a Model Context Protocol (MCP), amely lehetővé teszi, hogy különböző rendszerek, ügynökök és nyelvi modellek együttműködjenek. A hagyományos benchmarkok azonban eddig leginkább izolált képességeket mértek – például instrukciókövetést vagy matematikai logikát –, de kevésbé azt, hogyan boldogul egy modell a valós, eszközökkel teli ökoszisztémában.
Ezt a hiányt célozza most a Salesforce által fejlesztett MCP-Universe, amely kifejezetten a valós szerverekhez és eszközökhöz illesztett, gyakorlati feladatokat állít a modellek elé.
Az MCP-Universe a vállalati felhasználás szempontjából hat kulcsdoménben vizsgálja a modelleket:
Összesen 11 MCP-szerveren, 231 feladat várt a modellekre, a feladatok között olyan kihívásokkal, mint optimális útvonaltervezés, kódbázisban keresés, piaci döntéshozatal, 3D-s szerkesztés vagy böngészőszintű automatizáció.
A kutatók végrehajtás-alapú értékelést választottak, nem pedig LLM-as-a-judge megközelítést. Ez azért fontos, mert a valós idejű adatokkal dolgozó MCP-feladatokat egy statikus tudású modellbíró nem tudná objektíven pontozni.
A tesztben több mint tíz vezető modellt vizsgáltak, köztük:
Az eredmények vegyesek:
Mindezek ellenére a kutatók szerint még a legjobb modellek sem tudták a feladatok több mint felét sikeresen teljesíteni.
A Salesforce szerint két visszatérő gyengeség mutatkozott:
„Ez jól mutatja, hogy nem érdemes egyetlen modelltől várni a teljes ügynöki működést” – mondta Junnan Li, a Salesforce AI Research igazgatója. – „Valódi megoldást csak olyan platformok kínálnak, amelyek kombinálják a kontextust, az erősebb érvelést és a biztonsági korlátokat.”
Az MCP-Universe a kutatók szerint új mércét állít a valós vállalati LLM-használatban. Míg más benchmarkok (pl. MCP-Radar vagy a kínai MCPWorld) is a protokoll köré épülnek, a Salesforce újdonsága, hogy valós MCP-szervereken futtatott, éles adatokat használ.
A vállalat célja, hogy az iparági szereplők e tesztekből lássák: hol törik meg a modellek teljesítménye, és ehhez igazítsák saját fejlesztéseiket vagy implementációjukat.
Ez az eredmény kettős üzenetet hordoz: egyrészt a GPT-5 és társai kétségkívül erősek, másrészt viszont a vállalatoknak számolniuk kell azzal, hogy a valós munkafolyamatokban még mindig gyakran elakadnak. Az MCP-Universe benchmark tehát nemcsak a modellek, hanem a cégek stratégiájának stressztesztje is.