MCP-Universe基准测试显示GPT-5在超半数真实业务场景中表现不佳(spec基准测试)
SalesforceAI研究团队开发了一个名为MCP-Universe的新开源基准测试,旨在跟踪大语言模型与现实世界MCP服务器的交互表现,认为这将更好地反映模型与企业实际使用工具的真实时间交互情况。 S…
SalesforceAI研究团队开发了一个名为MCP-Universe的新开源基准测试,旨在跟踪大语言模型与现实世界MCP服务器的交互表现,认为这将更好地反映模型与企业实际使用工具的真实时间交互情况。 S…