标签:"SWEbench"相关文章

1月前

OpenAI 于 12 月 12 日正式发布 GPT-5.2，作为对谷歌 Gemini 3的紧急反击，首次推出针对专业工作的三版本模型，主打效率与实用性，但高定价和性能争议引发广泛关注。谷歌 Gemin…

1月前

要在ChatGPT中使用新的做表格和PPT能力，需要充值Plus、Pro、Business或 Enterprise套餐，选择GPT-5.2Thinking或Pro版本。在OpenAI自制的大海捞针MR…

4月前

在功能层面，『DeepSeek』-V3.1-Terminus版本对Code Agent和Search Agent的性能进行了深度优化，这两个核心组件在代码生成、调试优化以及信息检索、内容理解方面的准确性和响应效…

5月前

现在相当于OpenAI自行省略的那23个问题，自己搞了个子集的“子集”来评估模型能力。网友们除了自行忽略部分测试题，“伪造了结果”这一发现外，还发现，他们是将具有最大思维努力的GPT-5与没有扩展思维仅靠…

5月前

据Anthropic公告，新模型在智能体工具调用、智能体编程与多语言问答能力上全面超越OpenAIo3，Anthropic还计划在未来数周内为模型推出更大幅度的改进。从基准测试结果可以看出，Anthro…

6月前

【CNMO科技消息】近日，月之暗面公司发布重要更新，正式推出Kimi K2模型并同步开源。具体而言，在SWE-benchVerified和SWE-bench Multilingual两项自主编程能力测试中，…

7月前

美国在人工智能模型开发方面仍处于领先地位：2024年，美国机构开发了40个标志性人工智能模型，而中国有15个，欧洲仅有3个。人工智能的商业应用加速普及：78%的企业在2024年应用了人工智能技术，较前一年…