标签:"SuperCLUE"相关文章

6月前

其中，北电数智骄阳·工业大模型以83.44分的总分强势夺冠，在工业领域的综合能力与应用任务表现上，展现出强劲竞争力。这一方面说明在工业任务能力方面，国产模型正在突围；另一方面表明在基础能力趋同的情况下，工业…

6月前

奥特曼此前称GPT-5是“一套集成了我们大量技术的系统”，它将包含o3推理能力，而不是作为独立模型发布。中银证券指出，GPT-5不仅将在自然语言处理能力将迎来精度与效率的双重提升同时有望在多模态学习方面实现…

7月前

该报告聚焦 2025 年上半年中文大模型进展，通过 SuperCLUE综合测评体系，对模型进行多维度评估。在数学、科学推理，代码生成、智能体、指令遵循及文本处理方面，设置 1579 道多轮简答题测试。结果显…

11月前

《中文大模型基准测评2024年度报告》由SuperCLUE团队发布，对2024年中文大模型进行全面测评与分析，展现了大模型发展态势、测评体系及成果。- 综合效能与性价比：部分国产模型如『DeepSeek』-V…