2025年中文大模型基准测评#科技#Agent#能力#差距#测评#ChatGPT

今天分享的是：2024年中文大模型基准测评

报告共计：89页

《中文大模型基准测评2024年度报告》由SuperCLUE团队发布，对2024年中文大模型进行了全面测评与分析。

1. 大模型进展与格局：自ChatGPT发布，大模型历经多阶段发展。2024年，海外OpenAI发布Sora、o1等，国内多模态和通用模型也不断进步。目前，国内外大模型在中文通用能力上差距扩大，o1以80.4分领跑，国内顶尖模型如DeepSeek-V3和SenseChat 5.5-latest得68.3分，接近ChatGPT-4o-latest。

2. 测评体系与方法：SuperCLUE是独立第三方测评基准，具有“Live”更新、测评方式贴近用户、完全独立等特征。其测评体系涵盖多领域多层次，本次通用能力测评由理科、文科和Hard三大维度构成，通过多种方式评价模型表现。

3. 测评结果

- 综合表现：国内头部大模型在中文场景下优于Claude 3.5 Sonnet，接近ChatGPT-4o-latest，但与o1仍有差距。在文科任务上，国内大模型有一定领先性；理科和Hard任务中，与海外头部模型差距较大。

- 单项能力：在Agent、深度推理等九大任务中，不同模型各有优势。如Step-2-16k在Agent任务表现出色，Baichuan4在深度推理任务表现突出。

- 效能与性价比：部分国产模型如DeepSeek-V3和Qwen2.5-32B-Instruct在综合效能和性价比上有竞争力，在保持高水平能力的同时，推理速度快且成本低。

4. 模型成熟度与开源进展：国内大模型在语言理解和生成创作方面成熟度较高，Agent能力成熟度低。开源模型中，国内DeepSeek系列和Qwen系列表现优异，在10B级别及端侧5B级别小模型中，国内模型也展现出优势和潜力。

5. 其他测评基准：在多模态、AI产品、行业等测评基准中，各模型表现不同。如在多模态测评中，不同模型在视觉推理、文生视频等任务各有优劣；在行业测评中，中文大模型在部分行业场景有良好表现，但也存在发展不均衡的情况。

总体而言，2024年中文大模型发展迅速，虽与国际顶尖模型有差距，但在部分领域已展现出竞争力，未来发展值得期待。

以下为报告节选内容