上海人工智能实验室：金融大模型应用评测报告-摘要版2025 #科技 #能力 #摘要 #Step #评测 #模型

今天分享的是：上海人工智能实验室：金融大模型应用评测报告-摘要版2024

报告共计：17页

《金融大模型应用评测报告（2024）摘要版》由上海人工智能实验室等机构发布，旨在推动金融科技创新，提升金融服务智能化水平，探索金融大模型应用新方向。

在评测范式上，本次评测涵盖14个主流大模型机构的20个模型，包括国内外、开闭源、通用基模与金融垂模。围绕金融行业核心业务需求和场景适配性，从模型基础能力、金融安全与价值对齐能力、金融风险控制能力、金融专业认知能力、金融业务辅助拓展能力5大维度展开。评测采用主客观结合的方式，使用《库帕思金融大模型评测数据集（2024版）》，以OpenCompass平台为核心工具，通过线性加权模型计算综合评估分数。

评测结果显示，参评模型总分平均为71.9分。Anthropic的Claude-3.5-Sonnet-20240620、阶跃星辰/财跃星辰的Step-2-16k/Finstep、阿里巴巴的Qwen2.5-72b-Instruct/Qwen2-VL-72B位列前三。各维度方面，模型基础能力平均得分59.8分，阿里巴巴的Qwen2.5-72B-Instruct领先；金融安全与价值对齐能力平均92.8分，阶跃星辰/财跃星辰的Step-2-16k表现突出；金融风险控制能力平均77.1分，Anthropic的Claude-3.5-Sonnet-20240620排名靠前；金融专业认知能力平均52.0分，腾讯的Hunyuan-Turbo/Hunyuan-Vision表现较好；金融业务辅助拓展能力平均77.8分，Anthropic的Claude-3.5-Sonnet-20240620居首。

评测总结指出，各模型在五大能力维度基本满足当下场景需求，但金融专业认知和多模态处理能力有待提升。同时，高质量金融语料建设，尤其是多模态数据集构建至关重要。此外，拓展和更新以金融业务为核心的评测框架，紧密结合实践，有助于规范行业发展，推动模型与业务需求精准对接。

本次评测为金融大模型行业发展提供了重要参考，指引了未来发展方向，对推动金融大模型在行业中的应用具有重要意义。

以下为报告节选内容