上海人工智能实验室:金融大模型应用评测报告-摘要版2025

上海人工智能实验室:金融大模型应用评测报告-摘要版2025

今天分享的是:上海人工智能实验室:金融大模型应用评测报告-摘要版2024

报告共计:17页

《金融大模型应用评测报告(2024)摘要版》由上海人工智能实验室等机构发布,旨在推动金融科技创新,提升金融服务智能化水平,探索金融大模型应用新方向。

在评测范式上,本次评测涵盖14个主流大模型机构的20个模型,包括国内外、开闭源、通用基模与金融垂模。围绕金融行业核心业务需求和场景适配性,从模型基础能力、金融安全与价值对齐能力、金融风险控制能力、金融专业认知能力、金融业务辅助拓展能力5大维度展开。评测采用主客观结合的方式,使用《库帕思金融大模型评测数据集(2024版)》,以OpenCompass平台为核心工具,通过线性加权模型计算综合评估分数。

评测结果显示,参评模型总分平均为71.9分。Anthropic的Claude-3.5-Sonnet-20240620、阶跃星辰/财跃星辰的Step-2-16k/Finstep、阿里巴巴的Qwen2.5-72b-Instruct/Qwen2-VL-72B位列前三。各维度方面,模型基础能力平均得分59.8分,阿里巴巴的Qwen2.5-72B-Instruct领先;金融安全与价值对齐能力平均92.8分,阶跃星辰/财跃星辰的Step-2-16k表现突出;金融风险控制能力平均77.1分,Anthropic的Claude-3.5-Sonnet-20240620排名靠前;金融专业认知能力平均52.0分,腾讯的Hunyuan-Turbo/Hunyuan-Vision表现较好;金融业务辅助拓展能力平均77.8分,Anthropic的Claude-3.5-Sonnet-20240620居首。

评测总结指出,各模型在五大能力维度基本满足当下场景需求,但金融专业认知和多模态处理能力有待提升。同时,高质量金融语料建设,尤其是多模态数据集构建至关重要。此外,拓展和更新以金融业务为核心的评测框架,紧密结合实践,有助于规范行业发展,推动模型与业务需求精准对接。

本次评测为金融大模型行业发展提供了重要参考,指引了未来发展方向,对推动金融大模型在行业中的应用具有重要意义 。

以下为报告节选内容

特别声明:[上海人工智能实验室:金融大模型应用评测报告-摘要版2025] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

如何用RPA平台破解企业效率困局(rpa使用教程)

方案模拟与推演我们以行业黑马「魔芋AI」的解决方案为模型进行推演:1.第一步通过「魔芋RPA」的视觉引擎自动适配各电商平台UI变化,即使页面改版也能持续抓取关键字段;2. 第二步利用其NLP模块解析法语、…

如何用RPA平台破解企业效率困局(rpa使用教程)

快速的AI录音帮你告别记录烦恼 再也不用手动记漏信息(ai录音笔)

听脑AI有预设的场景模式,选“会议模式”,系统会自动识别“同意”“决定”“负责”这类关键词,标红待办事项;选“采访模式”,会自动拆分提问和回答,还能标重点句;选“学习模式”,能识别“注意”“重点来了”这类提…

快速的AI录音帮你告别记录烦恼 再也不用手动记漏信息(ai录音笔)

44岁张龄心全家福:现实中的“江亚菲”,丈夫大她12岁,为爱生子(张龄心张龄心)

观众们看到这一情节时,很多人都替江亚菲感到惋惜,认为她不过是个“恋爱脑”罢了。在北电,她遇到了当时以“严厉”著称的扈耀之,他是学校里出了名的“大老虎”,对学生要求极为严格。 当扈耀之得知张龄心的心意后,他并未…

44岁张龄心全家福:现实中的“江亚菲”,丈夫大她12岁,为爱生子(张龄心张龄心)

脑机启侦|“看”“听”“感”三模态协同,打造更智能的人机交流通道(08.02)

这一数据集整合了音频(Audio)、视觉(Visual)和肌电信号(Electromyographic,EMG),为多模态语音识别技术提供了新的突破口,也为脑机接口等领域的研究拓宽了数据基础。 上述三类模态…

脑机启侦|“看”“听”“感”三模态协同,打造更智能的人机交流通道(08.02)

烂泥扶不上墙!儿子家暴还在外欠债,如今的“赵四”脸面保不住了(烂泥扶不上墙的人)

近日,刘小光的儿媳逢女士实名举报刘小光的儿子家暴她,消息一出,迅速引发了吃瓜群众的热议,毕竟大家对“赵四”扮演者的家庭状况产生了浓厚兴趣。 众所周知,逢女士在与刘小光的儿子结婚后,便开始直播挣钱,甚至为丈夫…

烂泥扶不上墙!儿子家暴还在外欠债,如今的“赵四”脸面保不住了(烂泥扶不上墙的人)