大模型越来越强，上海也努力让大模型“考试”更专业、全面！(模型大厂)#科技#能力#体系#考试#技术#上海

大模型“考生”数量越来越多、能力越来越强，呼唤更专业、公正、开放的“统一考试”——这不仅是技术发展的“试金石”，也是连接技术与应用、促进跨领域合作的重要桥梁。

新民晚报记者21日从上海人工智能实验室获悉，由其打造的创新开放评测体系司南（OpenCompass）全面升级，从大模型评测扩展至AI计算系统、具身智能、安全可信及垂类行业应用等五大领域，构建起“五位一体”的全景评估范式，覆盖从底层算力到上层智能的全链路关键能力，为行业提供一站式、全景化的能力刻度。

补齐五大板块能力评估矩阵

人们发现，现今模型参数规模不断增长，能力边界不断拓展，从算法突破到场景落地，AI正加速走向与真实世界深度融合。

面对不断提升的复杂性与不确定性，单一维度、孤立指标的评估方式，已难以支撑技术走向大规模部署与可信应用。

在这样的背景下，构建系统化、标准化、开放性的评测体系，不仅是衡量模型技术水位的“试金石”，更是打通研发、应用与监管的重要“基础设施”。

上海AI实验室告诉记者，已对司南评测体系进行了全面升级。在原有通用大模型能力评测基础上，进一步拓展并纳入了安全可信评测、具身智能评测、AI计算系统评测和垂类行业评测。

至此，司南形成覆盖AI计算系统、通用大模型、具身智能、安全可信以及垂类行业应用五大核心板块的能力评估矩阵，构建起从底层算力到上层智能的全链路闭环评测范式。

重塑AI能力刻度标准

记者获悉，在此次推出的“垂类应用评测模块”，当前已“上新”了“AI+金融”评测和“AI+医疗”评测。

金融作为大模型重点落地行业，对安全性、专业性、实用性要求极高。“AI+金融”评测构建了融合多模态、主观题与大模型评审的新型评测范式。其中，金融多模态评测集在纯文本基础上，融合财报、研报、IPO、K线图、公章等典型图文材料，更贴近金融实务的多模态场景。

“AI+医疗”评测新增医疗多模态评测能力，针对真实应用场景，构建了文献问答、复杂推理、临床危急情况识别评测数据集，并继续向业界开放医疗大模型能力评测服务。

此外，具身智能评测从具身大脑、具身小脑和具身系统三大功能维度出发，构建“静态—仿真—实境”三层级评测路径，覆盖模型从认知到行动的全链条能力。

助力新技术在应用中达到预期

自发布以来，司南评测体系通过开源可复现的一站式评测框架，已累计支持超200个大语言模型、150个多模态模型，覆盖300+评测集，工具链GitHub Stars超过1万。

据透露，司南作为主要成员参与制定国家标准《人工智能大模型第2部分：评测指标与方法》，并联合百度、阿里、字节跳动、腾讯、中国电信、中国移动等20余家主流企业共建评测榜单，工具链已集成至阿里云ModeScope、百度云在线评测服务等产品，持续赋能大模型产业生态；同时，司南还携手南京大学、同济大学等机构，共同打造法律、土木工程等垂直领域评测基准。

新民晚报记者获悉，目前，司南已建立起含大语言模型、多模态模型、具身智能及安全可信等核心方向的评测榜单体系。

未来，司南将通过科学、公正、全面的评测，对模型与应用的性能、效率、安全性及可靠性作出评估，助力新技术在实际应用中达到预期标准；同时，通过评测识别出当前技术的不足之处，提供优化方向，激励研究者探索创新，进而构建安全、可信、公平的人工智能生态体系。