潮声丨聪明的AI要“吃”什么?(你知道聪明的声音叫做什么吗)

潮声丨聪明的AI要“吃”什么?(你知道聪明的声音叫做什么吗)

017月以来,国家互联网信息办公室等联合主办2025全球数字经济大会,《高质量数据集实践指南(1.0)》发布,高质量数据集热度高企。它是可直接用于AI模型训练的数据集合,储存着AI所需的高价值“粮食”,没有它就“养”不出高质量AI。

02近两年,我国高质量数据集建设加速。2023年底多部门联合印发行动计划,去年底出台指导意见明确“高质量数据集”。今年2月建设工作启动会召开,多地也出台激励政策。国家数据局局长表示“‘人工智能+’行动到哪里,高质量数据集建设就要到哪里”。

03大模型科技企业、科研学术单位纷纷发力高质量数据集。如阿里巴巴发布中文问答数据集,百度发布百科、搜索数据集等。国外欧盟通过法案,华盛顿大学等机构联合推出MINT-1T数据集,以此预训练的模型在多方面取得显著提升。

04贵州大数据集团下属贵阳大数据交易所去年至今发布939个高质量数据集,官网专区已聚集46家市场主体,涵盖多领域。北京国际大数据交易所去年高质量数据集爆发式增长,为大模型提供覆盖多行业数据集,今年新增产品,场内交易规模同比增长。

05目前高质量场景数据集存在供需缺口,面临数量不足、标准缺失、开放流通程度不够等挑战。国家数据局开展典型案例征集,多地积极破题,如国资委发布央企数据集,多地发布行业数据集、明确建设数量和激励机制等,未来高质量数据集将赋能更多行业场景。

以上内容由传播大模型和DeepSeek生成,仅供参考

7月以来,从国家互联网信息办公室、国家数据局等联合主办2025全球数字经济大会,到中国通信标准化协会大数据技术标准推进委员会牵头、联合行业专家共同编制《高质量数据集实践指南(1.0)》正式发布……高质量数据集的热度持续高企。

什么是高质量数据集?

它是经过处理,可直接用于AI模型训练、能有效提升模型性能的数据集合,储存着AI所需的高价值、高密度、标准化的“粮食”。

图源:视觉中国

都说巧妇难为无米之炊。和人一样,AI同样需要大量的数据作为“粮食”,来进行模型训练和深度学习。可以说,没有高质量数据,就“养”不出高质量的人工智能。

这些经过加工分类的高质量数据集,在AI时代撬动的能量不可小觑。

高质量数据集,为何重要?

近两年,我国的高质量数据集建设按下了“加速键”。

2023年底,国家数据局等17部门联合印发了《“数据要素×”三年行动计划(2024—2026年)》,提出推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。

去年底,国家发展改革委等部门出台《关于促进数据产业高质量发展的指导意见》,首次明确提出“高质量数据集”,将其作为人工智能与实体经济融合的核心载体。随后一系列政策相继发布。

今年2月,高质量数据集建设工作启动会在北京召开,27个部门参会。会上明确提出积极推进落实“人工智能+”行动,推动高质量数据集建设,高效赋能行业发展……

“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里。”国家数据局局长刘烈宏在中国发展高层论坛2025年年会上明确表示。

江苏、贵州、上海、广东、浙江等多地也纷纷出台激励政策。为何从国家到地方都如此重视高质量数据集建设?

图源:视觉中国

浙江数字化发展与治理研究中心主任、浙江大学管理学院教授刘渊告诉记者,没有高质量的数据就喂不出高质量的人工智能。原先很多人认为,高算力和高投入是发展人工智能唯一途径。但是DeepSeek等的出现,让越来越多从业者意识到,要高度重视数据质量与规模,高质量数据集成为人工智能发展的关键要素之一。

中国信息通信研究院副院长魏亮一针见血地指出,数据集的质量影响人工智能的“智商”。“数据之于大模型,就像石油之于汽车。海量原始数据需要经过‘炼化’形成高质量数据集,才能助力大模型精准学习数据特征与规律,有效提升其对不同场景和任务的适应能力。”

除了各级政府外,大模型科技企业、科研学术单位也纷纷发力高质量数据集。比如,阿里巴巴发布中文问答数据集;百度发布百科数据集、百度搜索数据集等。

国外也正聚焦这一领域发力。欧盟2022年就通过了《高价值数据集实施法案》。去年,华盛顿大学、Salesforce Research 和斯坦福大学等机构联合团队推出了MINT-1T数据集。它包含万亿token(大模型处理文本的基本单位),是截至目前最大的多模态开源数据集。经过验证,以这个数据集为基础预训练的模型,在视觉描述、视觉问答、多图像推理等方面取得了显著提升。

高质量数据与人工智能的结合,将进一步发挥数据和人工智能的倍增效应。这点无疑已经成为政府部门、行业从业人员、专家学者们的共识。

数据集如何影响我们

AI时代,高质量数据集的需求量、交易量激增。

记者在贵州大数据集团下属贵阳大数据交易所采访时获悉,去年至今,贵数所发布了939个高质量数据集,为区域高质量数据集产业生态的发展起到了良好的带头示范作用。

贵数所市场部产品总监李霖泽介绍,去年官网正式上线高质量数据集专区,短短一年时间,已聚集46家市场主体。专区目前已涵盖金融服务、气象服务、现代农业、工业制造、医疗健康、商贸流通等重点领域。

如何让质量有保障?“比如文本数据,我们要求结构清晰,没有乱码,且内容重复率比较低;而图像、视频等数据,除了分辨率要高,还要求有相对详细的标注,对每一条数据的场景描述尽可能完整和丰富。”李霖泽说。

用户只需轻点鼠标,即可按使用场景、获取方式精准检索所需的高质量数据集,就像是线上购物一样便捷。

贵数所高质量数据集上架的产品,其价值不仅体现在数量优势上,更在于多样性与系统性——涵盖文字、音频、图片、视频等多种模态,以及TTS(文本转语音)、OCR(光学字符识别)等跨模态数据。

记者 叶诗蕾 摄

在2025全球数字经济大会上,北京国际大数据交易所董事长李振军也透露:“去年开始,高质量数据集呈现了爆发式的增长态势,主要需求就是模型训练数据。2024年人工智能数据只占我们交易量的10%,现在累加起来已经接近80%,说明包括实际交易量都在呈现爆发式增长。”

据了解,北京国际大数据交易截至目前已为大模型提供覆盖32个行业475个数据集。今年1月至5月,北数所新增高质量数据产品152个,场内交易规模超4400万元,同比增长37.63%。

高质量数据集对行业发展而言,最显著的作用是降本增效。在贵州,高质量数据集的赋能正延伸至更广泛领域。

比如有客户提出,在建设电站时,需要非常详细的建设地风量、风速、风力数据,用来指导风力发电机的运转。“我们的专区里就有这样的产品,可以帮助客户搭建风机功率的预测模型。在未来一段时间内,能够产生的发电量是多少,并以此去调整相应的储电储能设备管理等。”李霖泽举例介绍。

未来,贵数所一方面将继续丰富高质量数据的供给,为更多大模型厂商等提供更多数据支持,另一方面计划引入第三方数据加工治理服务机构,把更多的原始数据进行清洗、治理、加工,变成可交付的“金首饰”(高质量数据集)。“我们希望形成良性循环,持续提升高质量数据集的供给能力和质量。”李霖泽说。

还需迈过几道坎

《高质量数据集实践指南(1.0)》中提到,目前我国高质量场景数据集存在较大供需缺口,产业还处于探索阶段。

多位从业人员、专家认为,目前主要有三方面挑战。

图源:视觉中国

一是数量不足,供需不匹配。“AI大模型技术的快速迭代,不仅带来对数据的海量需求,也对数据集的构建提出了更多挑战。训练AI大模型需要大规模、高质量、多模态的数据集。”浙江大学公共管理学院博士后李兴腾和同伴,专门对突破人工智能大模型的“数据瓶颈”问题进行过研究。李兴腾认为,AI技术的快速迭代,加剧数据供需矛盾,高质量数据短缺将成为制约AI技术发展的重要因素。

“各个大模型厂商训练大模型的侧重点、场景都不一样,面对的行业不一样、客户群体不同,他们对数据都会有定制化的需求。”李霖泽说。

二是标准缺失、质量参差。不少专家指出,目前,对于高质量数据集还没有统一衡量标准,不同行业、不同数据源的数据完整性和准确性可能参差不齐,这不仅会影响了大模型的训练效果,也容易造成训练资源的浪费。

三是开放和流通程度不够。当下,高质量数据集开放程度低,数据孤岛依然存在,很多企业更倾向于自采、自用,数据流通机制有待进一步完善。刘渊教授指出,仅有高质量的数据并不够,还需要构建开放协同的数据共享机制,同时完善数据安全治理。“只有在流通和使用过程中才能充分释放数据要素价值。我们要让数据‘供得出’‘流得动’‘用得好’,高质量数据集才能最大限度发挥作用。”

以上种种挑战,都制约着数据要素潜能的释放。当下,从国家和地方都在积极破题。

目前,国家数据局正在开展高质量数据集典型案例征集,面向20多个行业和领域。

国家数据局局长刘烈宏曾公开表示,将充分调动社会各方力量,积极推动高质量数据集建设,持续增加数据供给,推动“人工智能+”行动赋能千行百业,打造包容开放的创新环境。

国资委今年4月发布首批10余个行业、30项央企人工智能行业高质量数据集。

各地同样不甘示弱。湖北省数据局已征集发布两批35个高质量数据集,为湖北AI大模型产业发展提供“养料”;苏州市发布首批30个行业高质量数据集,涵盖工业制造、交通运输、金融服务等重点行业领域……

包括浙江在内的多地,纷纷明确建设高质量数据集的数量、激励机制等。

北京大力推动人工智能创新发展,指导发布1.6T高质量中文语料库,推动建设垂直领域数据集。

深圳去年底出台政策,每年发放最高5000万元“语料券”,促进人工智能语料数据开放共享和交易,鼓励企业通过数据交易平台购买语料数据进行大模型研发和应用,可给予最高200万元的资助。

图源:视觉中国

杭州同样拿出真金白银,支持行业龙头企业推进高质量数据集建设。今年6月下旬新发布的《杭州市加快建设人工智能创新高地实施方案(2025年版)》,明确提出支持数据集及数据基础设施建设。

我们从杭州市数据资源管理局了解到,杭州支持企业和机构通过杭州数据开放平台向社会提供训练、验证、测试、语料等数据集,每年评选不超过5个高质量开放数据集,按照不超过实际投入的30%给予奖励,同一单位年度最高奖励100万元,高质量多模态开放数据集奖励最高可提升至200万元。此外,杭州还积极搭建行业高质量数据集的基础性平台,计划今年9月上线试运行。

在业内人士看来,医疗健康、金融服务行业的高质量数据,目前较为稀缺。当前,浙江正在积极推进数字政府2.0建设,在守护数据安全的基础上,有序推进医疗健康、文化旅游、具身智能等领域分行业试点,建好高质量数据集。

旺盛的市场需求,加上有力的政策推动,未来高质量数据集的用武之地将越来越多,赋能“千行百业”:在医疗领域,可以辅助诊断;在工业场景中,可监测预警安全问题、提前识别设备故障;在农业领域,可以支撑智慧农场……

我们相信,有了源源不断的优质“食材”,高质量数据集将在更多行业、更多场景中落地,真正成为人工智能的“燃料”、产业升级的“加速器”。

“转载请注明出处”

猜你喜欢

路遥三弟王天云访谈录(六)(路遥三弟王天云哪年出生)

这时,那个负责联系我的娃娃导演马上给我跪了下来,她说,这下,我是彻底完了,要被开除了,她希望我能原谅。 后来曹谷溪给我说,远远就在现场,在下面的观众席坐着;央视的一个分导演却说,远远打发她的助理在现场,远远…

路遥三弟王天云访谈录(六)(路遥三弟王天云哪年出生)

安利股份:人形机器人仿真皮肤领域处于前期探索开发阶段(安利股份百科)

金融界7月23日消息,有投资者在互动平台向安利股份提问:您好,关注到公司在定期报告及互动中提及,正积极关注人形机器人等新兴领域,尤其提到了仿真皮肤相关技术储备。想请教一下:目前公司在机器人(尤其是人形机器人仿…

安利股份:人形机器人仿真皮肤领域处于前期探索开发阶段(安利股份百科)

女神为艺术献身,破尺度斯巴达克斯,强人看完皆赞(女神为艺术献身爱情大谎言)

吉米·莫瑞用沙哑的笑声与蛇般扭动的肢体,将盖娅的野心与脆弱巧妙地融合成了一幅悲剧的象征。盖娅在剧中仅出现了6集,但她的形象已深深扎根在剧迷的心中,被誉为“竞技场中的真正女神”,她用献祭肉体的方式,完成了对男权…

女神为艺术献身,破尺度斯巴达克斯,强人看完皆赞(女神为艺术献身爱情大谎言)

影像真天花板?vivo X100标准版 影像详细体验(影像效果是什么意思)

它用实力证明,即使是“标准版”,只要在核心影像硬件和算法上肯下功夫,同样能达到媲美甚至超越部分影像旗舰的水准。对于绝大多数热爱记录生活的消费者而言,X100标准版提供的影像体验堪称“一步到位”,无论是日常…

影像真天花板?vivo X100标准版 影像详细体验(影像效果是什么意思)

三菱Q02HPLC以太网集成:单网同步联控上位机、HMI及变频调速(三菱q系列plc以太网连接步骤视频)

与上位机通讯:上位机安装有组态软件,如组态王、WinCC等,在组态软件中添加与YC8000-Q以太网模块对应的设备驱动,并配置好模块的IP地址等网络参数。同时,生产管理人员也可以通过上位机下发各种控制指令和…

三菱Q02HPLC以太网集成:单网同步联控上位机、HMI及变频调速(三菱q系列plc以太网连接步骤视频)