数据魔方:跳出“算力内卷”,走向“数据精益”(数据魔方的主要作用是什么?)

(来源:中国改革报)

转自:中国改革报

□ 本报记者 张守营

在全球人工智能竞争日益激烈的今天,大模型技术正迅速从通用走向垂直、从实验走向落地。然而,一个长期被行业忽视却至关重要的瓶颈正逐渐浮出水面——高质量行业数据的严重短缺。

近日,由北京智源人工智能研究院(以下简称“智源研究院”)推出的“数据魔方”平台正式上线,致力于以“按需生成高质量数据集”的能力,重新定义AI数据供应链。

“当前国内外开源通用大模型虽层出不穷,但真正落地到具体行业时,高质量、场景化的数据缺失仍是最大障碍。”智源研究院副院长林咏华在接受本报记者专访时说。

林咏华说,尽管我国目前已备案的生成式AI模型超过400个,其中绝大多数为垂直行业模型,但对比国家统计局定义的近百类细分行业,覆盖仍显不足。“数据魔方要做的是让企业‘需要什么数据,就生成什么数据’,彻底改变传统数据获取模式。”

从“荒”到“仓”

定制数据集实现“秒级生成”,重塑AI数据供应链。

在过去,一家希望开发篮球赛事AI分析系统的公司,往往需投入数月时间收集视频数据、进行人工标注与清洗。如今,通过数据魔方平台,同类需求得以在极短时间内获得响应——用户仅需输入任务描述,平台即可实时生成高质量、场景适配的结构化数据集。

“我们借鉴了‘数据即服务’(DaaS)理念,但更进一步。”林咏华解释道,“它不仅是一个数据池,更是一个动态生成引擎。”她介绍说,该平台基于智源此前已开源的全球规模最大的中文文本数据集之一——35TB CCI(中文语料库倡议)语料,覆盖金融、医疗等8大垂直领域,并融入多模态合成与生成技术,实现文本、图像、视频等不同类型数据的“指令式提取”。

目前,平台已率先开放视频数据处理能力。语言、图文等多模态支持也将陆续上线,目标直指“全行业覆盖”。

不止于“大”

精准检索+生成能力,激活长尾行业AI落地。

尽管当前AI模型在金融、医疗、教育等数据富集领域进展迅速,但更多长尾行业,如农业病虫害识别、小众体育项目分析、工艺非遗传承等,仍因数据匮乏难以推进『数字化』。

林咏华说,数据魔方的核心突破在于“样本级精准检索+生成式增强”。例如,网球与篮球虽同属体育大类,但在动作识别、战术分析等维度差异显著。“平台不仅可以检索出相关数据,还能通过合成数据技术‘查漏补缺’,自动生成稀缺场景样本。”

这种能力尤其适合中小企业和初创团队。他们无需组建庞大的数据工程团队,即可快速构建具备行业特性的专用模型,从而实现“数据平权”和模型开发的“弯道超车”。

构建数据基座

尽管数据魔方在技术上取得突破,林咏华多次强调“数据来源多样性”与“版权©️合规”的重要性。“目前高质量中文数据资源仍非常稀缺,尤其是图书、古籍、地方语言等领域。”

她特别指出,相较于国际同行,如哈佛大学已开源高达1000万册的图书数据集,中文公版图书数据的『数字化』与开放程度明显滞后。“我们呼吁国家级及省级图书馆、高校、文化机构开放更多版权©️清晰的公版藏书数据,填补这一关键空白。”

除此之外,智源也将自身已积累的35T中文CCI数据集全面接入数据魔方,用户可通过自然语言指令灵活提取所需子集。这不仅大幅降低数据使用门槛,也为中文NLP(自然语言处理)社区提供更为丰富和可控的数据资源。

打破“数据孤岛”

在全球算力竞争日益激烈的背景下,如何高效利用有限算力,成为所有AI从业者必须面对的课题。数据魔方试图从数据层面提供解题新思路。

“我们通过两大路径帮助企业降低算力依赖。”林咏华介绍,“一是预处理降耗——平台预先完成清洗、去重、标注,用户获取的已是‘即插即用’型数据,本地算力消耗接近于零;二是数据精炼——用1万条高质量数据取代100万条低质数据,显著降低模型微调时的算力与时间成本。”

这意味着,以前只有巨头玩得起的大模型定制,未来中小企业也有机会参与。

在技术实现层面,数据魔方并非简单的数据聚合平台。其背后涉及多项底层技术的自主研发。林咏华透露,平台核心引擎,如CLIP模型、混合检索系统等,均属智源自研成果。同时,平台还与国产大模型(如阿里千问、智源Video XL等)深度整合,形成从数据生成到模型训练的全栈工具链。“我们不只提供数据,还提供配套的算法和最佳实践,帮助企业打通‘数据—模型—应用’闭环。”

尽管平台上线时间不长,数据魔方便已收到大量企业与合作请求,但林咏华清醒地认识到,单一平台的力量仍远远不够。

“我们攻克了技术难关,但真正的挑战在于打破‘数据孤岛’。”她呼吁更多拥有版权©️清晰数据的机构,如出版社、博物馆、科技企业、高校等,加入数据开放计划,共同构建健康、合规、可持续的中文数据生态。

数据魔方的推出,或许意味着AI行业竞争重心正在悄然转变:从拼参数、拼算力,逐渐转向拼数据质量、拼落地能力、拼生态健康度。正如林咏华所言:“AI的未来,不在于模型有多大,而在于数据有多‘活’。”

特别声明:[数据魔方:跳出“算力内卷”,走向“数据精益”(数据魔方的主要作用是什么?)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

一审被判20个月,金建希死里逃生!尹锡悦遭抛弃,李在明区别对待(一审判决几个月)

韩国前第一夫人金建希,曾被检方要求判处15年刑期,然而在一审判决中,她仅被判处了20个月的有期徒刑。这一判决是与金建希相关的三起案件中的第一场判决,虽然这一判决意味着金建希的刑期肯定不会只有20个月,但这也反…

一审被判20个月,金建希死里逃生!尹锡悦遭抛弃,李在明区别对待(一审判决几个月)

露背显瘦时尚百搭外穿胸衣怎么选?掌握2026流行趋势的关键点(露背装怎么穿内搭)

想要选对一件既能显瘦又时尚百搭的露背外穿胸衣?本文帮你了解2026年最新的潮流趋势、材质工艺及穿着场合,教你挑选最适合自己的露背外穿胸衣,轻松驾驭各类搭配场景。从材质选择到版型适配,从显瘦效果到百搭属性,全面解读露背显瘦外穿胸衣选购关键点,

露背显瘦时尚百搭外穿胸衣怎么选?掌握2026流行趋势的关键点(露背装怎么穿内搭)

薛佳凝自曝13年开始攒金,现在狂赚270万,怪不得『明星』️都这么有钱(薛佳凝最近)

或许有人会觉得,『明星』️们收入丰厚,做些理财投资本不奇怪,但仔细分析薛佳凝的黄金投资,这背后可不仅仅是偶然的好运气,而是她拥有的非凡战略眼光和超乎常人的耐性——甚至连一些专业财经人士看到细节后,都不禁感叹,这简直…

薛佳凝自曝13年开始攒金,现在狂赚270万,怪不得『明星』️都这么有钱(薛佳凝最近)

大力马飞盘式撒网,真的好用吗?手抛网的选购攻略全知道!(大力马飞盘撒网价格)

近年来,飞盘式撒网因其便捷性和趣味性逐渐流行。大力马材质加粗圆盘设计的手抛网,以其坚固耐用著称,尤其适合新手和钓鱼爱好者。然而,面对市场上琳琅满目的产品,如何挑选最适合自己的款式呢?本篇文章为您详细解读选购标准、使用技巧与常见误区,帮助您做

大力马飞盘式撒网,真的好用吗?手抛网的选购攻略全知道!(大力马飞盘撒网价格)

想摆脱痘痘先搞懂抽烟的“危害” 这些习惯要改掉(赶走痘痘)

长痘是许多人的皮肤问题,尤其在青少年和年轻人中较为常见。生活中常有“抽烟会长痘”的说法,不少烟民也发现自己的痘痘问题难以改善

想摆脱痘痘先搞懂抽烟的“危害” 这些习惯要改掉(赶走痘痘)