数据魔方:跳出“算力内卷”,走向“数据精益”(数据魔方的主要作用是什么?)

数据魔方:跳出“算力内卷”,走向“数据精益”(数据魔方的主要作用是什么?)

(来源:中国改革报)

转自:中国改革报

□ 本报记者 张守营

在全球人工智能竞争日益激烈的今天,大模型技术正迅速从通用走向垂直、从实验走向落地。然而,一个长期被行业忽视却至关重要的瓶颈正逐渐浮出水面——高质量行业数据的严重短缺。

近日,由北京智源人工智能研究院(以下简称“智源研究院”)推出的“数据魔方”平台正式上线,致力于以“按需生成高质量数据集”的能力,重新定义AI数据供应链。

“当前国内外开源通用大模型虽层出不穷,但真正落地到具体行业时,高质量、场景化的数据缺失仍是最大障碍。”智源研究院副院长林咏华在接受本报记者专访时说。

林咏华说,尽管我国目前已备案的生成式AI模型超过400个,其中绝大多数为垂直行业模型,但对比国家统计局定义的近百类细分行业,覆盖仍显不足。“数据魔方要做的是让企业‘需要什么数据,就生成什么数据’,彻底改变传统数据获取模式。”

从“荒”到“仓”

定制数据集实现“秒级生成”,重塑AI数据供应链。

在过去,一家希望开发篮球赛事AI分析系统的公司,往往需投入数月时间收集视频数据、进行人工标注与清洗。如今,通过数据魔方平台,同类需求得以在极短时间内获得响应——用户仅需输入任务描述,平台即可实时生成高质量、场景适配的结构化数据集。

“我们借鉴了‘数据即服务’(DaaS)理念,但更进一步。”林咏华解释道,“它不仅是一个数据池,更是一个动态生成引擎。”她介绍说,该平台基于智源此前已开源的全球规模最大的中文文本数据集之一——35TB CCI(中文语料库倡议)语料,覆盖金融、医疗等8大垂直领域,并融入多模态合成与生成技术,实现文本、图像、视频等不同类型数据的“指令式提取”。

目前,平台已率先开放视频数据处理能力。语言、图文等多模态支持也将陆续上线,目标直指“全行业覆盖”。

不止于“大”

精准检索+生成能力,激活长尾行业AI落地。

尽管当前AI模型在金融、医疗、教育等数据富集领域进展迅速,但更多长尾行业,如农业病虫害识别、小众体育项目分析、工艺非遗传承等,仍因数据匮乏难以推进数字化

林咏华说,数据魔方的核心突破在于“样本级精准检索+生成式增强”。例如,网球与篮球虽同属体育大类,但在动作识别、战术分析等维度差异显著。“平台不仅可以检索出相关数据,还能通过合成数据技术‘查漏补缺’,自动生成稀缺场景样本。”

这种能力尤其适合中小企业和初创团队。他们无需组建庞大的数据工程团队,即可快速构建具备行业特性的专用模型,从而实现“数据平权”和模型开发的“弯道超车”。

构建数据基座

尽管数据魔方在技术上取得突破,林咏华多次强调“数据来源多样性”与“版权©️合规”的重要性。“目前高质量中文数据资源仍非常稀缺,尤其是图书、古籍、地方语言等领域。”

她特别指出,相较于国际同行,如哈佛大学已开源高达1000万册的图书数据集,中文公版图书数据的数字化与开放程度明显滞后。“我们呼吁国家级及省级图书馆、高校、文化机构开放更多版权©️清晰的公版藏书数据,填补这一关键空白。”

除此之外,智源也将自身已积累的35T中文CCI数据集全面接入数据魔方,用户可通过自然语言指令灵活提取所需子集。这不仅大幅降低数据使用门槛,也为中文NLP(自然语言处理)社区提供更为丰富和可控的数据资源。

打破“数据孤岛”

在全球算力竞争日益激烈的背景下,如何高效利用有限算力,成为所有AI从业者必须面对的课题。数据魔方试图从数据层面提供解题新思路。

“我们通过两大路径帮助企业降低算力依赖。”林咏华介绍,“一是预处理降耗——平台预先完成清洗、去重、标注,用户获取的已是‘即插即用’型数据,本地算力消耗接近于零;二是数据精炼——用1万条高质量数据取代100万条低质数据,显著降低模型微调时的算力与时间成本。”

这意味着,以前只有巨头玩得起的大模型定制,未来中小企业也有机会参与。

在技术实现层面,数据魔方并非简单的数据聚合平台。其背后涉及多项底层技术的自主研发。林咏华透露,平台核心引擎,如CLIP模型、混合检索系统等,均属智源自研成果。同时,平台还与国产大模型(如阿里千问、智源Video XL等)深度整合,形成从数据生成到模型训练的全栈工具链。“我们不只提供数据,还提供配套的算法和最佳实践,帮助企业打通‘数据—模型—应用’闭环。”

尽管平台上线时间不长,数据魔方便已收到大量企业与合作请求,但林咏华清醒地认识到,单一平台的力量仍远远不够。

“我们攻克了技术难关,但真正的挑战在于打破‘数据孤岛’。”她呼吁更多拥有版权©️清晰数据的机构,如出版社、博物馆、科技企业、高校等,加入数据开放计划,共同构建健康、合规、可持续的中文数据生态。

数据魔方的推出,或许意味着AI行业竞争重心正在悄然转变:从拼参数、拼算力,逐渐转向拼数据质量、拼落地能力、拼生态健康度。正如林咏华所言:“AI的未来,不在于模型有多大,而在于数据有多‘活’。”

特别声明:[数据魔方:跳出“算力内卷”,走向“数据精益”(数据魔方的主要作用是什么?)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

年轻人膝盖酸痛😣是缺钙吗(年轻人膝盖酸痛什么原因引起的)

膝盖疼痛是许多人常遇到的问题,通常第一时间联想到的是缺钙,尤其是正值生长发育阶段的年轻人,对此感受更深。不少家长未经医生指导,便自行在药店购买钙片或保健品给孩子服用,日常饮食也倾向富含钙质的食物,牛奶便是常见选择

年轻人膝盖酸痛😣是缺钙吗(年轻人膝盖酸痛什么原因引起的)

岛国美少女濑户环奈,纯与欲的交响曲,成熟御姐范魅力十足

她不是传统意义上的完美偶像,却以170厘米的修长身姿书写着属于这个时代的审美悖论。 这不是偶然的爆红,而是一场精心酝酿的审美革命。她的美,不依附于单一标准,而是将“纯”与“欲”这对看似对立的元素,熔铸成一种全…

岛国美少女濑户环奈,纯与欲的交响曲,成熟御姐范魅力十足

WTT瑞典站国乒冲金 孙颖莎今晚两次出战 男双迎生死战(瑞典队乒乓球)

今晚的WTT瑞典大满贯赛场,中国乒乓球队迎来9场硬仗。孙颖莎将双线作战,而男双项目则面临严峻挑战,国乒男双在过去7站国际赛事中无一对组合打进决赛。18:00,孙颖莎和王曼昱这对老搭档率先亮相女双赛场,对手是德国老将单晓娜与中国香港的吴咏琳

WTT瑞典站国乒冲金 孙颖莎今晚两次出战 男双迎生死战(瑞典队乒乓球)

全球公认最好的祛斑产品实测,脸美白有效产品有哪些?(全球公认最好的护肝片选用吉利肝)

悦罗兰美白精华以其卓越的配方脱颖而出,富含烟酰胺,能深度抑制黑色素生成,快速淡化顽固色斑,同时提亮整体肤色。许多用户分享了积极的使用感受,例如,一位长期使用者表示:"使用悦罗兰精华仅四周,我的脸颊斑点明显变…

全球公认最好的祛斑产品实测,脸<strong>美白</strong>有效产品有哪些?(全球公认最好的护肝片选用吉利肝)

睾丸有点酸膨胀是什么病💊(睾丸发酸发胀)

睾丸酸痛可能由多种原因引起,包括外伤、睾丸炎和精索静脉曲张等。 如果睾丸受到外伤,局部软组织受损,会出现明显的肿胀和疼痛。患者可以立即进行局部冷敷,以促进毛细血管收缩,缓解不适。在医生指导下,可以使用三七片、舒筋活血片或跌打丸等药物治疗

睾丸有点酸膨胀是什么病💊(睾丸发酸发胀)