AI生成
“通过元脑HC1000超扩展AI『服务器』,可实现将原先每百万token超过10元钱,下降到仅1元钱的成本。”浪潮信息首席AI战略官刘军与笔者分享了浪潮信息结合用户需求,将算力成本“打下去”的最新解决方案。
除了成本之外,当AI从大模型进入Agent时代,甚至从AGI向着ASI迈进的过程中,实现多Agent协同的目标,如何降低响应速度是不可避免的问题,刘军也在与笔者的交流中,分享了浪潮信息在降低通信延迟方面的AI算力布局,他表示,通过浪潮信息元脑SD200超节点AI『服务器』,可将原本国内最低15ms左右的延迟,下降到8.9ms左右。
速度决定了ASI能否“照进现实”
随着Scaling Law持续推动模型能力跃升,以『DeepSeek』为代表的开源模型极大的降低了创新门槛,加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中模型能力决定了智能体的应用上限,交互速度决定了智能体的商业价值,token成本决定了智能体的盈利能力。
“速度,是智能体商业化应用落地的第一要义。”这是在与刘军交流过程中,他反复强调的观点。在智能体商业化应用落地过程中,交互速度是决定其能否在真实场景中发挥价值的首要因素。与传统的“人-机交互”不同,智能体时代的交互本质是“智能体-智能体”之间的高频博弈与协作,任何延迟都可能导致决策失效或机会错失,token 吞吐速度已成为AI应用构建的“隐形计时器”。智能体的响应速度不仅影响用户体验,更直接关联商业产出的质量与稳定性。
当前,对于很多企业而言,企业首先面对的就是时延的挑战。IDC发布的《边缘进化:从核心到边缘驱动成功》中显示,37%已部署GenAI的企业中,超60%反馈“实时交互类应用响应延迟超预期”。以电商虚拟试衣间为例,用户上传图像后需等待核心云完成AI推理,单次交互延迟常达2-3秒,转化率较预期下降40%。
此外,以典型API服务商为例,全球典型的大模型API服务商的『DeepSeek』 每token生成速度,基本维持在10~20 毫秒左右,而国内的生成速度普遍高于30毫秒。要在这一基础上进一步实现更低延迟的token生成能力,就必然要求底层算力系统架构、互联协议等关键点上进行创新。
无独有偶,刘军也向笔者表示,速度是实现智能体应用效果的基础保障,“在很多产业实践中,浪潮信息看到有很多场景都有高时效性需求,智能体必须要在极短的时间内完成原本由人执行的任务。”刘军强调。
比如,股票交易、银行转账风险监测等金融场景下,对于延时的要求往往需要小于10ms,而目前市面上绝大多数AI Agent服务的延时都在15ms以上,如果响应过长,可能造成金融机构或者其用户的资产损失。
除了类似金融机构这样对时延要求极高的场景之外,速度也是提升用户体验的关键因素之一。以前文提到的电商场景为例,电商场景下的智能体,如果单次延时在2~3秒,转化率下降了40%,“而这个时候,在其他服务水平都相同的前提下,如果有另外一个平台/商家比你快的情况下,消费者很可能就会选择其他商家的服务,”刘军进一步指出,“速度在这种情况下,也就成为了电商企业的商业竞争力。”
此外,刘军告诉笔者,在这些应用场景追求速度的背后,还有一个容易被人忽视的关键——模型的叠加会造成延迟的累积。目前智能体仍处于发展的初期阶段,智能体数量和种类还不算很多,“当『互联网』上智能体种类和数量不断呈指数级增长之后,如果每个环节的延迟都增加一点的话,到了最后累加起来会发现,应用的延迟是不可接受的,”刘军强调道,“如果延迟不做到足够低的话,智能体就没有商业化的可能性。”
而正是基于此,浪潮信息在近日举办的AICC人工智能计算大会上公布了元脑SD200超节点AI『服务器』的最新测试数据,据刘军介绍,通过该款超节点AI『服务器』,可以大幅提高token的生成速度,以『DeepSeek』 R1大模型为例,在元脑SD200上,『DeepSeek』 R1模型的token生成速度仅需8.9毫秒,创造国内大模型最快token生成速度。
谈及元脑SD200如何实现如此快的token生成速度之时,刘军以告诉车道进行的比喻,他指出,智能体间交互通信的过程中,就好像车辆形式在高速公路上,如果仅仅是高速公路上是16车道,而高速入口、出口还是8车道的话,即便通信过程越快,还是会在入口、出口的地方产生流量拥堵的情况,而元脑SD200要做的就是,将token这条高速通信路的入口和出口也打造成16车道,确保token在通信过程中全程都是“高速的”。
成本:商业化“无法逃避”的话题
除了速度之外,成本也是让很多企业面对AI应用“望而却步”的关键因素。一方面,AI推理产生的海量数据回传至核心云,导致带宽成本激增;另一方面,token的成本也让企业即便有了好的应用场景,做好了数据就绪,并选择好了模型之后,也因为高昂的token成本而无力承担智能体应用带来的支出。对此,刘军表示,“成本,尤其是单token成本,是影响Agentic AI能否实现规模化落地的关键经济因素。”
此外,随着智能体产业化落地进入“寒武纪大爆发”阶段,商业化场景中智能体数量与token消耗量双双攀升。若token成本无法控制在合理区间,高频、高并发的实际应用将难以持续。而token的成本也成为智能体商业能否实现盈利的关键因素。
以时下最火热的AI应用—AI编程为例,据统计,使用AI辅助编程,当前每月消耗token数相比1年前平均增长了约50倍,达到1000万到5亿 token。
另一方面,据统计,企业每部署一个智能体,平均token成本大概1000-5000美元💵。而随着任务复杂度、部署密度以及使用频度的增长,未来五年内token消耗预计呈指数级增长。
目前,主流模型在token成本方面存在显著差异。以OpenAI的GPT-5为例,其在处理复杂任务时,输入token成本为每百万1.25美元💵,输出token为每百万10.00美元💵。这一成本结构在需要高强度交互的智能体商业化场景中,可能成为规模化部署的瓶颈。相比之下,『DeepSeek』-V3在推理任务中,输出每百万token成本仅为12元人民币,展现出更优的经济性,更适合实时响应要求高的商业环境。
这一差异一方面源自模型算法能力的不同,另一方面则取决于底层计算架构的技术路径选择。依赖粗放式算力堆砌的架构会同步推高计算与通信开销,在面对大规模、高并发、长序列的实际生产需求时,其总体拥有成本将难以具备商业可持续性。因此,关键在于构建能够系统化支撑下一代AI应用的基础架构,从而将“百万Token上下文”从高成本的技术展示,转化为具备规模化运营可行性的现实能力。
在刘军看来,推理算效低下的根源在于计算过程的特征差异,大模型推理包含多阶段计算,各环节资源需求迥异。
在此背景下,去年兴起的PD分离技术成为破局起点,“通过拆分 Prefill(P)与 Decode(D)两个核心阶段,将计算密集型与访存密集型任务解耦,避免资源竞争。”刘军强调。
与此同时,在刘军看来PD分离仅是开端。“我们正在推进更深度的模块拆解。” 刘军进一步介绍道,在Decode阶段,注意力计算与FFN(前馈神经网络)已实现分离,其中FFN模块可进一步拆分专家组件,而注意力层则借鉴GPT的混合机制,按算法特征差异拆分处理。这种精细化拆解已实现部分模块算效成倍提升,直接带来显著成本节省。
除此之外,软硬结合的方式也是当前有效降低token成本的一种路径,刘军表示,这种 “解耦+适配” 策略已实现推理成本的数量级降低,为大模型在实时应用、开放式任务等场景的规模化落地扫清了成本障碍。随着混合注意力、专家并行等技术的深化,行业有望在效率与可解释性之间找到更优平衡。
正是基于这种思维方式,浪潮信息推出了元脑HC1000超扩展AI『服务器』,通过全面优化降本和软硬协同增效,元脑HC1000创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计,大幅降低单卡成本和每卡系统分摊成本。同时,全对称的系统拓扑设计支持超大规模无损扩展。据刘军介绍,元脑HC1000通过算网深度协同、全域无损技术,实现推理性能相比传统RoCE提升1.75倍,单卡模型算力利用率最高提升5.7倍。
当智能体数量即将迎来指数级增长,这种 “速度-成本-算效” 的三角平衡策略,正扫清规模化落地的最后障碍。从AGI到ASI的演进路上,算力基础设施的创新始终是核心引擎。而计算架构的不断革新正是这个引擎上重要的一环。
(作者|张申宇,编辑丨盖虹达)
更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问