1元百万token，8.9ms生成速度，Aengt落地“成本账”与“速度账”都要算丨ToB产业观察(token一个币值多少钱) #科技 #成本 #Agent #Aengt #ms #速度

AI生成

“通过元脑HC1000超扩展AI『服务器』，可实现将原先每百万token超过10元钱，下降到仅1元钱的成本。”浪潮信息首席AI战略官刘军与笔者分享了浪潮信息结合用户需求，将算力成本“打下去”的最新解决方案。

除了成本之外，当AI从大模型进入Agent时代，甚至从AGI向着ASI迈进的过程中，实现多Agent协同的目标，如何降低响应速度是不可避免的问题，刘军也在与笔者的交流中，分享了浪潮信息在降低通信延迟方面的AI算力布局，他表示，通过浪潮信息元脑SD200超节点AI『服务器』，可将原本国内最低15ms左右的延迟，下降到8.9ms左右。

速度决定了ASI能否“照进现实”

随着Scaling Law持续推动模型能力跃升，以『DeepSeek』为代表的开源模型极大的降低了创新门槛，加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中模型能力决定了智能体的应用上限，交互速度决定了智能体的商业价值，token成本决定了智能体的盈利能力。

“速度，是智能体商业化应用落地的第一要义。”这是在与刘军交流过程中，他反复强调的观点。在智能体商业化应用落地过程中，交互速度是决定其能否在真实场景中发挥价值的首要因素。与传统的“人-机交互”不同，智能体时代的交互本质是“智能体-智能体”之间的高频博弈与协作，任何延迟都可能导致决策失效或机会错失，token 吞吐速度已成为AI应用构建的“隐形计时器”。智能体的响应速度不仅影响用户体验，更直接关联商业产出的质量与稳定性。

当前，对于很多企业而言，企业首先面对的就是时延的挑战。IDC发布的《边缘进化：从核心到边缘驱动成功》中显示，37%已部署GenAI的企业中，超60%反馈“实时交互类应用响应延迟超预期”。以电商虚拟试衣间为例，用户上传图像后需等待核心云完成AI推理，单次交互延迟常达2-3秒，转化率较预期下降40%。

此外，以典型API服务商为例，全球典型的大模型API服务商的『DeepSeek』每token生成速度，基本维持在10~20 毫秒左右，而国内的生成速度普遍高于30毫秒。要在这一基础上进一步实现更低延迟的token生成能力，就必然要求底层算力系统架构、互联协议等关键点上进行创新。

无独有偶，刘军也向笔者表示，速度是实现智能体应用效果的基础保障，“在很多产业实践中，浪潮信息看到有很多场景都有高时效性需求，智能体必须要在极短的时间内完成原本由人执行的任务。”刘军强调。

比如，股票交易、银行转账风险监测等金融场景下，对于延时的要求往往需要小于10ms，而目前市面上绝大多数AI Agent服务的延时都在15ms以上，如果响应过长，可能造成金融机构或者其用户的资产损失。

除了类似金融机构这样对时延要求极高的场景之外，速度也是提升用户体验的关键因素之一。以前文提到的电商场景为例，电商场景下的智能体，如果单次延时在2~3秒，转化率下降了40%，“而这个时候，在其他服务水平都相同的前提下，如果有另外一个平台/商家比你快的情况下，消费者很可能就会选择其他商家的服务，”刘军进一步指出，“速度在这种情况下，也就成为了电商企业的商业竞争力。”

此外，刘军告诉笔者，在这些应用场景追求速度的背后，还有一个容易被人忽视的关键——模型的叠加会造成延迟的累积。目前智能体仍处于发展的初期阶段，智能体数量和种类还不算很多，“当『互联网』上智能体种类和数量不断呈指数级增长之后，如果每个环节的延迟都增加一点的话，到了最后累加起来会发现，应用的延迟是不可接受的，”刘军强调道，“如果延迟不做到足够低的话，智能体就没有商业化的可能性。”

而正是基于此，浪潮信息在近日举办的AICC人工智能计算大会上公布了元脑SD200超节点AI『服务器』的最新测试数据，据刘军介绍，通过该款超节点AI『服务器』，可以大幅提高token的生成速度，以『DeepSeek』 R1大模型为例，在元脑SD200上，『DeepSeek』 R1模型的token生成速度仅需8.9毫秒，创造国内大模型最快token生成速度。

谈及元脑SD200如何实现如此快的token生成速度之时，刘军以告诉车道进行的比喻，他指出，智能体间交互通信的过程中，就好像车辆形式在高速公路上，如果仅仅是高速公路上是16车道，而高速入口、出口还是8车道的话，即便通信过程越快，还是会在入口、出口的地方产生流量拥堵的情况，而元脑SD200要做的就是，将token这条高速通信路的入口和出口也打造成16车道，确保token在通信过程中全程都是“高速的”。

成本：商业化“无法逃避”的话题

除了速度之外，成本也是让很多企业面对AI应用“望而却步”的关键因素。一方面，AI推理产生的海量数据回传至核心云，导致带宽成本激增；另一方面，token的成本也让企业即便有了好的应用场景，做好了数据就绪，并选择好了模型之后，也因为高昂的token成本而无力承担智能体应用带来的支出。对此，刘军表示，“成本，尤其是单token成本，是影响Agentic AI能否实现规模化落地的关键经济因素。”

此外，随着智能体产业化落地进入“寒武纪大爆发”阶段，商业化场景中智能体数量与token消耗量双双攀升。若token成本无法控制在合理区间，高频、高并发的实际应用将难以持续。而token的成本也成为智能体商业能否实现盈利的关键因素。

以时下最火热的AI应用—AI编程为例，据统计，使用AI辅助编程，当前每月消耗token数相比1年前平均增长了约50倍，达到1000万到5亿 token。

另一方面，据统计，企业每部署一个智能体，平均token成本大概1000-5000美元💵。而随着任务复杂度、部署密度以及使用频度的增长，未来五年内token消耗预计呈指数级增长。

目前，主流模型在token成本方面存在显著差异。以OpenAI的GPT-5为例，其在处理复杂任务时，输入token成本为每百万1.25美元💵，输出token为每百万10.00美元💵。这一成本结构在需要高强度交互的智能体商业化场景中，可能成为规模化部署的瓶颈。相比之下，『DeepSeek』-V3在推理任务中，输出每百万token成本仅为12元人民币，展现出更优的经济性，更适合实时响应要求高的商业环境。

这一差异一方面源自模型算法能力的不同，另一方面则取决于底层计算架构的技术路径选择。依赖粗放式算力堆砌的架构会同步推高计算与通信开销，在面对大规模、高并发、长序列的实际生产需求时，其总体拥有成本将难以具备商业可持续性。因此，关键在于构建能够系统化支撑下一代AI应用的基础架构，从而将“百万Token上下文”从高成本的技术展示，转化为具备规模化运营可行性的现实能力。

在刘军看来，推理算效低下的根源在于计算过程的特征差异，大模型推理包含多阶段计算，各环节资源需求迥异。

在此背景下，去年兴起的PD分离技术成为破局起点，“通过拆分 Prefill（P）与 Decode（D）两个核心阶段，将计算密集型与访存密集型任务解耦，避免资源竞争。”刘军强调。

与此同时，在刘军看来PD分离仅是开端。“我们正在推进更深度的模块拆解。” 刘军进一步介绍道，在Decode阶段，注意力计算与FFN（前馈神经网络）已实现分离，其中FFN模块可进一步拆分专家组件，而注意力层则借鉴GPT的混合机制，按算法特征差异拆分处理。这种精细化拆解已实现部分模块算效成倍提升，直接带来显著成本节省。

除此之外，软硬结合的方式也是当前有效降低token成本的一种路径，刘军表示，这种 “解耦+适配” 策略已实现推理成本的数量级降低，为大模型在实时应用、开放式任务等场景的规模化落地扫清了成本障碍。随着混合注意力、专家并行等技术的深化，行业有望在效率与可解释性之间找到更优平衡。

正是基于这种思维方式，浪潮信息推出了元脑HC1000超扩展AI『服务器』，通过全面优化降本和软硬协同增效，元脑HC1000创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计，大幅降低单卡成本和每卡系统分摊成本。同时，全对称的系统拓扑设计支持超大规模无损扩展。据刘军介绍，元脑HC1000通过算网深度协同、全域无损技术，实现推理性能相比传统RoCE提升1.75倍，单卡模型算力利用率最高提升5.7倍。

当智能体数量即将迎来指数级增长，这种 “速度-成本-算效” 的三角平衡策略，正扫清规模化落地的最后障碍。从AGI到ASI的演进路上，算力基础设施的创新始终是核心引擎。而计算架构的不断革新正是这个引擎上重要的一环。

（作者｜张申宇，编辑丨盖虹达）

更多对全球市场、跨国公司和中国经济的深度分析与独家洞察，欢迎访问