芝能智芯出品
FuriosaAI近期与LG AI Research达成重大合作,为其Exaone 4.0大语言模型提供AI推理芯片RNGD,标志着这家韩国初创公司实现了商业化的关键跨越。
这颗芯片具备低功耗、高性能的技术特性,并整合了完善的软件栈,试图在Nvidia主导的AI芯片市场中切割一块属于自己的份额。
Part 1
低功耗、高性能:
RNGD芯片技术体系解析
在AI芯片行业,FuriosaAI的战略核心在于提供一个推理阶段最优解。相较于主流的Nvidia GPU,其RNGD芯片从体系结构、能效指标到软件适配性,都体现出对大模型推理负载的垂直优化。
● 技术架构:张量收缩处理器与高能效FP8设计
RNGD的核心硬件架构基于FuriosaAI自研的张量收缩处理器(Tensor Contraction Processor),该设计思路不以通用计算为目标,而是对张量计算中常见的乘加(MAC)运算路径、激活函数通路与中间张量通信进行专门调优。
在FP8(8位浮点)精度下,RNGD实现了高达512 TFLOPS的峰值推理性能,而其TDP仅为180W。
以能效指标(performance-per-watt)计,其单位功耗下的性能表现比当前通用GPU高出2.25倍。这一性能指标对当前普遍关注数据中心AI功耗的企业而言,具有高度吸引力。
在企业推理场景中,FP8精度已足以满足大多数自然语言处理任务对准确度的需求,因此RNGD在能耗控制和响应时延之间实现了实用化平衡。
● 算力调度与SRAM复用机制
RNGD对数据流路径和片上SRAM重用进行了重点设计。其编译器能在编译阶段分析每一层的张量依赖关系,优先安排具有数据局部性的计算任务,从而在SRAM有限的条件下最大化数据重用率,降低主存带宽压力。
这一机制对大参数模型(如Exaone 3.5的78亿和320亿参数版本)特别关键,减少了频繁的数据搬移带来的能耗浪费。
芯片还通过优化PCIe路径与P2P通信调度机制,实现服务器节点间的推理任务高效协同。尽管RNGD不是以训练任务为目标,但其内部通信带宽与延迟控制机制为多卡部署提供了较强的扩展性。
● 软件系统:Furiosa-LLM栈与vLLM兼容性
硬件之外,FuriosaAI构建了围绕RNGD的完整软件支持栈。核心是其自研的Furiosa-LLM框架,具备vLLM兼容性,能够支持OpenAI风格的API服务器、Prometheus监控系统以及面向Kubernetes的服务部署。
软件层设计使得现有依赖Nvidia GPU的客户更容易实现迁移。
兼容vLLM意味着用户可直接在当前模型推理管线中将RNGD硬件作为后端运行单元,不需要对大多数上层模型逻辑做结构性改动。
支持Prometheus意味着可集成入现有云监控体系,而对Kubernetes的友好性则进一步增强了其在多租户、多容器环境中的部署灵活性。
这套软硬协同的体系确保了RNGD不只是一个高性能硬件产品,而是具备企业可落地性与服务扩展性的系统平台。
Part 2
LG合作的战略意义
FuriosaAI赢得LG的订单,是其技术方案首次获得大规模企业应用验证。在Exaone 3.5的七个月测试中,LG以执行效率、推理延迟、节点并发扩展性等为评估标准,最终选择RNGD作为其Exaone 4.0 LLM的硬件支撑平台。
这不仅是一次成功的技术交付,也是对FuriosaAI制造能力、软件生态、维护与调优能力的全面认可。
LG计划将该平台用于其内部AI代理服务ChatExaone,并逐步推广至化工、电子和电信等多个垂直行业。
这意味着FuriosaAI的芯片将面临多场景运行环境的验证,如实时语音问答、电网系统预测与智能终端对话等,进一步强化其实用性证据。
对LG而言,引入RNGD的最大价值在于以更低能耗和成本实现大模型部署扩张。
传统GPU的功耗控制难度大,单节点成本高,而RNGD提供了可持续的成本曲线。配合其编译器在算力密度与负载均衡方面的优化,LG在Exaone扩容中的单位TCO(Total Cost of Ownership)得以显著下降。
ChatExaone计划向更多外部客户开放服务,对硬件平台的可扩展性提出更高要求。RNGD的低TDP与高吞吐量特性,使得单一服务器部署密度大大提升,在无须扩容冷却系统的前提下,实现更高QPS(queries-per-second)的负载承载能力。
FuriosaAI通过“用途专精”的思路,以推理为中心重新定义芯片设计,提供了更具经济效益的替代路径。
在生态构建、技术通用性、训练能力方面FuriosaAI仍存在短板,但其技术策略和市场切入点已在挑战Nvidia构建的壁垒。
随着更多客户在成本和能耗问题上面临现实压力,专用芯片或将成为下一个周期内的主流选择之一。例如Cerebras在训练端提供面向千亿参数模型的系统级芯片平台,而Groq则主打低延迟管道式推理。
FuriosaAI的出现使韩国在这场全球AI芯片竞赛中占据一极,其生态系统(包括代工、封装、政府支持)也将在未来发挥更强协同作用。
小结
FuriosaAI与LG的合作,是其商业化历程中的关键节点,也是AI芯片技术多样化趋势的缩影。在高效能、低功耗、大模型适配的多重需求驱动下,RNGD芯片在技术路径与系统落地上提供了有力解法。