韩国AI『芯片』新星FuriosaAI凭借低功耗设计赢得LG青睐(韩国『芯片』产业)

韩国AI『芯片』新星FuriosaAI凭借低功耗设计赢得LG青睐(韩国『芯片』产业)

韩国AI『芯片』初创公司FuriosaAI本周赢得了重要客户,LG的AI研究部门选择了其AI加速器为运行Exaone『大语言模型』系列的『服务器』提供动力。

虽然浮点计算能力、内存容量和带宽在AI性能中都发挥着重要作用,但LG选择Furiosa的RNGD推理加速器并非因为速度和性能指标,而是因为其功耗效率。

"RNGD提供了令人信服的综合优势:出色的实际性能、显著降低我们的总拥有成本,以及出人意料的简单集成,"LG AI Research产品部门负责人Kijeong Jeon在一份声明中表示。

快速浏览RNGD的规格表会发现这似乎是一款相当普通的『芯片』,浮点性能在256到512 teraFLOPS之间,具体取决于选择16位还是8位精度。内存容量也相当有限,通过两个HBM3堆栈提供48GB,带宽约为1.5TB/s。

与AMD和Nvidia最新的GPU相比,RNGD看起来并不那么有竞争力,直到你考虑到Furiosa仅用180瓦功耗就实现了所有这些功能。在测试中,LG研究发现,在其自研Exaone模型系列的『大语言模型』推理上,这些『芯片』的功耗效率比GPU高出2.25倍。

但先别太兴奋,这里比较的GPU是Nvidia的A100,这款产品已经相当老旧——它们在2025年疫情爆发时首次亮相。

正如FuriosaAI首席执行官June Paik向El Reg表示的,虽然Nvidia的GPU在A100首次亮相后的五年中确实变得更强大,但这种性能提升是以更高的能耗和『芯片』面积为代价的。

虽然单个RNGD PCIe卡在原始性能上无法与Nvidia的H100或B200加速器竞争,但就效率而言——每瓦能够榨取的FLOPS数量——这些『芯片』比你想象的更有竞争力。

Paik将公司在效率方面的优势主要归功于RNGD的张量收缩处理器架构,他说这种架构执行矩阵乘法所需的指令比GPU少得多,并最大程度减少了数据移动。

这些『芯片』还受益于RNGD使用HBM,Paik说这比依赖GDDR需要的功耗要少得多,就像我们在Nvidia一些低端产品中看到的那样,比如L40S或RTX Pro 6000 Blackwell卡。

在大约1.4 teraFLOPS每瓦的水平上,RNGD实际上更接近Nvidia的Hopper一代而非A100。如果我们将焦点转移到内存带宽上,RNGD的效率变得更加明显,这对于『大语言模型』推理来说可能是更重要的因素。一般来说,内存带宽越大,Token输出速度越快。

在这里,1.5TB/s的RNGD内存并不是特别快。Nvidia的H100提供更高的容量(80GB)和3.35TB/s到3.9TB/s的带宽。然而,该『芯片』的功耗是2到3.9倍。

与H100 SXM模块的功耗大致相同,你可以拥有四张RNGD卡,总计2 petaFLOPs的密集FP8、192GB HBM和6TB/s内存带宽。这仍然落后于Nvidia最新一代的Blackwell产品,但比RNGD的原始速度和性能指标所显示的要接近得多。

而且,由于RNGD完全针对推理设计,模型确实可以使用张量并行等技术分布在多个加速器上,甚至使用流水线并行分布在多个系统上。

实际测试

LG AI实际使用了四张RNGD PCIe卡的张量并行配置来运行其内部的Exaone 32B模型,精度为16位。据Paik介绍,LG在验证『芯片』使用时有非常具体的性能目标。

值得注意的是,限制条件包括首Token时间(TTFT),即『大语言模型』开始生成响应前的等待时间,对于3000 Token的中等提示约为0.3秒,对于30000 Token的大型提示约为4.5秒。

如果你想知道,这些测试类似于中到大型摘要任务,比短提示对『芯片』计算子系统造成更大压力。

LG发现能够在批量大小为1的情况下,以每秒约50-60个Token的速度达到这种性能水平。

据Paik说,这些测试使用FP16进行,因为LG比较的A100不原生支持8位浮点激活。推测降到FP8基本上会使模型吞吐量翻倍并进一步减少TTFT。

使用多张卡确实带来一些固有挑战。特别是,允许模型权重和计算分布在四张或更多卡上的张量并行是相当网络密集的。

与Nvidia的GPU不同,后者通常配备快速专有NVLink互连,以每秒超过1TB的速度在『芯片』之间传输数据,Furiosa坚持使用传统的PCIe 5.0,每张卡最高速度为128GB/s。

为了避免互连瓶颈和开销,Furiosa表示优化了『芯片』的通信调度和编译器以重叠『芯片』间直接内存访问操作。

但因为RNGD没有分享更高批量大小的数据,很难说这种方法扩展得如何。他承认,在批量为1时,张量并行操作数量相对较少。

据Paik说,在批量64时,单个性能应该只下降20-30%。这表明相同设置应该能够达到接近每秒2700个Token的总吞吐量,并支持相当多的并发用户。但没有具体细节,我们只能推测。

竞争格局

无论如何,Furiosa的『芯片』足够好,LG的AI研究部门现在计划向使用其Exaone模型的企业提供由RNGD驱动的『服务器』。

"在广泛测试各种选择后,我们发现RNGD是部署Exaone模型的高效解决方案,"Jeon说。

与Nvidia基于RTX Pro Blackwell的系统类似,LG的RNGD设备将提供多达八个PCIe加速器。这些系统将运行Furiosa描述的高度成熟的软件堆栈,包括流行的模型服务运行时vLLM版本。

LG还将提供其智能体AI平台ChatExaone,该平台捆绑了用于文档分析、深度研究、数据分析和检索增强生成(RAG)的各种框架。

Furiosa的说服力不仅限于LG。你可能记得,据报道Meta今年早些时候出价8亿美元💵收购这家初创公司,但最终未能说服Furiosa的领导层交出控制权。

Furiosa受益于对主权AI模型、软件和基础设施日益增长的需求,这些都是在本土硬件上设计和训练的。

然而,要在全球范围内竞争,Furiosa面临一些挑战。最值得注意的是,Nvidia和AMD最新的GPU不仅在性能、内存容量和带宽方面远超RNGD,按我们的估算在能效方面也要高一些。Nvidia的架构还允许更大程度的并行性,这要归功于其在机架级架构方面的早期投资,这是我们现在才看到『芯片』制造商开始采用的设计理念。

话虽如此,值得注意的是RNGD的设计过程始于2022年,在OpenAI的ChatGPT引发AI热潮之前。当时,像Bert这样的模型在语言模型方面是主流。然而,Paik押注GPT会起飞,其底层架构会成为新标准,这影响了使用HBM而非GDDR内存等决策。

特别声明:[韩国AI『芯片』新星FuriosaAI凭借低功耗设计赢得LG青睐(韩国『芯片』产业)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

窦靖童还挺会穿的,3套『穿搭』松弛又自信!审美在线,像『王菲』很独特(窦靖童荧幕首秀)

在时尚领域,不同于刻意堆砌的潮流符号,窦靖童的『穿搭』始终带着 “松弛感”,却又在细节处藏着巧思,既有着少年般的率性,又不失属于女性♀️的灵动,最近3套造型更是将这种独特品味展现得淋漓尽致,既有运动风的活力,又有混搭…

窦靖童还挺会穿的,3套『穿搭』松弛又自信!审美在线,像『王菲』很独特(窦靖童荧幕首秀)

小S二女儿Lily澳洲美照刷屏!17岁星二代时尚表现力不输母亲(小s女儿谁最漂亮)

在悉尼标志性建筑背景下,那件泛着柔和光泽的黑色外套🧥与璀璨夜景相得益彰。粉丝们热情留言称赞其气质出众,而时尚评论人则注意到这些照片记录了她从童星向时尚偶像的蜕变轨迹。有网友质疑Lily近期外貌变化,认为超出了自…

小S二女儿Lily澳洲美照刷屏!17岁星二代时尚表现力不输母亲(小s女儿谁最漂亮)

肤白貌美的刘芸光脚拍照,标准的大美女,唯一不足就是太恋爱脑。(肤白貌美『刘亦菲』跳扭胯)

在繁华的都市中,总有那么一些人,她们仿佛是命运的宠儿,拥有着与生俱来的美丽与魅力。这样的皮肤不仅让刘芸看起来更加美丽动人,也让她在人群中更加显眼。 在未来的日子里,我们期待刘芸能够继续保持自己的美丽和魅力,同…

肤白貌美的刘芸光脚拍照,标准的大美女,唯一不足就是太恋爱脑。(肤白貌美『刘亦菲』跳扭胯)

金陵十三钗》女二号再演抗战剧,农村妇女到风情老板娘判若两人(金陵十三钗高清未删除版)

当张逗逗身着一袭素色旗袍在《归队》中款款登场时,弹幕瞬间沸腾——谁能想到,这位风姿绰约的酒楼老板娘,竟是《生万物》里那个蓬头垢面的农村妇人? 时间倒回2011年,张逗逗作为"谋女郎"在《金陵十三钗》中饰演

《<strong>金陵十三钗</strong>》女二号再演抗战剧,农村妇女到风情老板娘判若两人(金陵十三钗高清未删除版)

美国达达里奥Daddario单簧管PLASTICOVER黑胶哨片降B,音色稳定又耐久?真相揭秘!(美国达达里奥写真)

想提升单簧管演奏的稳定性与音色表现?美国达达里奥PLASTICOVER黑胶哨片(降B)凭其独特材质与工艺,成为专业乐手与进阶学习者的热门选择。本文详解它为何被称“耐久型哨片天花板”——从材质原理到适用人群、音色特点、价格区间一网打尽,助你避

美国达达里奥Daddario单簧管PLASTICOVER黑胶哨片降B,音色稳定又耐久?真相揭秘!(美国达达里奥写真)