2025云栖大会的NVIDIA专场,没有花哨的产品发布,取而代之的是NVIDIA、阿里云等企业技术专家对“如何让AI落地”的硬核拆解。从万卡级模型训练的算力优化,到物理世界的仿真训练,再到医疗场景的推理对齐,这场技术分享勾勒出AI从实验室走向产业的清晰路径——规模化、工程化与场景化正成为行业进化的核心密码。
从“能训”到“好用”:大模型基础设施的底层革命“就像我们每个人的求学之路,从小学、初中、高中,再到大学研究生甚至博士,大模型训练的过程也是如此,需要一个非常复杂的训练周期。”NVIDIA解决方案架构总监刘川在简单介绍了模型训练的过程之后还表示,NVIDIA提供了从数据处理、预训练、SFT再到RL整个过程的高性能解决方案。
NVIDIA解决方案架构总监刘川分享了NVIDIA针对大模型训练的解决方案
例如在模型推理部分,NVIDIA打造了一个高性能的深度学习大模型的加速引擎——TensorRT-LLM,它完全开源,并且提供了非常高效的算子库,其中包含了FP8/FP4等多种低精度的量化技术,而且最新一代的TensorRT-LLM还基于PyTorch runtime,所以它具备了简单易用的特性,开发者和用户通过一些简单的Torch API就能构建出自己想要的模型,并且自动对推理引擎进行加速。
刘川分享了NVIDIA在大模型推理部署方面的优化技术
而在大模型的部署层面,NVIDIA推出了名为“Dynamo”的大模型多节点推理服务部署框架,它可以用于Prefill/Decode分离式部署,高效的请求调度,以及KV Cache的多级缓存管理。其中,如果能将KV Cache进行缓存,那么系统的响应速度就会更快。在此基础上结合显存、内存、本地存储和远端存储这种多层存储结构来将KV Cache进行存储,就能在多数情况下给到用户非常快的响应,并返回一个输出结果,而不用经过大量的计算。
物理AI破圈:从虚拟仿真到真实决策要知道,『机器人』️训练数据的难度远超LLM的文本数据,毕竟后者的文本数据在『互联网』上就可以进行抓取,但是对于『机器人』️来说,尤其是那些边界案例,其获取难度相当大。对此,NVIDIA提供了一个仿真平台,它能够在一个模拟的世界中,让『机器人』️去见闻、去感受,从而得到大量的适用于『机器人』️的训练数据。
在这个部分,刘川着重介绍了NVIDIA Physical AI仿真平台和世界模型的一些技术细节。首先,Omniverse具备一项强大技术,它可以根据一些图片就能呈现出一个虚拟环境,而在Omniverse中预制的『机器人』️模型就可以直接在这个虚拟环境中进行训练。
NVIDIA Physical AI仿真平台和世界模型支持『机器人』️在虚拟环境下进行训练
而在实际应用环节,NVIDIA Physical AI与阿里云人工智能平台PAI(Platform of Artificial Intelligence)进行融合,利用NVIDIA一系列的非结构化的AI技术,去针对传统的非结构化的AI模型训练,以及『大语言模型』的强化学习训练。最终,实现了在云上采用仿真的方式,验证『机器人』️的能力是好是坏,而不是采用部署到『机器人』️上进行验证这种传统的方式。
NVIDIA Physical AI于阿里云人工智能平台PAI进行融合,实现在云上就能评估『机器人』️的能力。
此外,NVIDIA还开发了一个名为“Cosmos”的多模态大模型,通过输入一段prompt加一段视频,它就能在仿真平台中渲染出相应的画面。例如对于智能驾驶的训练来说,更多的边界案例可以帮助它以更高的效率和更低的成本进行针对性升级。对此,NVIDIA Cosmos就可以生成一些擦挂、碰撞的虚拟场景,以供智能驾驶辅助进行训练。
用技术支撑AI的发展和落地总的来看,NVIDIA正从工程化、场景化等方面助力AI发展,例如TensorRT-LLM、Dynamo 框架降低大模型推理延迟、提升集群利用率;Omniverse、Cosmos 技术让AI训练从依赖数据转向场景生成,覆盖智能驾驶等领域。值得一提的是,NVIDIA还为开发者和用户提供了AI相关的实战课程和技能等级认证,进而推动技术、生态的普惠,降低中小企业的接入门槛,帮助AI技术实现向消费、民生场景的进一步渗透。