英伟达为任天堂Switch 2定制的SoC拥有基于安培架构、支持DLSS技术的GPU。在图像缩放技术领域,DLSS堪称画质之王,最新的DLSS 4 Transformer模型甚至被认为比原生分辨率渲染的画面更出色。如今支持DLSS的Switch 2游戏也已上市,但事实证明:Switch 2上的DLSS与PC端体验截然不同。
《快速融合》和《赛博朋克 2077》等作品的DLSS画质表现与PC端差异非常显著,图形技术社区将其称之为“DLSS Lite”。Switch 2使用的是定制版DLSS,尽管我们尚不清楚其具体版本,但《快速融合》等游戏表明,它是一种高度优化的精简模式,为提升性能而牺牲了部分画质。如果这种模式未来广泛应用,可能会对低端显卡产生深远影响。
DLSS的工作逻辑:先消耗性能,再提升体验
DLSS存在计算开销,但这一点常被忽视,毕竟它本来就是用于提升性能的工具,且性能提升幅度远超过开销,因此用户很难察觉。人们常将DLSS 称为“图像缩放技术”,这一表述并不准确,尽管它确实能实现类似效果。传统缩放技术通过算法填充缺失像素,最简单的例子是1080p视频在4K屏幕上显示:每个1080p像素会以4K屏幕上的四个像素块呈现。这是最基础的缩放逻辑,为了优化画质表现可以应用不同技术——比如采样相邻像素以获得更平滑的色彩渐变,或参考前一帧画面推断新增像素的形态,这就是“缩放”技术的本质。
DLSS确实会执行缩放,但关键区别在于:它不依赖固定算法。它并非对像素进行公式计算后输出结果,而是将像素输入GPU本地运行的AI模型,尽管只是个轻量级模型,但本质仍是AI运算。这种AI模型带来的开销,远高于单纯用算法进行缩放。如果对此怀疑,可以在游戏中同时开启DLSS和FSR 1(采用传统算法)对比性能:后者帧率必然更高。
不同于早期几乎能在任何显卡上运行的FSR,DLSS对硬件性能有明确门槛。当硬件性能过低时,渲染更少像素带来的性能提升,最终会被运行AI模型的开销抵消,这对支持DLSS的强大桌面显卡而言不是问题,但在性能较弱的Switch 2上却成了难题。
低端显卡的希望:轻量级DLSS的真实面貌
Switch 2虽搭载了安培架构GPU,但其芯片性能甚至远逊于桌面端最慢的RTX显卡,连RTX 2050笔记本显卡核心数量都超过它(实际上,掌机模式性能接近GTX 1050,底座模式性能接近GTX 1060),更不用说Switch 2受限于散热和功耗,必须在极低功耗下运行。在此背景下,为Switch 2游戏配备轻量级DLSS模型的必要性显而易见。
尽管英伟达未透露Switch 2上使用的定制DLSS版本细节,但效果已直观呈现:画质确实更差。不过它依然优于同输入分辨率下的FSR效果,只是达不到我们在PC端对DLSS的期望。最可能的情况是,该版本DLSS 对AI模型进行了轻量化调校,以牺牲精度换取速度,在有限的性能下让游戏开发者获得一种可用的缩放方案,它不会因自身开销过大而崩溃。
至少据现有信息,PC端显卡尚未提供这种DLSS版本。或许有人会说,既然最弱的桌面RTX显卡也比Switch 2强得多,PC端自然不需要DLSS Lite。但这种观点忽视了DLSS技术与硬件的未来发展趋势:DLSS不仅在进步,对硬件性能的需求也在提升。
多年来,英伟达持续发布DLSS新版本来小幅优化画质,而最近随Transformer模型推出的超级分辨率技术堪称一次画质革命。正如前文所述,DLSS 4中的Transformer模型画质极佳,在一些情况下甚至比原生分辨率更优秀,代价是对性能要求更高。尽管差距通常不大,但测试显示:旧版CNN模型的帧率确实高于Transformer模型。
这对RTX 5060Ti和RTX 5080这样的中高端显卡而言不是问题,但Switch 2呢?至少在默认状态下,Transformer模型绝无运行的可能。事实上,英伟达已通过将显存占用降低20%来优化Transformer模型,原版模型的显存需求几乎是旧版CNN模型的两倍。
尽管目前的显卡无需DLSS Lite,但未来硬件可能需要。英伟达已明确表达对DLSS的野心,将推动AI模型向更大、更耗资源的方向发展。从某种程度上说,帧生成(Frame Generation)和多帧生成(Multi-Frame Generation)等功能已体现这一趋势,它们仅支持特定代际的硬件。如果英伟达能更好地平衡画质与性能,在PC端搭载DLSS Lite或许并非坏事。
也许几代之后,连RTX 5060Ti这类最新显卡也无法运行完整版本的DLSS,但仍可使用轻量版;或许英伟达最终会推出传闻中的N1X SoC,让DLSS Lite在无极端开销的情况下提升性能。Switch 2为我们窥见了未来DLSS的形态,也证明英伟达有能力进行有针对性地调校,使其在非桌面RTX显卡上运行。