SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人 #科技 #GitHub #移动 #实时 #细节 #网格

今日霍州(www.jrhz.info)©️

在计算机图形学、三维视觉、虚拟人、XR 领域，SIGGRAPH 是毫无争议的 “天花板级会议”。 SIGGRAPH Asia 作为 SIGGRAPH 系列两大主会之一，每年只接收全球最顶尖研究团队的成果稿件，代表着学术与工业界的最高研究水平与最前沿技术趋势。

今日霍州(www.jrhz.info)©️

我们是淘宝技术 - Meta 技术团队，在 3D、XR、3D 真人数字人和三维重建等方向拥有深厚的技术积累和业务沉淀，我们自研了专业的多视角拍摄影棚，在今年 CVPR 2025 会议上作为 Highlight Paper 发表了 TaoAvatar ，并在淘宝未来旗舰店中实现了业内首个 3D 真人导购体验，下面视频展示了杭州西溪园区 C 区淘宝未来旗舰店的精彩瞬间，欢迎大家到来访园区进行体验。

今年我们团队迎来另一个重要里程碑：我们撰写的针对移动端的高保真实时 3D 数字人重建与渲染系统论文首次登录了国际顶级计算机图形学会议 SIGGRAPH Asia！这是我们技术实力的一次正式 “官宣”，也是我们在 3D/XR 方向长期投入的阶段性成果展示。

jrhz.info

我们研发的基于手机单目视频生成高保真且可实时驱动的 3D 数字人的系统名叫 HRM²Avatar ，不同于依赖多相机📷️阵列或深度硬件的方案，其在普通手机拍摄条件下重建人物形体、服饰结构以及细节级外观表达，并支持在移动设备上实时渲染与动画驱动。系统采用显式服装网格与高斯表示相结合的建模方式：网格提供稳定的结构与可控性，高斯则用于呈现褶皱、材质和光照变化等细节，使虚拟人在不同姿态下依旧保持连续、自然的外观表现。此外，基于轻量化推理设计与移动端渲染优化策略，生成的数字人可在手机、头显等移动设备上流畅运行。实验结果表明，我们的系统在视觉真实感、跨姿态一致性以及移动端实时渲染之间取得了良好平衡。

今日霍州(www.jrhz.info)©️

论文主页：https://acennr-engine.github.io/HRM2Avatar/
TaoAvatar 主页：https://pixelai-team.github.io/TaoAvatar/
Taobao3D GitHub 仓库：https://github.com/alibaba/Taobao3D
MNN GitHub 仓库：https://github.com/alibaba/MNN

问题定义

今日霍州(www.jrhz.info)©️

HRM²Avatar整体框架

想生成一个真实又能动的 3D 数字人，听起来很酷，但门槛非常高，现在高精度建模方式如 TaoAvatar、CodecAvatar 等，通常需要使用昂贵的三维重建设备。这些系统确实效果好，但搭建复杂、调试困难，还很难携带出实验室，普通人几乎无法自己操作。而我们正是从 “普通人也能用” 的角度出发，重新思考：如何只用一部手机，就能创建和渲染高质量 3D 数字人？

但是仅使用手机条件下，会存在多个关键难题：

几何与局部细节缺失：由于手机拍摄距离远、视角有限，衣物褶皱、材质结构、头发等高频细节难以稳定恢复；
外观-动作耦合：外观变化、布料形变、光照变化与姿态变化混杂，导致姿势相关的形变与光照难以独立建模；
实时推理受限：尽管神经渲染与 3DGS 表示提升了表达能力，但许多方法仍依赖高性能桌面级 GPU 实现实时驱动，在移动端设备上运行仍具有挑战。

因此，如何在仅依赖手机单目输入的条件下，重建高保真、可动画的数字人，并实现移动端实时渲染，仍是一个尚未充分解决的问题。

方法概览

基于上述挑战，我们提出了针对移动端的高保真实时 3D 数字人重建与渲染系统 HRM²Avatar，核心采用两阶段采集方式、显式衣物网格表示与基于高斯的动态细节建模，并结合面向移动端设备的高效渲染优化策略，在保证外观质量与动态表现的同时，实现从扫描到实时驱动的完整重建流程。

今日霍州(www.jrhz.info)©️

HRM²Avatar 流程概览

核心模块包括：

手机扫描采集，采用静态与动态结合的手机扫描方式，同时获取全身结构与局部细节变化，为后续动态建模提供可靠外观与姿态变化信号。
表征与重建，系统构建可动画的穿衣人体模型，并采用显式网格与高斯的混合表达方式：网格提供稳定的结构与动画一致性，而高斯用于建模随姿态变化的细节与光照（姿态相关的形变和阴影建模），从而在运动过程中保持材质、细节与视觉一致性。
移动端渲染，结合轻量化推理模型和面向移动设备的渲染优化策略，生成的数字人可在手机等设备上实现实时驱动与高质量显示。

采集与预处理

系统在进入重建阶段前，需要将手机扫描得到的视频转换为结构一致、可用于建模的输入数据，过程包括拍摄协议、相机📷️与人体参数初始化，以及服饰网格提取。

拍摄协议

采集采用双序列拍摄方式，包括静态扫描和动态扫描。静态扫描阶段，用户保持相对固定姿态，手机围绕身体移动拍摄，覆盖全身结构和局部纹理细节。动态扫描阶段，用户执行自然动作，用于捕捉衣物褶皱、遮挡变化和光照响应。该流程无需额外硬件或标记，可在单目条件下提供重建与动态建模所需的信号。

初始相机📷️参数和姿态估计

系统对采集到的静态序列和动态序列进行处理，以获得后续重建所需的相机📷️参数和初始人体姿态估计，其中静态序列是核心阶段。

静态序列

今日霍州(www.jrhz.info)©️

静态序列由近景（Close-up）与全身（Full-body）两类图像组成，它们承担不同但互补的作用：

全身帧

全身视角提供稳定的人体轮廓与结构，使系统能够估计初始人体姿态参数。该姿态不仅用于静态阶段的重建，还作为动态序列处理时的参考姿态来源。

近景帧

此类帧主要覆盖局部区域，如头部、胸部或衣物细节，视野中人体结构比例有限，因此通常无法检测到可靠的人体关键点，也无法直接推断出合理姿态。然而，这些图像对于恢复高频纹理和几何区域至关重要。为了使这些帧参与建模，我们对近景与全身帧联合运行SfM，并利用跨尺度视角一致性来稳定近景帧的相机📷️轨迹。

通过联合利用近景与全身帧，系统既获得了稳定的相机📷️轨迹，也为后续网格重建与动态建模奠定了可靠的初始化条件。

动态序列

在动态序列中，系统不再更新形体参数，而是直接使用静态阶段得到的 SMPL-X身体参数作为固定模板。在此基础上，仅对每一帧估计姿态变化，用于捕获随动作产生的衣物变形、遮挡变化和光照响应。

服饰网格提取

今日霍州(www.jrhz.info)©️

HRM²Avatar 服饰网格提取流程

在获得相机📷️与姿态初始化后，系统从静态序列中构建可动画的穿衣人体网格。这一过程包括以下步骤：

1. 几何重建，使用静态序列图像运行 NeuS2，生成服饰表面的几何代理，用于提供连续且高质量的体表结构。

2. 服装区域提取，通过语义分割引导从代理几何中提取衣物区域，确保服饰边界清晰，避免身体与衣物表面混合。

3. 重拓扑与蒙皮绑定，对提取的服饰网格进行重网格化，并将其转移至与身体一致的蒙皮权重体系，使其具备一致的动画控制结构。

4. 绑定对齐，将绑定后的网格逆皮肤回归到绑定模板姿态，得到拓扑干净、结构一致、可绑定动画的最终服饰网格。

生成的穿衣人体网格作为几何基底参与后续混合表示学习，并用于支持姿态变化下的外观建模与实时动画驱动。

实时可驱动的数字人重建

为了重建实时可驱动的数字人，我们着重从混合表示，几何生成，动态光照建模，训练流程，轻量网络蒸馏五个方面进行了细致的考虑和设计。

混合表示

今日霍州(www.jrhz.info)©️

HRM²Avatar 混合表达

在穿衣人体网格上，我们为每个三角形附着高斯点，构建混合数字人表征：

1. 高斯位置与绑定

每个高斯用重心坐标和法向在三角形上定位：

今日霍州(www.jrhz.info)©️

2. 协方差构造

高斯的尺度由三角形雅可比矩阵、旋转和缩放组合得到：

今日霍州(www.jrhz.info)©️

3. 可见性与语义分区

每个高斯关联可见性标记，仅在三角形朝向视点时参与渲染。基于语义分割，将高斯分为两个区域：

头发区域，使用 3DGS 建模软性过渡，
非头发区域，使用 2DGS 贴合网格表面。

该混合表示在保持结构约束的同时，为后续姿态相关的形变与光照建模提供了可控的高斯参数空间。

几何生成

今日霍州(www.jrhz.info)©️

HRM²Avatar 几何生成模块

今日霍州(www.jrhz.info)©️

其中偏移量定义为：

今日霍州(www.jrhz.info)©️

动态光照建模

今日霍州(www.jrhz.info)©️

HRM²Avatar动态光照建模

人体姿态变化会导致光照分布发生变化，例如阴影位置偏移、局部亮度变化等。为建模这种随动作变化的光照效应，我们引入一个轻量化的单通道姿态相关光照项，用于描述运动驱动的光照变化特征。

渲染过程中，高斯的外观属性会与该光照项进行调制，最终颜色计算如下：

今日霍州(www.jrhz.info)©️

训练流程

今日霍州(www.jrhz.info)©️

HRM²Avatar训练流程

系统的完整优化过程如图所示。训练阶段同时使用近景与全身图像作为监督信号，其中近景提供更强的外观约束，全身图像用于保持整体一致性。模型渲染结果与输入图像通过多种监督方式进行对齐，包括：

颜色一致性监督，
语义掩码约束，
身体与服饰区域的碰撞约束，
几何与参数平滑正则化。

在优化策略上，高斯属性、几何偏移与光照参数从零开始训练，而相机📷️姿态与人体姿势只进行轻量微调，用于消除残余配准误差，而非重新估计结构。经过训练，系统得到姿态无关的高斯表示，以及针对每一帧的几何形变与光照变化，从而支持后续实时驱动与渲染。

轻量网络蒸馏

今日霍州(www.jrhz.info)©️

HRM²Avatar网络蒸馏模块

在重建阶段，我们已经获得了逐帧的姿态、几何偏移和光照参数。基于这些结果，我们采用蒸馏方式训练一个轻量级的预测网络，使其学习姿态到几何形变与光照变化的映射关系。训练完成后，系统不再依赖逐帧重建数据，仅输入姿态即可实时预测对应的几何偏移与光照参数，从而支持移动端的实时驱动与渲染。

高性能移动端实时渲染

为了实现移动端实时运行，我们对渲染阶段进行了系统性优化，包括层级裁剪、高效投影、量化排序和基于显卡硬件的加速渲染。该设计避免了传统 3DGS 渲染中高带宽、高冗余计算的瓶颈，使最终数字人能够在手机上稳定运行。

今日霍州(www.jrhz.info)©️

HRM²Avatar实时渲染模块

层级裁剪

为了尽量减少无效高斯的冗余计算，系统采用多级裁剪策略：

网格级视锥裁剪（CPU 侧）：剔除完全不在视野范围内的身体部件；
三角片级背面裁剪（GPU 侧）：丢弃背对摄像机📹️的三角面；
高斯级视锥裁剪（GPU 侧）：进一步剔除不可见的高斯实例。

这种多级裁剪方式显著减少了需要参与排序与渲染的高斯数量，极大地提升了渲染效率。

投影

对于参与渲染的高斯点，我们采用基于需求的精简投影流程：

按需解码存储块，避免一次性展开全部数据；
优先提取空间位置和索引用于可见性判断；
仅对可见高斯点进行完整属性解码（旋转、尺度、不透明度、球谐系数等）。

这种按需处理方式有效降低了解码带宽开销。

排序

渲染高斯需要按深度顺序合成。我们采用量化排序以提升效率：

将连续深度范围映射至紧凑区间；
使用 16 Bit 或 12 Bit 深度存储替代 32Bit 浮点；
结合 GPU 并行 Radix Sort 与硬件 Wave 操作加速排序。
该方法在保持排序精度的同时，大幅减少排序负担和显存带宽使用。

渲染

最终渲染阶段使用 GPU 的硬件栅格化，对每个高斯生成面元并进行屏幕合成。为进一步提升性能和视觉质量，我们采用：

自适应面元缩放：在保证外观一致的前提下缩小面元面积；
基于透明度修剪：剔除贡献极小的边界像素；
反向透明度估计：根据高斯分布推断最小必要面元尺寸。

这些策略使系统在有限算力环境下仍能保持高质量渲染。

通过上述优化，数字人渲染不依赖实时体渲染混合或高开销着色器，而采用紧凑、高度可并行、缓存友好的绘制方式，最终达成在移动端平台上的实时表现。

结果展示

AR｜MR效果

与现有方法对比

我们在自构的服饰人体数据上对 HRM²Avatar 进行了系统评测，并与现有单目输入条件下的可动画数字人方法进行了对比，包括基于隐式场、可动画神经表示以及基于高斯表示的方案。对比实验主要关注两个方面：静态重建质量与姿态驱动下的外观一致性。

从定性结果可以观察到，在仅使用单目输入的条件下，现有方法在衣物边界、高频纹理和细节区域（如褶皱、印花、层次结构等）往往表现较弱，容易出现模糊化或纹理漂移，而 HRM²Avatar 依托显式衣物网格与高斯表示相结合的结构，能够保持更稳定的视觉细节和结构表达。尤其在跨视角与跨姿态驱动条件下，我们的方法在外观一致性上表现更稳定，未出现明显的拉伸或表面扭曲伪影。

在客观指标上，我们使用 PSNR、SSIM 和 LPIPS 对方法进行量化比较。结果表明，HRM²Avatar 在所有指标上均取得更优表现：在 LPIPS 上分数更低，而在 PSNR 和 SSIM 上更高，显示出更清晰的纹理保留和更稳定的结构一致性。值得注意的是，即使在新的姿态条件下，这一优势仍然保持，说明所建模的姿态相关的外表建模能够有效避免纹理漂移并提升跨姿态一致性。

我们进一步在 Neuman 数据集上评估了 HRM²Avatar 的泛化性能。该数据集包含更复杂的服饰结构与动态动作模式，可用于验证方法在非自采场景下的适应能力。

在 Neuman 数据集上，我们进一步评估了模型的泛化表现。该数据集包含更丰富的动态动作与服饰外观变化，可用于检验模型在非自采场景下的稳定性。从定性结果来看，现有方法在快速动作或较大姿态变化条件下，容易出现纹理模糊、漂移或表面结构不稳定等现象，而HRM²Avatar 能保持较为稳定的外观呈现，服饰细节在动作驱动过程中仍具备可辨识度。同时，在袖口、褶皱等高频区域，模型能够维持视觉上连续且合理的外观变化。值得注意的是，即使目标姿态未在扫描序列中出现，基于两阶段采集策略学习的姿态相关的外表建模仍能生成与动作一致的外观响应，没有出现明显视觉断层或重建不连续情况。

总体而言，Neuman 数据集实验表明，在具有动作变化和服饰结构复杂性的场景中，模型能够保持重建外观与姿态一致性，并具备跨姿态条件下的稳定表现。

消融实验

我们进一步进行了消融实验，以验证系统中各个组成模块对最终效果的影响。实验依次移除关键设计，包括显式服装网格、姿态相关的外表建模以及两阶段扫描协议，并在相同条件下比较生成结果。

从定性结果可以看到，当移除显式服装网格时，重建表面在服饰边界区域出现不连续或拓扑模糊的情况，且局部细节难以保持一致。进一步移除姿态相关的外表建模后，模型在动作变化过程中易产生纹理漂移或不稳定现象，尤其在手臂抬起等较大姿态变化阶段更为明显。此外，若不采用两阶段扫描采集策略，仅依赖单序列输入，模型在训练阶段难以获得可靠的静态参考，表现为纹理分辨率下降以及动作驱动时局部外观变化不合理。

总体来看，消融实验表明，各设计模块在系统中均发挥必要作用：显式服装网格用于提供稳定的拓扑结构，姿态相关的外表建模对于跨姿态一致性至关重要，而两阶段扫描策略为重建细节和外观稳定性提供有效约束。

性能表现

我们评估了 HRM²Avatar 在移动端设备上的运行表现，并在 iPhone 15 Pro Max 与 Apple Vision Pro 上进行了实时驱动测试。实验使用相同渲染配置，并控制高斯数量以验证模型在不同数字人规模下的运行稳定性。

在单个数字人配置下（约 53 万高斯点），系统能够在 iPhone 15 Pro Max 上以 2K 分辨率、120 FPS 稳定运行；多数字人场景下仍可保持实时表现，例如同时渲染三个数字人时，可达到 2K@30 FPS。在 Apple Vision Pro 上，系统同样实现了 2K@90 FPS 的实时渲染效果。

我们进一步分析了各渲染优化策略对系统性能的影响，包括分级裁剪（Hierarchical Culling）、按需属性解码（On-demand Decoding）、深度量化排序（Depth Quantization）以及单通道视图渲染等策略。实验结果表明，这些设计能够有效降低计算与内存开销，使混合的高斯和网格表示能够在移动硬件上实现实时驱动。

整体来看，性能测试表明 HRM²Avatar 能够在移动设备上维持稳定的实时运行表现，同时兼顾高分辨率渲染质量与系统响应延迟，为实际交互场景部署提供可行性基础。

总结与展望

围绕 “让普通人也能拥有高质量数字人” 这一目标，我们提出了 HRM²Avatar，一种基于手机单目扫描，即可生成可动画、高保真数字人的系统方案。在真实应用场景中，HRM²Avatar 能够应对不同服饰结构、姿态变化与光照条件，在稳定性和一致性方面表现良好，为移动端数字人应用提供了可行技术路径。

我们也客观看待当前技术阶段，作为一项前沿探索，HRM²Avatar 仍然存在进一步优化空间。例如对于结构复杂或非固定拓扑的服饰（如飘带、宽松衣物等），重建精度仍有改善余地，此外在极端光照或动态遮挡场景下，效果仍有提升空间。这些也正是我们下一阶段持续投入攻关的方向。

HRM²Avatar 并不是 “终点”，而是我们推动：数字人从专业设备走向普通用户，从实验室能力走向真实应用场景过程中的一个重要里程碑。我们相信，随着算法、模型工程与硬件能力的共同进化，高质量、实时、可普及的数字人体验，将不再遥远。

团队介绍

我们是大淘宝技术 Meta Team，负责面向消费场景的 3D/XR 基础技术建设和创新应用探索，通过技术和应用创新找到以手机及 XR 新设备为载体的消费购物 3D/XR 新体验。团队在端智能、商品三维重建、3D 引擎、XR 引擎等方面有深厚的技术积累，同时在 OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI、SIGGRAPH 等顶级学术会议和期刊上发表了多篇论文。