MultiTalk 的性能通过广泛的实验进行了验证,包括与现有最先进方法的定量和定性比较,充分展示了其在多人物对话视频生成方面的能力。
在数据集与评估指标方面,MultiTalk 的训练数据集在第一阶段使用了约 2K 小时的单人说话视频,用于学习基础的音频驱动视频能力;第二阶段则使用了 100 小时的双人对话视频,用于专门训练多人物交互和绑定。MultiTalk 在三类不同的测试数据集上进行了评估:说话的头数据集(HDTF 和 CelebV-HQ )、说话的身体数据集(EMTDT )以及双人说话身体数据集(MTHM)。评估采用了行业内通用的多维度指标:FID (Frechet Inception Distance) 和 FVD (Fréchet Video Distance) 用于评估生成数据质量;E-FID (Expression-FID) 用于评估生成视频中面部表情的表现力;Sync-C 和 Sync-D 用于精确测量生成视频中唇部动作与音频的同步程度。
在定量评估中,MultiTalk 在说话的头和说话的身体生成任务上,与 AniPortrait、VExpress、EchoMimic、Hallo3、Sonic、Fantasy Talking 等多个最先进的方法进行了对比。结果显示,MultiTalk 在大多数指标上超越了这些方法,尤其在唇形同步(Sync-C, Sync-D)和视频质量(FID, FVD)方面表现出卓越性能。
此外,我们还专门探讨了多流音频训练是否会导致单人视频性能下降的问题(具体可以参考论文)。实验结果(表 1 和表 2 中 "MultiTalk-single" 与 "MultiTalk-multiple" 的对比)显示,MultiTalk 的多人视频模型在单人数据集上表现与单人视频模型相当。这表明,MultiTalk 在引入多人物处理能力时,并未牺牲原有的单人视频性能,实现了能力的无损叠加。
在定性评估中,MultiTalk 取得了不错的效果,如下图 6 所示。其显著优势之一是强大的指令遵循能力。当提供复杂的文本提示(例如 "一个男人合上笔记本电脑并放在桌上"、"一个女人戴着耳机坐在桌旁,然后她拿起耳机")时,MultiTalk 能够成功生成精确响应这些指令的视频,而其他同类方法则难以做到,往往出现动作不符或物体变形。MultiTalk 生成的视频中,视觉伪影(如手部或物体扭曲)显著减少,整体视觉质量更高,画面更自然真实。作为首个专门针对多人物生成任务设计的方法,MultiTalk 在处理复杂的交互场景时表现出色。
与简单的 "视频拼接" 方法(即将左右人物视频分别生成再拼接)相比(如下图 7 所示),MultiTalk 能够有效处理人物间的互动,避免了拼接方法中常见的左右片段不一致性问题,使得多人物对话和互动更加流畅自然。论文还通过可视化自注意力图,直观地展示了 MultiTalk 能够自适应地识别视频中特定人物的定位,这进一步证明了 L-ROPE 方法在实现精确音频绑定方面的有效性。