当前,人工智能在视觉内容生成领域取得了令人瞩目的进展,尤其是在音频驱动的人像视频方面。无论是 "会说话的头" 还是 "会说话的身体" 技术,都已能够从音频信号生成与面部动作高度同步、视觉质量令人满意的视频。这些技术在模拟单人讲话方面表现出色,例如在虚拟主播或数字替身等应用中展现出逼真的效果。
然而,现有方法在处理更复杂的场景时,其局限性也日益凸显,面对多人对话视频生成时面临三大挑战:
多音频流输入适配:如何区分并绑定不同人物的音频信号?
动态人物定位:当人物在画面中移动时,如何精准定位其运动区域?
指令遵循能力:如何让生成的视频严格遵循文本描述的复杂动作(如大幅肢体动作)?
这些挑战促使研究人员思考,AI 人像视频的下一个前沿究竟在哪里。从最初仅关注面部表情的 "会说话的头",到能够模拟全身动作的 "会说话的身体",再到如今 MultiTalk 所提出的 "多人物对话视频生成",这清晰地揭示了 AI 人像视频领域从关注局部细节到全身动作,再到模拟复杂社会互动的演进趋势。这种演进不仅仅是技术能力的简单提升,更体现了对真实世界复杂性模拟需求的增长,以及 AI 在内容创作中扮演更高级角色的潜力。用户对 AI 生成内容的 "真实感" 和 "复杂性" 要求越来越高,简单的 "动起来" 已不足够,现在需要 AI 能够 "自然地互动" 并 "理解和执行复杂指令"。