首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒(首次实现电视实况转播的奥运会是)
EgoTwin 是一个基于扩散模型的框架,能够以视角一致且因果连贯的方式联合生成第一人称视角视频和人体动作。 为解决上述挑战,EgoTwin基于扩散Transformer架构,构建了“文本-视频-动作”三模…
EgoTwin 是一个基于扩散模型的框架,能够以视角一致且因果连贯的方式联合生成第一人称视角视频和人体动作。 为解决上述挑战,EgoTwin基于扩散Transformer架构,构建了“文本-视频-动作”三模…