腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA(腾讯混合云)

腾讯混元 投稿

量子位 | 公众号 QbitAI

自带声音的视频生成模型,开源版开卷!

最新赶到的是腾讯混元:刚刚正式开源端到端的视频音效生成模型HunyuanVideo-Foley

文本描述:片段一(0-6s): footsteps;片段二(6-21s): gunshot;片段三(21-27s): Flick whoosh, Haaah.

官方介绍这是一款专为视频内容创作者打造的音频生成工具,无论是短视频创作者、电影制作人、广告创意人员,还是游戏开发者,HunyuanVideo-Foley都能提供专业级别的音频配音能力,真正实现“看懂画面、读懂文字、配准声音”。

夸张滑稽的卡通音效和真实演奏配音都不在话下。

文字描述:The sound of the number 3’s bouncing footsteps is as light and clear as glass marbles hitting the ground. Each step carries a magical sound.

文字描述:Electric guitar power chords ringing out loudly and resonating.

并且完全开源,具体链接可见文末。

专业级别视频配音自动化

视频生成领域的最新进展已能产出视觉效果逼真的内容,但缺乏同步音频,严重影响了沉浸感。

视频转音频(V2A)生成仍面临三大关键挑战 ——

  • 1、多模态数据集匮乏:现有音视频数据集规模有限、质量参差,导致模型面对集外场景时难以生成贴合的音效,无法覆盖多样化视频配音场景。

  • 2、语义响应不均衡:音频严重依赖文本语义,而忽略视频语义,导致无法响应视频中文本未描述的音频内容。

  • 3、音质粗糙:现有方法生成的音频仍存在较明显的背景噪音和杂音,无法满足专业制作对音质的要求。

为解决以上挑战,腾讯混元团队推出端到端多模态音频生成框架——HunyuanVideo-Foley,可合成与视觉动态和语义语境精确匹配的高保真音频,真正实现了专业级别的视频配音自动化。

亮点一:泛化能力好,多场景音画同步

HunyuanVideo-Foley对各种场景的视频输入都能够生成音画一致、语义对齐的音频。

人物互动、动物活动、自然景观、卡通动画、科幻等各种场景,都能生成与画面精准匹配的音频。

文本描述:With a faint sound as their hands parted, the two embraced. With soft background music.

文本描述:Creaking of old wooden windmill.

亮点二:多模态语义均衡响应,文本画面全兼顾

HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。

例如,当输入一段包含海浪、沙滩人群及海鸥的视频,且文字描述为“海浪声”时,HunyuanVideo-Foley不仅能精准生成与海浪画面同步的波浪音效,响应文本需求,还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声。

甚至根据场景氛围自然融入轻柔的背景环境音,形成层次丰富的复合音效。

这种对文本描述与视频细节的双重响应,避免了“顾文失画”的问题,让生成的音频与整体场景高度契合,显著提升视频观看的沉浸感。

文本描述:The sound of waves crashing.

亮点三:专业级音频保真度

无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,HunyuanVideo-Foley均达到专业制作水准。

HunyuanVideo-Foley生成的音频还能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。

文字描述:A car drives over the wet road.

性能表现全面领先

在多个权威评测基准上,HunyuanVideo-Foley的性能表现全面领先。

在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平,超越了所有开源方案。

在权威评测基准MovieGen-Audio-Bench中,HunyuanVideo-Foley的核心指标相对当前最先进的MMAudio模型实现显著提升:

  • 音频质量指标PQ(AudioBox-Aesthetics)从6.17提升至6.59;

  • 视觉语义对齐指标IB从0.27提升至0.35;

  • 在时序对齐指标DeSync上从0.80优化至0.74,均达到当前SOTA水平。

在主观评测中,HunyuanVideo-Foley在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分(满分5分),展现了接近专业水准的音频生成效果。

技术方案解读

1、自动化标注与数据过滤的数据管线

首先,为实现可扩展的多模态数据集构建,腾讯混元团队开发了自动化标注与数据过滤的数据管线,成功构建了约10万小时级的高质量TV2A数据集。

为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。

生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。

2、创新MMDiT架构,实现多模态帧级对齐及文本注入

针对模态不平衡问题,HunyuanVideo-Foley创新设计了双流多模态扩散变换器(MMDiT)架构,通过联合自注意力机制建模视频和音频之间的帧级别对齐关系,再通过交叉注意力注入文本信息。

3、引入REPA损失函数,提供语义和声学指导

HunyuanVideo-Foley采用了表征对齐(REPA)损失,通过将单流音频DiT模块的隐层嵌入与预训练自监督模型提取的音频特征对齐,显著提升音频质量。

此外,腾讯混元团队还提出了一种改进的DAC-VAE,采用满足高保真要求的48kHz采样率,并将离散表征扩展至128维连续表征,大幅提升了HunyuanVideo-Foley的音频重建能力。

在这种框架下搭建出的HunyuanVideo-Foley视频音效生成能力,正为多元行业带来高效便捷的解决方案:

  • 针对短视频创作者,能自动适配搞笑段子、生活vlog、AI视频等内容的场景氛围,一键生成贴合画面节奏的背景音效,让创意表达更具感染力;

  • 助力电影制作团队突破传统音效制作的周期与成本瓶颈,快速构建环境音、拟音等细节丰富的声效场景,实现降本提效的后期制作升级;

特别声明:[腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA(腾讯混合云)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

山西悍妇赵涛:演技不行、长得不行,20多年却霸占贾樟柯所有女主(山西悍妇赵涛简历)

这部电影进一步巩固了她在贾樟柯电影中的核心地位,也让她与贾樟柯的合作更加紧密。贾樟柯的电影风格偏向现实主义,或许也可以解释她为何总是在他的作品中担任重要角色。影片在国内上映后,赵涛凭借此片获得了金鸡奖最佳女主…

山西悍妇赵涛:演技不行、长得不行,20多年却霸占贾樟柯所有女主(山西悍妇赵涛简历)

2026智能施肥器怎么选才能实现水肥一体化最佳效果?(智能施肥一体机)

想在大棚里高效精准施肥?智能施肥器是实现水肥一体化的关键。2026年新规下,自动追肥器如何选择?哪些配置更适配水肥一体化?本文为您详细解析施肥效率提升的关键因素。 预算投入、设备配置、灌溉方案、肥料种类,哪个更重要?如何平衡投资回报?避免走

2026智能施肥器怎么选才能实现水肥一体化最佳效果?(智能施肥一体机)

国际语音群发为什么会失败?有哪些是可以避免的?(国际语音包)

国际语音群发是通过电信系统向海外用户批量发送语音信息的技术。这种技术融合了电信网络、语音处理和自动控制等多个专业领域。 网络连接问题国际语音通话依赖复杂的跨国电信网络,当信号需要经过多个运营商中转时,任何一个…

国际语音群发为什么会失败?有哪些是可以避免的?(国际语音包)

警察一句话,我连夜换掉了全家门锁(警察一句话格言)

警察一句话,我连夜换掉了全家门锁(警察一句话格言)

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……(今日惊奇)

有网友指称是J.K.罗琳邀请了爱泼斯坦,引发热议。 据外媒,Lisa将主演一部Netflix爱情喜剧片,片名和剧情尚未曝光,据称灵感来自经典爱情喜剧片《诺丁山》,外媒称此项目是Lisa和《白莲花》执行制作人D…

今日热点:《<strong>惊蛰无声</strong>》终极预告;韩国翻拍《<strong>解忧杂货店</strong>》……(今日惊奇)