腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA(腾讯混合云)

腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA(腾讯混合云)

腾讯混元 投稿

量子位 | 公众号 QbitAI

自带声音的视频生成模型,开源版开卷!

最新赶到的是腾讯混元:刚刚正式开源端到端的视频音效生成模型HunyuanVideo-Foley

文本描述:片段一(0-6s): footsteps;片段二(6-21s): gunshot;片段三(21-27s): Flick whoosh, Haaah.

官方介绍这是一款专为视频内容创作者打造的音频生成工具,无论是短视频创作者、电影制作人、广告创意人员,还是游戏开发者,HunyuanVideo-Foley都能提供专业级别的音频配音能力,真正实现“看懂画面、读懂文字、配准声音”。

夸张滑稽的卡通音效和真实演奏配音都不在话下。

文字描述:The sound of the number 3’s bouncing footsteps is as light and clear as glass marbles hitting the ground. Each step carries a magical sound.

文字描述:Electric guitar power chords ringing out loudly and resonating.

并且完全开源,具体链接可见文末。

专业级别视频配音自动化

视频生成领域的最新进展已能产出视觉效果逼真的内容,但缺乏同步音频,严重影响了沉浸感。

视频转音频(V2A)生成仍面临三大关键挑战 ——

  • 1、多模态数据集匮乏:现有音视频数据集规模有限、质量参差,导致模型面对集外场景时难以生成贴合的音效,无法覆盖多样化视频配音场景。

  • 2、语义响应不均衡:音频严重依赖文本语义,而忽略视频语义,导致无法响应视频中文本未描述的音频内容。

  • 3、音质粗糙:现有方法生成的音频仍存在较明显的背景噪音和杂音,无法满足专业制作对音质的要求。

为解决以上挑战,腾讯混元团队推出端到端多模态音频生成框架——HunyuanVideo-Foley,可合成与视觉动态和语义语境精确匹配的高保真音频,真正实现了专业级别的视频配音自动化。

亮点一:泛化能力好,多场景音画同步

HunyuanVideo-Foley对各种场景的视频输入都能够生成音画一致、语义对齐的音频。

人物互动、动物活动、自然景观、卡通动画、科幻等各种场景,都能生成与画面精准匹配的音频。

文本描述:With a faint sound as their hands parted, the two embraced. With soft background music.

文本描述:Creaking of old wooden windmill.

亮点二:多模态语义均衡响应,文本画面全兼顾

HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。

例如,当输入一段包含海浪、沙滩人群及海鸥的视频,且文字描述为“海浪声”时,HunyuanVideo-Foley不仅能精准生成与海浪画面同步的波浪音效,响应文本需求,还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声。

甚至根据场景氛围自然融入轻柔的背景环境音,形成层次丰富的复合音效。

这种对文本描述与视频细节的双重响应,避免了“顾文失画”的问题,让生成的音频与整体场景高度契合,显著提升视频观看的沉浸感。

文本描述:The sound of waves crashing.

亮点三:专业级音频保真度

无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,HunyuanVideo-Foley均达到专业制作水准。

HunyuanVideo-Foley生成的音频还能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。

文字描述:A car drives over the wet road.

性能表现全面领先

在多个权威评测基准上,HunyuanVideo-Foley的性能表现全面领先。

在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平,超越了所有开源方案。

在权威评测基准MovieGen-Audio-Bench中,HunyuanVideo-Foley的核心指标相对当前最先进的MMAudio模型实现显著提升:

  • 音频质量指标PQ(AudioBox-Aesthetics)从6.17提升至6.59;

  • 视觉语义对齐指标IB从0.27提升至0.35;

  • 在时序对齐指标DeSync上从0.80优化至0.74,均达到当前SOTA水平。

在主观评测中,HunyuanVideo-Foley在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分(满分5分),展现了接近专业水准的音频生成效果。

技术方案解读

1、自动化标注与数据过滤的数据管线

首先,为实现可扩展的多模态数据集构建,腾讯混元团队开发了自动化标注与数据过滤的数据管线,成功构建了约10万小时级的高质量TV2A数据集。

为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。

生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。

2、创新MMDiT架构,实现多模态帧级对齐及文本注入

针对模态不平衡问题,HunyuanVideo-Foley创新设计了双流多模态扩散变换器(MMDiT)架构,通过联合自注意力机制建模视频和音频之间的帧级别对齐关系,再通过交叉注意力注入文本信息。

3、引入REPA损失函数,提供语义和声学指导

HunyuanVideo-Foley采用了表征对齐(REPA)损失,通过将单流音频DiT模块的隐层嵌入与预训练自监督模型提取的音频特征对齐,显著提升音频质量。

此外,腾讯混元团队还提出了一种改进的DAC-VAE,采用满足高保真要求的48kHz采样率,并将离散表征扩展至128维连续表征,大幅提升了HunyuanVideo-Foley的音频重建能力。

在这种框架下搭建出的HunyuanVideo-Foley视频音效生成能力,正为多元行业带来高效便捷的解决方案:

  • 针对短视频创作者,能自动适配搞笑段子、生活vlog、AI视频等内容的场景氛围,一键生成贴合画面节奏的背景音效,让创意表达更具感染力;

  • 助力电影制作团队突破传统音效制作的周期与成本瓶颈,快速构建环境音、拟音等细节丰富的声效场景,实现降本提效的后期制作升级;

特别声明:[腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA(腾讯混合云)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

髋关节固定支具怎么选?骨盆骨折脱位康复神器全解析!🦴🩹(髋关节固定支具有用吗)

骨盆骨折或髋关节脱位后,康复期的稳定支撑至关重要!但市面上支具种类繁多、参数复杂,到底该选哪种?本文从医学原理到实际使用场景,带你彻底搞懂“髋关节固定支具”是什么、怎么用、如何选。涵盖材质、承重能力、适用人群、佩戴技巧与避坑指南,还附上理性

髋关节固定支具怎么选?骨盆骨折脱位康复神器全解析!🦴🩹(髋关节固定支具有用吗)

寒武纪股价超茅台 新“股王”诞生(寒武纪股票代码多少)

寒武纪股价持续走强,盘中一度涨近10%,达到1461元,超越贵州茅台成为新的“股王”。本月内,寒武纪股价涨幅超过100%,而自2023年以来累计涨幅更是超过了2500%。目前,寒武纪的总市值已经超过6000亿元

寒武纪股价超茅台 新“股王”诞生(寒武纪股票代码多少)

赵丽颖生日撞上封面发布,粉丝狂欢:双喜临门还是巧合?(赵丽颖生日发文)

在影视领域,她携手知名导演,共同打造了一部备受期待的新作,这无疑为她的演艺事业再添浓墨重彩的一笔。在时尚领域,她更是成功解锁了时尚COSMO八月周年刊的封面,这不仅是对她时尚敏锐度的认可,更是对她全方位发展的…

<strong>赵丽颖</strong>生日撞上封面发布,粉丝狂欢:双喜临门还是巧合?(<strong>赵丽颖</strong>生日发文)

中俄合拍硬核谍战大片《红丝绸》即将上映,角色海报太戳心(中俄组合)

若把它放在历史的框架里,它不过是现代戏的一个注脚,却也像鲁迅笔下的一则寓言:权力与秘密总爱在友谊的外衣下打着擦边球,真相往往被包装成一个又一个理由。电影不仅在技法层面追求张力,更把情感的波动置于核心位置,让观…

中俄合拍硬核谍战大片《<strong>红丝绸</strong>》即将上映,角色海报太戳心(中俄组合)

35岁法国超模 Clément Chabernaud 已经成为人类历史最长红的男模。(法国65岁超模)

35岁法国超模 Clément Chabernaud(克莱门特·沙贝尔诺)本季度持续长红,成为时尚品牌 FURSAC 和 GiorgioArmani 的广告男模特。 这些年,他真的是一个广告接着一个广告的,…

35岁法国超模 Clément Chabernaud 已经成为人类历史最长红的男模。(法国65岁超模)