腾讯混元视频生成再升级,发布图生视频、音频与动作驱动等能力

3月6日,腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法,并支持生成背景音效及2K高质量视频。

今日霍州(www.jrhz.info)©️

基于图生视频的能力,用户只需上传一张图片,并简短描述希望画面如何运动、镜头如何调度等,混元即可按照用户要求让图片动起来,变成5秒的短视频,还能自动配上合适的背景音效。此外,上传一张人物图片,并输入希望“对口型”的文字或音频,图片中的人物即可“说话”或“唱歌”;如果选择动作模版,还能一键生成同款跳舞视频。目前用户通过混元AI视频官网即可体验,企业和开发者可在腾讯云申请使用API接口使用。

此次开源的图生视频模型,是混元文生视频模型开源工作的延续,模型总参数量保持 130 亿,适用于多种类型的角色和场景,包括写实视频制作、动漫角色甚至CGI角色制作的生成。开源内容包含权重、推理代码和LoRA训练代码,支持开发者基于混元训练专属LoRA等衍生模型。目前在Github、HuggingFace等主流开发者社区均可下载体验。

据混元开源技术报告披露,混元视频生成模型具备灵活的扩展性,图生视频和文生视频在相同的数据集上开展预训练工作。在保持超写实画质、流畅演绎大幅度动作、原生镜头切换等特性的基础上,让模型能够捕捉到丰富的视觉和语义信息,并结合图像、文本、音频和姿态等多种输入条件,实现对生成视频的多维度控制。

混元视频生成模型开源以来,一直保持较高的热度,去年12 月登顶huggingface全站趋榜第一,目前Github平台上Star数超过8.9K。多位开发者自发制作基于社区Hunyuanvideo的插件与衍生模型,积累超过 900 个衍生版本。更早开源的混元DiT文生图模型,在国内外衍生模型数量多达1600多个。

目前,混元开源系列模型已经完整覆盖文本、图像、视频和3D生成等多个模态,在Github 累计获得超 2.3 万开发者关注和star。

特别声明:[腾讯混元视频生成再升级,发布图生视频、音频与动作驱动等能力] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

玩游戏后头晕是怎么回事(玩游戏后头晕怎么缓解)

玩游戏后出现头晕可能与视觉疲劳、前庭功能紊乱、血压波动、低血糖和颈椎受压等因素有关。可以通过调整用眼习惯、改善坐姿、补充能量和适当活动等方式缓解。 长时间注视屏幕会导致睫状肌持续收缩,引发视物模糊和头晕

玩游戏后头晕是怎么回事(玩游戏后头晕怎么缓解)

一条裙子👗卖断货,演技却上热搜,『杨幂』这次真的赢麻了(一条裙子👗售价为280元,售出后可获利40%)

仅仅因为她在《惊蛰无声》中穿了一条白绿条纹的吊带裙,现在全网都抢不到这款裙子👗了。 尽管电影的豆瓣评分只有6.3分,排在春节档的底部,但『杨幂』凭借一条裙子👗把整个时尚圈炸了个天翻地覆。全网都在夸她演得好,说她和朱一…

一条裙子👗卖断货,演技却上热搜,『杨幂』这次真的赢麻了(一条裙子👗售价为280元,售出后可获利40%)

王星越预判式救场『白鹿』!翻白眼瞬间火速伸手捂脸太默契(王星越简介)

这一波0.5秒救场的默契操作,简直让人看到了他们七年四次合作所积累下来的深厚情谊。从《玉楼春》里的主仆关系,到《宁安如梦》中的错付CP,再到《唐宫奇案》里终于升级为双强主角🎭️的携手并肩,他们已经在片场上打磨出了…

王星越预判式救场『白鹿』!翻白眼瞬间火速伸手捂脸太默契(王星越简介)

深度解析今日霍州版「『豆包』手机」:Android 的统治者下了一盘什么棋?|AI 器物志(今日霍州版什么意思)

对比真正「全能」,连微信收藏都能帮忙找的『豆包』手机助手(至少在被抵制之前),Gemini 目前的能力还相当局限,聚焦在打车、外卖、杂货这些日常场景,虽说底层技术能力更强,但用户的实机使用效果,跟鸿蒙的小艺、荣…

深度解析今日霍州版「『豆包』手机」:Android 的统治者下了一盘什么棋?|AI 器物志(今日霍州版什么意思)

镇心痛颗粒主要含哪些成分及功效是什么(镇心痛口服液怎么样)

镇心痛颗粒是一种中药制剂,其主要成分为党参、三七、延胡索(经过醋制处理)、地龙、葶苈子(炒过)、薤白、肉桂、冰片以及薄荷脑等。该药具有益气活血、祛痰通络、宽胸止痛的作用。主要用于治疗由气虚血瘀痰阻引起的胸痹症状,如胸痛、胸闷、心悸、气短、乏

镇心痛颗粒主要含哪些成分及功效是什么(镇心痛口服液怎么样)