阿里巴巴日前宣布开源通义万相Wan2.2系列视频生成模型。本次开源包含三款模型:文生视频模型Wan2.2-T2V-A14B、图生视频模型Wan2.2-I2V-A14B以及统一视频生成模型Wan2.2-IT2V-5B。其中,文生视频与图生视频模型采用MoE(Mixture of Experts)架构,总参数量达270亿,激活参数为140亿。官方表示,该架构通过高噪声专家模型与低噪声专家模型的协同工作,分别处理视频整体结构与细节优化,在同等参数规模下相较传统架构降低约50%的计算资源消耗。
该系列模型在生成能力方面涵盖复杂运动生成、人物交互表现及美学表达等维度。项目引入电影美学控制系统,支持通过关键词控制光影、色彩、构图及微表情等视觉要素。用户可通过输入如“黄昏”“柔光”“中心构图”或“冷色调”“硬光”“低角度”等指令组合,生成具有特定视觉风格的视频内容。
统一视频生成模型Wan2.2-IT2V-5B参数量为50亿,支持文本与图像双模态输入,采用高压缩率3D VAE架构,时间与空间压缩比达到4×16×16,信息压缩率达64倍。该模型可在配备单张消费级显卡(22GB显存)的设备上运行,数分钟内生成5秒、24帧每秒、720P分辨率的高清视频,官方称其为当前同类型中生成速度最快的基础模型之一。
开发者可通过GitHub、HuggingFace及魔搭社区获取模型权重与代码,企业用户可经由阿里云百炼平台调用相关API服务,终端用户亦可通过通义万相官网及通义App体验生成功能。自2024年2月起,通义万相系列已陆续开源多款视频生成与编辑模型,累计下载量超过500万次。