业内首创,『豆包』VideoWorld开源,仅通过纯视觉信息认知世界

2月10日,界面新闻获悉,『豆包』大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。

不同于主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。这一创新,也是在人工智能视频生成和多模态认知方面取得的重要突破。

传统的多模态模型,如Sora、DALL-E和Midjourney等,大多依赖于语言或标签数据来学习知识,而VideoWorld则通过纯视觉信号进行学习和推理。这一特性使得VideoWorld在处理如折纸、打领结等难以通过语言清晰表达的任务时,具有显著优势。

大模型的视觉理解能力一直是AI前沿研究方向之一。视频中存在大量冗余信息,会影响模型的学习效率,使得视频序列的知识挖掘效率显著落后于文本形式。但李飞飞教授曾在TED演讲中提到,“幼儿可以不依靠语言理解真实世界”。与语言相比,“用眼睛看”是人类门槛更低的认知方式。

据介绍,VideoWorld的核心技术基于一种潜在动态模型(LDM),该模型能够高效压缩视频帧间的变化信息,显著提升知识学习的效率和效果。

此外,VideoWorld还结合了自回归Transformer架构和矢量量化-变分自编码器(VQ-VAE),实现了高质量的视频生成和复杂的任务推理。通过这一组合,VideoWorld能够从未标注的视频数据中学习复杂的任务知识,包括规则、推理和规划能力。

今日霍州(www.jrhz.info)©️

在实际应用中,在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,能够选择最佳落子位置并击败高水平的对手。

此外,该模型还具有扩展到自动驾驶、智能监控等领域的潜力。

VideoWorld的开源项目代码和模型已公开发布,『豆包』大模型团队也提供了详细的安装和运行指南。

2月10日,受此消息影响,A股视觉认知概念股午后大幅走强,创业板星宸科技直线拉升涨停,全志科技、富瀚微、虹软科技等纷纷大幅冲高。

特别声明:[业内首创,『豆包』VideoWorld开源,仅通过纯视觉信息认知世界] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

怎么提取视频里面的音频?分享一些正确且简单的操作方法(怎么提取视频里的声音并保存)

在日常工作与生活中,我们常常需要从视频中提取音频,无论是制作手机铃声、获取背景音乐,还是进行二次剪辑创作,一款好用的音频提取工具能极大提升效率。方法一、嗨格式音频转换器APP 步骤:打开软件,点击上面的【添…

怎么提取视频里面的音频?分享一些正确且简单的操作方法(怎么提取视频里的声音并保存)

220g真空包装的九台热面散装超细冷面是东北正宗朝鲜面吗?聊聊2025年冷面市场的新趋势

220g真空包装的九台热面散装超细冷面是否为东北正宗朝鲜面,这个问题困扰了不少消费者。本篇文章从原材料选取、生产工艺和口感特点三个方面进行详细解读,并探讨了2025年冷面市场的新趋势,帮助消费者挑选优质产品。

220g真空包装的九台热面散装超细冷面是东北正宗朝鲜面吗?聊聊2025年冷面市场的新趋势

kgma转换mp3:kgm文件怎么转换成mp3?2w人点赞的6个实用工具(kgma转换mp3)

2、文件导入成功后,在格式选择中切换到“MP3”。转换完成后在“已完成”列表中找到 MP3 文件,可直接预览或分享到其他平台、应用中使用。2、上传完成后在“Convert to”下拉菜单中选择“MP3”。…

kgma转换mp3:kgm文件怎么转换成mp3?2w人点赞的6个实用工具(kgma转换mp3)

打呼噜声音特别大怎么回事(打呼噜声音特别大怎么治疗)

打呼噜声音特别大可能与多种因素有关,包括肥胖、鼻咽部结构异常、睡眠姿势不当、饮酒或镇静药物使用、阻塞性睡眠呼吸暂停低通气综合征等。打呼噜通常由气道狭窄或松弛导致气流震动引起,可以通过调整生活方式、使用器械辅助或手术治疗来改善

打呼噜声音特别大怎么回事(打呼噜声音特别大怎么治疗)

2025年必看!给九号卡丁车选件合适的防尘车衣到底有多重要?(2025年的)

在智能出行兴起的当下,选择一款适合九号卡丁车的防尘车衣至关重要。它不仅能有效防护灰尘、刮擦等外部损伤,还能提升整体美观度,延长使用寿命。然而面对琳琅满目的选项,如何挑选出真正实用且性价比高的防尘车衣成为许多车主的困扰。本文从选材、适配度、便

2025年必看!给九号卡丁车选件合适的防尘车衣到底有多重要?(2025年的)