业内首创,豆包VideoWorld开源,仅通过纯视觉信息认知世界

业内首创,豆包VideoWorld开源,仅通过纯视觉信息认知世界

2月10日,界面新闻获悉,豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。

不同于主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。这一创新,也是在人工智能视频生成和多模态认知方面取得的重要突破。

传统的多模态模型,如Sora、DALL-E和Midjourney等,大多依赖于语言或标签数据来学习知识,而VideoWorld则通过纯视觉信号进行学习和推理。这一特性使得VideoWorld在处理如折纸、打领结等难以通过语言清晰表达的任务时,具有显著优势。

大模型的视觉理解能力一直是AI前沿研究方向之一。视频中存在大量冗余信息,会影响模型的学习效率,使得视频序列的知识挖掘效率显著落后于文本形式。但李飞飞教授曾在TED演讲中提到,“幼儿可以不依靠语言理解真实世界”。与语言相比,“用眼睛看”是人类门槛更低的认知方式。

据介绍,VideoWorld的核心技术基于一种潜在动态模型(LDM),该模型能够高效压缩视频帧间的变化信息,显著提升知识学习的效率和效果。

此外,VideoWorld还结合了自回归Transformer架构和矢量量化-变分自编码器(VQ-VAE),实现了高质量的视频生成和复杂的任务推理。通过这一组合,VideoWorld能够从未标注的视频数据中学习复杂的任务知识,包括规则、推理和规划能力。

在实际应用中,在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,能够选择最佳落子位置并击败高水平的对手。

此外,该模型还具有扩展到自动驾驶、智能监控等领域的潜力。

VideoWorld的开源项目代码和模型已公开发布,豆包大模型团队也提供了详细的安装和运行指南。

2月10日,受此消息影响,A股视觉认知概念股午后大幅走强,创业板星宸科技直线拉升涨停,全志科技、富瀚微、虹软科技等纷纷大幅冲高。

特别声明:[业内首创,豆包VideoWorld开源,仅通过纯视觉信息认知世界] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

《凡人修仙传》看懂七大派结局,才知,韩立成元婴后背弃黄枫谷(凡人修仙传电视剧完整版免费观看高清)

血色禁地其实就是七大派共同执掌,更早之前是掩月宗掌控的,而这七大派分别是掩月宗、黄枫谷、灵兽山、清虚门、化刀坞、天阙堡、巨剑门,而这七大派都是越国的宗派,其他各国也有各自的修真门派。 天阙堡是一个十分特别的…

《凡人修仙传》看懂七大派结局,才知,韩立成元婴后背弃黄枫谷(凡人修仙传电视剧完整版免费观看高清)

扬杰科技:公司新发布的产品可应用于AR眼镜等相关产品领域(扬杰科技公司网站)

财联社8月3日电,扬杰科技在互动平台表示,公司新发布的产品特征契合紧凑型数码产品需求,可以应用于AR眼镜等相关产品领域。公司重视新型产品的发展机遇,已经在有关应用场景做出相关的产品与研发布局。…

扬杰科技:公司新发布的产品可应用于AR眼镜等相关产品领域(扬杰科技公司网站)

年轻创作者如何用镜头解构时代议题与自我?(年轻人总是把创作的冲动当成创作的才华)

这一年的毕设创作之路,我为我的毕设付出了很多的时间与精力,我本以为这会消耗我的精力,可我现在已经变成了一个为了自己的想法非常有动力去执行的一个人,和过去那个被亲密关系中的暴力伤害的负面情绪困住的人已经判若两人…

年轻创作者如何用镜头解构时代议题与自我?(年轻人总是把创作的冲动当成创作的才华)

地球建筑的未来方向:向地外空间探索延伸(地球建筑师)

太空中不容许浪费、低效或失误,因此Suermann等学者正研究如何运用自主系统、机器人技术和先进材料在月球和火星建造建筑。" 他表示他的下一个梦想即将实现,因为他加入了德州农工大学举办2026年国际美国土…

地球建筑的未来方向:向地外空间探索延伸(地球建筑师)

兔子蹦迪疯传,5亿观看!全球恐慌:一段AI视频把全人类拉入虚拟现场(小兔子蹦迪表情包)

曾认为自己不会被AI欺骗的一代人,竟然被下面这段兔子蹦床视频给骗了: 此外,该画面背景是静态的;目前较新的AI视频生成技术在呈现视频前景主体方面已经相当出色,但背景往往显得非常超现实,而这段视频却因静态背景…

兔子蹦迪疯传,5亿观看!全球恐慌:一段AI视频把全人类拉入虚拟现场(小兔子蹦迪表情包)