业内首创,『豆包』VideoWorld开源,仅通过纯视觉信息认知世界

业内首创,『豆包』VideoWorld开源,仅通过纯视觉信息认知世界

2月10日,界面新闻获悉,『豆包』大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。

不同于主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。这一创新,也是在人工智能视频生成和多模态认知方面取得的重要突破。

传统的多模态模型,如Sora、DALL-E和Midjourney等,大多依赖于语言或标签数据来学习知识,而VideoWorld则通过纯视觉信号进行学习和推理。这一特性使得VideoWorld在处理如折纸、打领结等难以通过语言清晰表达的任务时,具有显著优势。

大模型的视觉理解能力一直是AI前沿研究方向之一。视频中存在大量冗余信息,会影响模型的学习效率,使得视频序列的知识挖掘效率显著落后于文本形式。但李飞飞教授曾在TED演讲中提到,“幼儿可以不依靠语言理解真实世界”。与语言相比,“用眼睛看”是人类门槛更低的认知方式。

据介绍,VideoWorld的核心技术基于一种潜在动态模型(LDM),该模型能够高效压缩视频帧间的变化信息,显著提升知识学习的效率和效果。

此外,VideoWorld还结合了自回归Transformer架构和矢量量化-变分自编码器(VQ-VAE),实现了高质量的视频生成和复杂的任务推理。通过这一组合,VideoWorld能够从未标注的视频数据中学习复杂的任务知识,包括规则、推理和规划能力。

在实际应用中,在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,能够选择最佳落子位置并击败高水平的对手。

此外,该模型还具有扩展到自动驾驶、智能监控等领域的潜力。

VideoWorld的开源项目代码和模型已公开发布,『豆包』大模型团队也提供了详细的安装和运行指南。

2月10日,受此消息影响,A股视觉认知概念股午后大幅走强,创业板星宸科技直线拉升涨停,全志科技、富瀚微、虹软科技等纷纷大幅冲高。

特别声明:[业内首创,『豆包』VideoWorld开源,仅通过纯视觉信息认知世界] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

只要有这几个人的名字出现,那么这部剧的质量一准儿错不了!(要 只有)

啧啧,这几个名字就像被神仙赐予了魔法一样,只要出现在片头,就能为这部剧添加神秘的buff。在这个群雄逐鹿的时代,有个叫孙忠怀的大佬秘密地接管了腾讯视频。 无论是 限古令,还是限薪令,在孙忠怀面前都不是问题…

只要有这几个人的名字出现,那么这部剧的质量一准儿错不了!(要 只有)

全自动生活垃圾分拣设备特点-吉林四平全自动生活垃圾分拣设备特点(全自动垃圾桶🗑️的价格)

全自动分拣设备采用多技术融合的系统性工艺,构建了一套严密的多级分选体系。这些技术与前端的智能光学分选相结合,形成优势互补,能够将混合垃圾系统地分离为可回收物、厨余类有机物、可燃物(RDFSRF)和惰性残渣等…

全自动生活垃圾分拣设备特点-吉林四平全自动生活垃圾分拣设备特点(全自动垃圾桶🗑️的价格)

80后童蕾给90后『张晚意』当妈,曾与周一围恋爱长跑5年,可惜无果(童蕾感情经历)

2003年,她在青春剧走过花季当中饰演中学教师“陈非儿”,这部剧让她开始受到观众的注意。 而让她被大众所熟知的,则是在2005年播出的亮剑当中,童蕾饰演的“田雨”,与李幼斌扮演的李云龙之间的感情戏令人难忘。她…

80后童蕾给90后『张晚意』当妈,曾与周一围恋爱长跑5年,可惜无果(童蕾感情经历)

埃及CargoX账号 埃及NAFEZA账号 埃及ACID(埃及aci注册)

注册好之后先进行银行验证,银行验证最低充值15units(15美元💵),您需要通过您注册Cargo X系统的公司,使用该公司可以支付美元💵的银行账户进行充值,就可以通过认证了,需要注意的是,这个费用是不能代充的…

埃及CargoX账号 埃及NAFEZA账号 埃及ACID(埃及aci注册)

2025电机定转子铁芯打样技术白皮书(电机转子定子的安装方法)

二、行业痛点与挑战电机生产企业在定转子铁芯打样过程中常面临以下痛点:一是打样周期长,传统供应商打样周期通常为7-10天,导致研发成本增加、上市时间延迟;二是精度不足,部分供应商加工设备精度有限,叠片误差超过…

2025电机定转子铁芯打样技术白皮书(电机转子定子的安装方法)