3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

Video-XL-Pro团队投稿

量子位 | 公众号 QbitAI

3B模型超越Meta 7B模型,超长视频理解SOTA刷新了!

来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了Video-XL-Pro,实现近一万帧视频的单卡处理,大海捞针准确率超98%。

现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈:一方面,难以大规模训练超长视频;另一方面,在处理长视频时,仍然面临性能差和效率低的双重挑战。

对此,Video-XL-Pro创新采用“重构式token压缩”技术,并且使用较少的训练数据,在多个基准评测上超越了之前Meta发布的7B模型Apollo-7B,以及同尺寸的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等,项目代码,模型,训练数据均已开源

模型结构

Video-XL-Pro的核心在于其提出的重构性token压缩技术(ReCoT),该技术通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。

ReCoT包含两个关键组件:动态token合成器(DTS)和语义引导掩码(SGM)。

DTS通过轻量级的时空注意力块对token进行压缩,有效捕捉视频中的动态运动;而SGM则通过自适应掩码策略,减少冗余视觉token,从而优化重构学习过程。

这些创新设计使得模型在仅需3B参数的情况下,性能超越了许多7B参数的模型。

此外,为了增强模型对超长视频理解能力,模型还引入了查询选择器,使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。

为了进一步提升训练效率,研究团队还提出了视频数据集剪枝策略。

这些方法通过筛选高质量视频数据,显著降低了计算成本,同时保障模型的性能。

评测基准

Video-XL-Pro选用多个主流视频理解评测基准,对模型进行了全面的评测,对于长视频理解任务,评测了LongVideoBench、MLVU、Video-MME,TempCompass和VNbench

其中MLVU,VideoMME,LongVideoBench集中在评测模型的长视频理解能力。

VNbench则是兼顾长视频与短视频,TempCompass则是评测模型在视频中的时间理解能力。

如表1所示,Video-XL-Pro在多个主流的长视频评测基准上展现了卓越性能。

在MLVU的Dev、Test,以及TempCompass上,VIdeo-XL-Pro均斩获了第一名,不光超越同参数量的知名开源模型qwen2.5-VL-3B和internVL2.5-4B等,也超越了一众7B模型,包括Meta发布的7B模型Apollo-7B等。

在VideoMME,LongVideoBench,Video-XL-Pro也超越了绝大部分同参数量模型,并达到与7B模型相当的水准。

最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。

值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。

Video-XL-Pro还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。

得益于ReCot模块和查询选择器的设计,使得模型可以输入极长的上下文序列,在相同硬件条件下,模型可以以8192帧为输入,达到了近99%的准确率。

时间理解

为了更全面的评估模型性能,我们还选用了经典时间评测基准Charades-STA和最新的长视频时间评测基准V-STaR。

V-STaR注重在极长视频中找出与问题相关的片段,精准回答片段时间范围,现有开源模型在V-STaR中很难取得很好的成绩,即便是Qwen2.5-VL-7B,mIoU得分也仅为11.48。

Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括InternVL2.5-8BQwen2.5-VL-7B,并超越上一代冠军Video-LLaMA3,展现了卓越的长视频时间理解能力,并且在Charades-STA上也有着不俗的表现。

总结

该工作提出了Video-XL-Pro模型,利用自监督学习压缩视觉标记,使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。

Video-XL-Pro在多个主流长视频理解基准评测上表现优异。

模型有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。

目前,模型、代码、训练数据均已开源,以促进长视频理解社区的合作和发展。

论文链接:

https://arxiv.org/abs/2503.18478

代码链接:

https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro

模型链接:

https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B

训练数据链接:

https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training

特别声明:[3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

开售4小时霸榜全平台!当贝S7 Ultra Max以自研光学重塑高端投影

更以“技术透明化”的深度体验,向行业与用户展示了这款旗舰产品在光学引擎、散热系统、对比度控制等六大维度的技术突破。当贝S7 Ultra Max 首次将液冷技术引入消费级市场,通过微通道冷板与相变材料的高效热交…

开售4小时霸榜全平台!当贝S7 Ultra Max以自研光学重塑高端投影

宿迁启动“智慧监管·青蓝砺剑”水上交通专项执法行动

7月30日,宿迁市交通运输综合行政执法支队启动“智慧监管·青蓝砺剑”水上交通专项执法行动。此次行动深度融合科技监管与实战练兵,依托新建成的“京杭大运河宿迁段水上交通监测预警系统”,精准打击突出违法行为,筑牢水…

宿迁启动“智慧监管·青蓝砺剑”水上交通专项执法行动

“打败”两个哥哥,48岁首富女儿上位 打开更多可能性

真正的传承不是复制成功,而是打开更多可能性。近日,马来西亚首富郭鹤年的女儿郭惠光被推到前台,香格里拉集团在港交所发布公告称,她将于8月1日起担任公司首席执行官。郭惠光年少时去海外留学,归来后进入家族企业工作

“打败”两个哥哥,48岁首富女儿上位 打开更多可能性

朱晓琳,从辉煌到沉寂,半生音乐路,一世孤独心(朱晓琳老公)

1984年,才15岁的朱晓琳推出了翻唱歌曲《妈妈的吻》,这首曲子如同一股清泉,迅速在大江南北传唱开来。 如今已经53岁的朱晓琳,依然单身,更多的时间和精力投入到了音乐及公益事业中,她回到扬州打造的“霏霖”音…

朱晓琳,从辉煌到沉寂,半生音乐路,一世孤独心(朱晓琳老公)

郭凯敏:与相伴6年的张芝华离婚后,转身娶尤勇前妻,终收获幸福(郭凯敏的近照)

1991年,他们办理了结婚登记,郭凯敏已在海南发展,刘晓春放弃了北京的工作,陪着他一起去海南。 刘晓春和郭凯敏结婚已经超过30年,她曾演过一些小角色,但主要是支持丈夫的事业。两人共同经历了艰难的日子,随着郭凯…

郭凯敏:与相伴6年的张芝华离婚后,转身娶尤勇前妻,终收获幸福(郭凯敏的近照)