北大彭宇新教授团队开源细粒度多模态大模型Finedefics

北大彭宇新教授团队开源细粒度多模态大模型Finedefics
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文是北京大学彭宇新教授团队在细粒度多模态大模型领域的最新研究成果,相关论文已被 ICLR 2025 接收,并已开源。

尽管多模态大模型在通用视觉理解任务中表现出色,但不具备细粒度视觉识别能力,这极大制约了多模态大模型的应用与发展。

细粒度视觉识别旨在区分同一粗粒度大类下的不同细粒度子类别,如将鸟类(粗粒度大类)图像区分为西美鸥、灰背鸥、银鸥等(细粒度子类别);将车区分为宝马、奔驰、奥迪等,奥迪区分为 A4、A6、A8 等;将飞机区分为波音 737、波音 747、波音 777、空客 320、空客 380 等。实现对视觉对象的细粒度识别,在现实生产和生活中具有重要的研究和应用价值。

针对这一问题,北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力:对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力,发现了「视觉对象与细粒度子类别未对齐」是限制多模态大模型的细粒度视觉识别能力的关键问题,并提出了细粒度多模态大模型 Finedefics。

首先,Finedefics 通过提示大语言模型构建视觉对象的细粒度属性知识;然后,通过对比学习将细粒度属性知识分别与视觉对象的图像与文本对齐,实现数据 - 知识协同训练。

Finedefics 在 6 个权威细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了 76.84%,相比 Hugging Face 2024 年 4 月发布的 Idefics2 大模型提高了 10.89%。

  • 论文标题:Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
  • 论文链接:https://openreview.net/forum?id=p3NKpom1VL
  • 开源代码:https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
  • 模型地址:https://huggingface.co/StevenHH2000/Finedefics
  • 实验室网址:https://www.wict.pku.edu.cn/mipl

背景与动机

多模态大模型是指提取并融合文本、图像、视频等多模态数据表征,通过大语言模型进行推理,经过微调后适配到多种下游任务的基础模型。

尽管现有多模态大模型在视觉问答、推理等多种任务上表现出色,但存在识别粒度粗的局限性:因为多模态大模型的视觉识别能力依赖大量训练数据,由于训练数据的细粒度子类别的标注成本巨大,实际也是无法细粒度标注的,导致现有多模态大模型缺乏细粒度视觉识别能力。

图 1. 多模态大模型在细粒度视觉识别上所需的 3 项能力

本文系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力,如图 1 所示,包括:

1. 对象信息提取能力:视觉编码器能够从图像中准确并全面地提取区分不同细粒度子类别的辨识性信息;

2. 类别知识储备能力:大语言模型能够储备充分的细粒度子类别知识;

3. 对象 - 类别对齐能力:基于提取的辨识性视觉信息与储备的细粒度子类别知识,在大语言模型的表征空间中对齐视觉对象与细粒度子类别,以建立输入图像到子类别名称的细粒度映射关系。

实验结果表明,「视觉对象与细粒度子类别未对齐」是限制多模态大模型具备细粒度视觉识别能力的关键问题。

技术方案

为解决视觉对象与细粒度子类别未对齐的问题,本文提出了细粒度多模态大模型 Finedefics

如图 2 所示,Finedefics 构建过程包含 2 个主要步骤:

1. 首先通过属性描述构建,利用辨识属性挖掘获得区分细粒度子类别的关键特征,例如区分猫的品种的辨识性属性「毛色」、「毛型」、「毛皮质地」等,并利用视觉属性提取获得图像对象的辨识性属性对,例如「毛色:棕褐色」、「毛型:带有斑纹」、「毛皮质地:质地柔软」等,再利用属性描述总结将属性对转化为自然语言形式的对象属性描述,例如「图中小猫的毛为棕褐色,带有斑纹,质地柔软」;

2. 然后通过属性增强对齐,将构建的对象属性描述作为视觉对象与细粒度子类别的共同对齐目标,通过对象 - 属性、属性 - 类别、类别 - 类别对比学习充分建立视觉对象与细粒度子类别的细粒度对应关系,再利用以识别为中心的指令微调促进模型遵循细粒度视觉识别的任务指令。具体地,包含如下两个训练阶段:

图 2. 细粒度多模态大模型(Finedefics)框架图

阶段 I:属性增强的对比学习

实验结果

表 1. 细粒度多模态大模型(Finedefics)实验结果

表 1 的实验结果表明,Finedefics 在 6 个权威细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了 76.84%,相比阿里 2024 年 1 月发布的通义千问大模型(Qwen-VL-Chat)提高了 9.43%,相比 Hugging Face 2024 年 4 月发布的 Idefics2 大模型提高了 10.89%

图 3. 视觉对象 - 细粒度子类别对齐效果可视化

图 4. 细粒度多模态大模型(Finedefics)案例展示

图 3 的可视化结果表明,(a)仅微调大模型,视觉对象与细粒度子类别表征的分布差异大;(b)仅引入对象 - 类别对比学习时,上述分布差异仍然难以降低;(c)同时引入对象 - 属性、属性 - 类别、类别 - 类别对比学习时,分布差异显著降低,优化了视觉对象与细粒度子类别的对齐效果,提升了多模态大模型的细粒度视觉识别能力。

图 4 的案例展示表明,相较于 Idefics2,本方法 Finedefics 能成功捕捉视觉对象特征的细微区别,并将其与相似的细粒度子类别对象显著区分。

更多详情,请参见原论文。

特别声明:[北大彭宇新教授团队开源细粒度多模态大模型Finedefics] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

央视开播!40集历史剧来了,白宇周雨彤朱亚文主演,值得一看!(央视频道开播)

这剧讲的是五代十国时期,吴越国王钱弘俶和赵匡胤的故事。 白宇这次演钱弘俶,从一开始散漫王子变成扛责任的君主。预告片里他站在大殿上皱眉头,眼泪差点掉出来,那表情挺真实的。钱弘俶去汴梁那场戏细节多,比如路边饿殍和…

央视开播!40集历史剧来了,白宇周雨彤朱亚文主演,值得一看!(央视频道开播)

短剧热播《走错婚礼娶对妻》生活就像戏剧,总是在不经意间上演新的篇章。(走错路原著小说)

两人在乌龙婚礼后共同成长,相互扶持,共同面对生活的种种挑战。 角色成长:面对生活中的种种挑战,男女主角共同成长,展现出现实生活中的坚韧与勇气。本剧通过讲述一场乌龙婚礼背后的浪漫故事,为观众带来一场视觉与情感的…

短剧热播《走错婚礼娶对妻》生活就像戏剧,总是在不经意间上演新的篇章。(走错路原著小说)

金星在法国的丑照曝光,被人描述为“终于向现实低头了”(金星在法国的钱)

看到有网友的评论还挺中肯,他说金星如果不变性,应该会成为一位艺术家,因为她的口才和演技都很不错,不过总觉得她带着一点傲娇的范儿,就像个大牌一样。 不过,拿金星的外貌说事现在也显得没必要,毕竟大家都在变老,任何…

金星在法国的丑照曝光,被人描述为“终于向现实低头了”(金星在法国的钱)

美出口审批机构被曝几近瘫痪 审批延误引担忧(美国出口认证)

美国在逆全球化和供应链脱钩的道路上越走越远。特朗普政府上台后,不断滥用出口管制机制,加强了对芯片等高科技产品的出口审核。8月1日的消息显示,美国商务部下属负责出口审批程序的机构出现内部动荡,几乎处于瘫痪状态

美出口审批机构被曝几近瘫痪 审批延误引担忧(美国出口认证)

央媒怒批、目不识丁,这几位德不配位的“文盲”明星凭什么走红?(央媒头版重磅报道)

就在她风光无限的闯荡内娱时,这条“学历造假”的曝光,却直接将她拉下了神坛。尤其是当她凭借《送你一朵小红花》摘得金鸡影面对采访后,她的文盲本质可谓是一览无遗。 虽然自从她拿到影后之后,许多人都诟病她的表演形…

央媒怒批、目不识丁,这几位德不配位的“文盲”明星凭什么走红?(央媒头版重磅报道)