人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)

在图表问答领域,研究人员通过对人类视觉行为的深入分析,显著提高了大型视觉语言模型(LVLMs)的问答准确性。来自不列颠哥伦比亚大学的Ali Salamatian、Amirhossein Abaskohi和Wan-Cyuan Fan等研究团队推出了名为ChartGaze的新数据集,专注于捕捉人类在解读图表时的注视模式,旨在改善模型在图表问答中的表现。

图表作为传达复杂信息的重要工具,然而现有的视觉语言模型在解读图表时往往偏向于不重要的细节,导致准确性下降。研究团队通过使用高精度眼动追踪设备,记录参与者在回答图表相关问题时的注视点,从而创建出一个包含4638个注视图的丰富数据集。这一方法的优势在于,相比于传统的鼠标移动追踪,眼动追踪提供了更精确、一致的注意力地图,确保了数据的可靠性。

ChartGaze数据集的构建过程中,研究人员从VisText和ChartQA数据集中提取真实世界的图表,并利用GPT-4o生成每个图表标题的3至5个问答对,确保了数据集的丰富性和多样性。通过系统的分析,研究团队发现LVLMs在解读图表时的关注点与人类的注视模式存在显著差异,这影响了模型的可解释性和回答的准确性。

为了解决这一问题,研究团队提出了一种注视引导的注意力优化技术,旨在将模型的注意力与人类的注视点对齐。经过实验证明,这一方法能够将图表问答的准确率提高多达2.56个百分点,显著优于仅依赖语言损失的传统微调方法。此外,经过注视监督训练的模型生成的注意力图更具可解释性,更好地反映了人类的视觉关注,增强了模型在金融和科学研究等高风险领域的透明度和可靠性。

该研究不仅展示了人类视觉对图表理解的重要性,还为未来的研究指明了方向。虽然目前的成果主要集中在简单图表和是/否问题上,研究团队计划进一步探索如何将注意力优化整合到指令调优的模型中,并扩展到更复杂的图表类型和问题格式,以更全面地理解任务复杂性对注意力的影响。这一创新的研究成果无疑为图表问答系统的未来发展奠定了坚实基础。

特别声明:[人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『郭晶晶』代言唇膏💄💄被查,食品级三个字惹大麻烦,大家到底在担心什么(『郭晶晶』代言的广告视频)

1月23日,《都市时报》发出了一条消息:『郭晶晶』和『刘涛』一起代言的一个婴童护理品牌,在宣传自家润唇膏💄💄时,把它标成了食品级。她确实看过初版文案,但品牌后来改了两版,加入了食品级,她没有再过目——这不是失职,而是流程…

『郭晶晶』代言唇膏💄💄被查,食品级三个字惹大麻烦,大家到底在担心什么(『郭晶晶』代言的广告视频)

副业不用出门找!这6个可靠的副业居家兼职平台,零门槛、结算快、大厂背书(副业想找份副业来做)

它的主要优势有两个:一是佣金相对较高,因为很多任务直接来自品牌方或一手服务商,减少了中间差价;二是结算很灵活,不少任务支持日结或单结,款项通过微信等渠道直接到账,提现体验比较好。 有时间,想入门:如果你只有…

副业不用出门找!这6个可靠的副业居家兼职平台,零门槛、结算快、大厂背书(副业想找份副业来做)

被显示和白人搂抱、和富二代在一起,看完直播 才明白『宋祖儿』为啥被评论(和白人谈恋爱什么感觉)

更让网友心生不满的是,『宋祖儿』曾因为税务问题遭遇曝光,曾被揭发偷税漏税,最终补交了五百多万的税款和罚款。她靠着朴实接地气的乡土人设吸引了大量观众,但直播中她却坐在三亚的海景豪宅里哭穷,还抱怨儿子在北京挣几十万过…

被显示和白人搂抱、和富二代在一起,看完直播 才明白『宋祖儿』为啥被评论(和白人谈恋爱什么感觉)

大S离世一周年,两个侄女登上ELLE杂志二月刊,像极刚出道的大小S(大s死了)

在1月29日,小S迎来了一个喜讯——她的两个女儿Elly和Lily登上了《ELLE》杂志二月刊的封面。大S曾特别疼爱这两个侄女,尤其是大侄女Elly。小S在与姐姐讨论孩子们喜欢的衣服和饰品时,曾认为孩子…

大S离世一周年,两个侄女登上ELLE杂志二月刊,像极刚出道的大小S(大s死了)

开关电源只用普通电容不用安规电容,忽悠了多少人(开关电源可以通用吗)

当然,便宜的微波炉买也可以,但一定要买正规品牌且经过质检的功能单一的微波炉,别买功能多的杂牌微波炉,用了一段时间不能用,还要再花钱买是小事,万一漏电、起火,造成人身伤害,那可真得不偿失了。 为了售出普通电容…

开关电源只用普通电容不用安规电容,忽悠了多少人(开关电源可以通用吗)