人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)

人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)

在图表问答领域,研究人员通过对人类视觉行为的深入分析,显著提高了大型视觉语言模型(LVLMs)的问答准确性。来自不列颠哥伦比亚大学的Ali Salamatian、Amirhossein Abaskohi和Wan-Cyuan Fan等研究团队推出了名为ChartGaze的新数据集,专注于捕捉人类在解读图表时的注视模式,旨在改善模型在图表问答中的表现。

图表作为传达复杂信息的重要工具,然而现有的视觉语言模型在解读图表时往往偏向于不重要的细节,导致准确性下降。研究团队通过使用高精度眼动追踪设备,记录参与者在回答图表相关问题时的注视点,从而创建出一个包含4638个注视图的丰富数据集。这一方法的优势在于,相比于传统的鼠标移动追踪,眼动追踪提供了更精确、一致的注意力地图,确保了数据的可靠性。

ChartGaze数据集的构建过程中,研究人员从VisText和ChartQA数据集中提取真实世界的图表,并利用GPT-4o生成每个图表标题的3至5个问答对,确保了数据集的丰富性和多样性。通过系统的分析,研究团队发现LVLMs在解读图表时的关注点与人类的注视模式存在显著差异,这影响了模型的可解释性和回答的准确性。

为了解决这一问题,研究团队提出了一种注视引导的注意力优化技术,旨在将模型的注意力与人类的注视点对齐。经过实验证明,这一方法能够将图表问答的准确率提高多达2.56个百分点,显著优于仅依赖语言损失的传统微调方法。此外,经过注视监督训练的模型生成的注意力图更具可解释性,更好地反映了人类的视觉关注,增强了模型在金融和科学研究等高风险领域的透明度和可靠性。

该研究不仅展示了人类视觉对图表理解的重要性,还为未来的研究指明了方向。虽然目前的成果主要集中在简单图表和是/否问题上,研究团队计划进一步探索如何将注意力优化整合到指令调优的模型中,并扩展到更复杂的图表类型和问题格式,以更全面地理解任务复杂性对注意力的影响。这一创新的研究成果无疑为图表问答系统的未来发展奠定了坚实基础。

特别声明:[人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

蓝宝澳白富贵花,18k超厚白金,耳拍设计,12-13mm正圆完美极光澳白,蓝宝3.7克拉、钻石1.8克拉,珠宝感拉满,贵气十足!

蓝宝澳白富贵花,18k超厚白金,耳拍设计,12-13mm正圆完美极光澳白,蓝宝3.7克拉、钻石1.8克拉,珠宝感拉满,贵气十足!

揭秘超微硬盘架MCP-220-00043-0N:3.5寸转2.5寸的创新之道(超微主板磁盘阵列)

你知道吗?在『服务器』领域,尺寸之争从未停止。本文将深入探讨超微3.5寸转2.5寸硬盘架MCP-220-00043-0N的独特之处及其在『服务器』架构中的重要作用。从设计理念到实际应用场景,全面解析这款硬盘架的奥秘。 该硬盘架巧妙解决了传统『服务器』中

揭秘超微硬盘架MCP-220-00043-0N:3.5寸转2.5寸的创新之道(超微主板磁盘阵列)

长沙网红街店铺外墙垮塌 2名女孩罹难 装修事故引发关注(长沙网红街叫什么名字)

10月31日晚,长沙开福区潮宗街一正在装修的店铺外墙连同脚手架发生垮塌,现场救出4名受伤的被困人员。受伤者为三女一男,均未满25岁。两名女孩经抢救无效不幸罹难,其中一人19岁为在读大学生,另一人24岁已工作

长沙网红街店铺外墙垮塌 2名女孩罹难 装修事故引发关注(长沙网红街叫什么名字)

孕期吃哈密瓜胎儿好吗 记住“1个量2个洗” 母婴都安心(孕期吃哈密瓜胎动厉害)

  孕期饮食关乎母婴健康,面对香甜多汁的哈密瓜,不少准妈妈既想品尝又心存顾虑:吃哈密瓜对胎儿究竟好不好?其实,在科学合理食用的前提下,哈密瓜能为孕期补充多种关键营养素,对胎儿发育有积极作用,但也存在一些食用禁忌。孕期吃哈密瓜好不好?本文将全

孕期吃哈密瓜胎儿好吗 记住“1个量2个洗” 母婴都安心(孕期吃哈密瓜胎动厉害)

外贸埃及清关ACID号码注册申请讲解(埃及清关需要什么资料)

企业在使用CARGOX时,只需在线提交相关的企业信息与货物信息,系统会自动生成一个高标准的注册编号。 审核成功后,用户可以使用注册的账号和密码登录CargoX平台,开始使用各种『数字化』物流工具。获得编码后,企业…

外贸埃及清关ACID号码注册申请讲解(埃及清关需要什么资料)