人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)

在图表问答领域,研究人员通过对人类视觉行为的深入分析,显著提高了大型视觉语言模型(LVLMs)的问答准确性。来自不列颠哥伦比亚大学的Ali Salamatian、Amirhossein Abaskohi和Wan-Cyuan Fan等研究团队推出了名为ChartGaze的新数据集,专注于捕捉人类在解读图表时的注视模式,旨在改善模型在图表问答中的表现。

图表作为传达复杂信息的重要工具,然而现有的视觉语言模型在解读图表时往往偏向于不重要的细节,导致准确性下降。研究团队通过使用高精度眼动追踪设备,记录参与者在回答图表相关问题时的注视点,从而创建出一个包含4638个注视图的丰富数据集。这一方法的优势在于,相比于传统的鼠标移动追踪,眼动追踪提供了更精确、一致的注意力地图,确保了数据的可靠性。

ChartGaze数据集的构建过程中,研究人员从VisText和ChartQA数据集中提取真实世界的图表,并利用GPT-4o生成每个图表标题的3至5个问答对,确保了数据集的丰富性和多样性。通过系统的分析,研究团队发现LVLMs在解读图表时的关注点与人类的注视模式存在显著差异,这影响了模型的可解释性和回答的准确性。

为了解决这一问题,研究团队提出了一种注视引导的注意力优化技术,旨在将模型的注意力与人类的注视点对齐。经过实验证明,这一方法能够将图表问答的准确率提高多达2.56个百分点,显著优于仅依赖语言损失的传统微调方法。此外,经过注视监督训练的模型生成的注意力图更具可解释性,更好地反映了人类的视觉关注,增强了模型在金融和科学研究等高风险领域的透明度和可靠性。

该研究不仅展示了人类视觉对图表理解的重要性,还为未来的研究指明了方向。虽然目前的成果主要集中在简单图表和是/否问题上,研究团队计划进一步探索如何将注意力优化整合到指令调优的模型中,并扩展到更复杂的图表类型和问题格式,以更全面地理解任务复杂性对注意力的影响。这一创新的研究成果无疑为图表问答系统的未来发展奠定了坚实基础。

特别声明:[人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

新起点:开启经济新篇章(新起点新开端)

岁暮天寒,暖意东来。中央经济工作会议日前在北京闭幕,世界再次聚焦中国经济巨轮的前行方向。海外人士认为,此次会议不仅为中国经济把脉定向,也为世界经济提供稳定预期、创新动能和机遇清单

新起点:开启经济新篇章(新起点新开端)

她出差一周换脸?我偷翻化妆包发现宝藏……(她出差一周换脸小说)

她出差一周换脸?我偷翻化妆包发现宝藏……(她出差一周换脸小说)

新亚电子:公司产品高频高速铜缆连接线已通过安费诺进入戴尔、惠普、谷歌等知名『服务器』制造商供应链(新亚电子公司简介)

伴随算力持续提升,人工智能『服务器』更新换代浪潮愈发迅猛,公司在稳步推进高频高速铜缆内部线业务稳健发展的同时,积极开拓高频高速铜缆外部线市场领域。(记者 张明双) 免责声明:本文内容与数据仅供参考,不构成投资建…

新亚电子:公司产品高频高速铜缆连接线已通过安费诺进入戴尔、惠普、谷歌等知名『服务器』制造商供应链(新亚电子公司简介)

网红教授张河清悼友文看哭全网 朴素真挚直击心灵(张清河最新消息)

没有人会对一捧土产生情感,直到自己亲手垒起了一座。12月15日,广州大学教授张河清发布文章,用朴实的文字纪念因公殉职的大学室友刘一周,感动了无数网友。张河清表示,他常年上课时随身携带鸡蛋,因为这是好友的习惯

网红教授张河清悼友文看哭全网 朴素真挚直击心灵(张清河最新消息)

2025托盘全电动堆高车怎么选?1吨2.5米含税包送工厂直销是否值得入手?(电动托盘车的作用)

随着仓储物流行业的智能化发展,托盘全电动堆高车成为不少企业的首选。本文为您详细解析选购全电动堆高车的关键要素、预算与配置选择,帮助您做出更明智的投资决策。 全电动堆高车以其环保、高效、易于维护的特点,在仓储物流领域愈发受到欢迎。特别是1吨载

2025托盘全电动堆高车怎么选?1吨2.5米含税包送工厂直销是否值得入手?(电动托盘车的作用)