人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)

人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)

在图表问答领域,研究人员通过对人类视觉行为的深入分析,显著提高了大型视觉语言模型(LVLMs)的问答准确性。来自不列颠哥伦比亚大学的Ali Salamatian、Amirhossein Abaskohi和Wan-Cyuan Fan等研究团队推出了名为ChartGaze的新数据集,专注于捕捉人类在解读图表时的注视模式,旨在改善模型在图表问答中的表现。

图表作为传达复杂信息的重要工具,然而现有的视觉语言模型在解读图表时往往偏向于不重要的细节,导致准确性下降。研究团队通过使用高精度眼动追踪设备,记录参与者在回答图表相关问题时的注视点,从而创建出一个包含4638个注视图的丰富数据集。这一方法的优势在于,相比于传统的鼠标移动追踪,眼动追踪提供了更精确、一致的注意力地图,确保了数据的可靠性。

ChartGaze数据集的构建过程中,研究人员从VisText和ChartQA数据集中提取真实世界的图表,并利用GPT-4o生成每个图表标题的3至5个问答对,确保了数据集的丰富性和多样性。通过系统的分析,研究团队发现LVLMs在解读图表时的关注点与人类的注视模式存在显著差异,这影响了模型的可解释性和回答的准确性。

为了解决这一问题,研究团队提出了一种注视引导的注意力优化技术,旨在将模型的注意力与人类的注视点对齐。经过实验证明,这一方法能够将图表问答的准确率提高多达2.56个百分点,显著优于仅依赖语言损失的传统微调方法。此外,经过注视监督训练的模型生成的注意力图更具可解释性,更好地反映了人类的视觉关注,增强了模型在金融和科学研究等高风险领域的透明度和可靠性。

该研究不仅展示了人类视觉对图表理解的重要性,还为未来的研究指明了方向。虽然目前的成果主要集中在简单图表和是/否问题上,研究团队计划进一步探索如何将注意力优化整合到指令调优的模型中,并扩展到更复杂的图表类型和问题格式,以更全面地理解任务复杂性对注意力的影响。这一创新的研究成果无疑为图表问答系统的未来发展奠定了坚实基础。

特别声明:[人类视觉对图表问答的影响:新数据集提升模型准确率(人类视觉规律)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

退出春晚,被综艺“开除”,跨行做导演,43岁的贾玲后悔了吗?(春晚淘汰后)

比如可能让她一夜成名的相声,当年她是冯巩的得意门生,凭着酷口相声在小剧场摸爬滚打,后来和白凯南一起上了春晚。 更牛的是连好莱坞都盯上这片子了,索尼影业在2023年就宣布要购买《你好,李焕英》的英文版翻拍权。…

退出春晚,被综艺“开除”,跨行做导演,43岁的贾玲后悔了吗?(春晚淘汰后)

影视会员批发货源渠道优质分享(影视会员批发货源)

通过与这些平台的深度绑定,久信权益为用户提供了广泛且真实有效的影视会员权益,消费者购买并充值后,可毫无阻碍地享受与官方直接购买完全一致的权益,从高清视频观看、免除广告干扰,到优先观看热门剧集等,一应俱全。 二…

影视会员批发货源渠道优质分享(影视会员批发货源)

李小萌晒庆生照,40岁了脸还像小姑娘,王雷和俩儿子出镜太温馨(李小萌表演视频)

最令人动容的是,她的丈夫王雷带着两个可爱的儿子一同出席了这场温馨的聚会。庆生现场,一家四口共同切蛋糕的画面尤为温馨,两个孩子圆润的脸蛋和纯真的笑容为这个幸福的家庭增添了更多欢乐。这个四口之家的温馨画面,不仅记…

李小萌晒庆生照,40岁了脸还像小姑娘,王雷和俩儿子出镜太温馨(李小萌表演视频)

自古“叠名”出美人,这8位名字带叠字的女星,一个比一个美

穆婷婷是个长相比较有特色的女『明星』️,娇小玲珑,甜美俏皮,演的了傻白甜,也演的了冰山美人。 甘婷婷在『娱乐圈』️差不多是三四线女星,最令人印象深刻的角色应该就是“潘金莲”了,除此之外,她还出演过十月围城、新萧十一郎等…

自古“叠名”出美人,这8位名字带叠字的女星,一个比一个美

高端磨砂渐变玻璃贴膜怎么选?透光不透人,私密又高级(渐变磨砂玻璃材质)

办公室玻璃隔断想要既保持通透采光又提升私密性?高端磨砂渐变静电无胶贴膜正是理想之选!无需胶水、可重复使用,贴合度高、视觉高级,搭配渐变纹理营造空间层次感。本文带你搞懂什么是磨砂渐变贴膜、核心参数怎么挑、适合谁用、如何避免踩坑,还附上选购建议

高端磨砂渐变玻璃贴膜怎么选?透光不透人,私密又高级(渐变磨砂玻璃材质)