AI知道“你在看哪里”:明略科技明敬PRE-MAP模型,破解你的注意力密码

AI知道“你在看哪里”:明略科技明敬PRE-MAP模型,破解你的注意力密码

AI不再只“看得见”,它开始“看得懂”——不仅懂你在视频中注视的具体位置,更懂你是谁,并据此做出精准预测。这正是明略科技的研究成果《PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction》的核心突破,该论文近日已被全球多媒体技术领域的旗舰会议ACM MM 2025正式接收,得到了广泛关注。

这项创新成果的目标看似单一:预测用户在广告视频中的注视点。但其背后的技术矩阵堪称“多模态AI的顶配组合”:大语言模型(LLM)、多模态学习、个体属性建模、眼动数据采集、高分辨率图像处理与强化学习。

图片来源:明略科技

当它被置于“注意力即价值”的广告营销场景中时,一场真正的变革已悄然开启。

个性化注意力预测:广告测量的下一张王牌

广告最看重的,是“受众是否看到了重要信息”,而不是广告主“在广告里放置了什么信息”。但这个“看”,却没有被真正精确地量化过。

过去,无论是焦点小组、A/B Test,还是后期行为追踪,都属于事后统计,是对有限样本的效果复盘。而明略科技的最新研究则带来了新的解题方法:用AI模拟用户的真实注视行为,提前预判人对广告内容的注意力分布,并实现个性化差异呈现。

它是如何做到的?明略科技以两项基础创新为支点:一个是超大规模的真实眼动数据集SPA-ADV;另一个是创新的注视点预测模型明敬PRE-MAP。

SPA-ADV数据集涵盖了4500多名不同年龄段、性别的真实用户对486个精选广告视频的细致注视记录,包括眼球运动轨迹以及精确的注视点坐标等真实视觉行为,为个性化显著性建模提供了高质量的基准数据支持。

图片来源:明略科技

这也为明敬PRE-MAP的“个性化预测”能力提供了丰富的“数据燃油”,使它不仅能够预测“人会看哪里”,更能进一步预判“一个30岁女性可能会在视频第3秒看向画面的哪个区域”。

这标志着广告评估领域,正迎来从“群体平均”到“个体洞察”的结构性跃迁。

大模型的新任务:从生成到认知推理

与当前大热的文生图、视频生成不同,明敬PRE-MAP大模型的应用不是为了生成内容,而是为了“感知内容,并推理人类视觉行为”。这正是多模态大模型迈向下一阶段的关键能力:理解人类是如何感知世界的,从而更好地发挥人机协同的价值。

明敬PRE-MAP背后的建模逻辑很清晰:将用户属性(如年龄、性别)通过Prompt嵌入模型,配合高分辨率广告视频段,输出用户在该场景中可能产生的注视点坐标,并生成可视化热图。

从技术实现来看,明敬PRE-MAP抛弃了传统的低分辨率特征图上采样重建方法,采用了“点式预测”机制,即直接输出一帧图像中用户可能注视的若干个点。比起“模糊的热区”,这种机制可以更真实、更精准地还原人眼的真实运动轨迹。

图片来源:明略科技

论文的实验结果充分验证了这一点。与SUM、Transalnet等多个主流模型相比,明敬PRE-MAP在各项评估指标上均表现出显著优势,其预测的注视点分布精准,边缘与人眼的真实注视位置高度吻合。

随着模型持续演进,未来的明敬PRE-MAP甚至可能明确指出:“该用户的第一注视点是左上角人物的眼睛,第二注视点是右下角的品牌Logo,第三是中央字幕。”

这种高精度点式输出,对广告主而言价值巨大:它不只是“知道你是否在看”,而是“知道你先看哪、后看哪、忽略了什么”,并据此优化广告内容,抓住更多注意力。

技术解构:精准和个性化的双重突破

明敬PRE-MAP模型的技术核心包括两部分,分别解决了“个性化预测”“精准定位”的技术难题。

一方面,模型通过多属性点式注意力建模进一步增强预测位置的精度,让大模型更容易精确定位不同属性人们的注意力焦点;另一方面,模型通过C-GRPO机制让预测结果更容易被清晰呈现:

● 多属性点式注意力建模(Multi-Attribute Point-Based Attention):基于多模态大模型(MLLMs),融合用户属性(如性别、年龄)与视频语义内容,引导模型在高分辨率视频帧上直接预测个性化注视点,提升预测的针对性与分辨率保真度。

● Consistency Group Relative Policy Optimization(C-GRPO):一种基于强化学习的优化机制,通过对预测点的空间一致性与格式规范进行策略约束,进一步增强个性化注视点预测的可控性与精度。

图片来源:明略科技

广告之外的更大图景:把“人”的认知反馈嵌入AI系统

明敬PRE-MAP的研究无疑是广告测量领域的一剂强心针,但它背后的技术逻辑价值远不止于此。它提供了一套新的思路——AI系统应当学会感知、理解并模拟人类的主观认知反馈,并将其融入生成与推理中。

这对于AI Agent、推荐系统、游戏设计、教育内容编排等不同场景同样具有启发意义。例如:

教育视频如何根据不同年龄段学生的注意力模式优化镜头?

游戏中的视觉引导如何为不同玩家群体进行个性化设计?

短视频封面生成系统能否优先考虑不同用户的视觉兴趣点?

明敬PRE-MAP所构建的高分辨率注视预测 + 多模态大模型建模 + 可控输出机制,为这些问题提供了新的启示。

长远来看,对包括广告在内的广泛行业而言,它将使“创意”成为一个更可量化、可测试、可优化的技术问题。对AI大模型的发展而言,它是将“人类感知”嵌入大模型的前瞻性尝试。理想的未来图景中,AI能够理解人类的需求、意图和情感,并提供相应的支持与解决方案,人类也能更好地理解AI的内容生成与决策过程,从而建立更加和谐有效的人机关系。

特别声明:该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

娱圈隐形富豪带细14岁孕妻行美术馆,怀孕正面照曝光个样靓到发光(娱乐圈隐藏富豪)

他与育有三十岁圈外女子叶萱的新欢,不久前喜讯连连,宣布即将迎来他们的小生命。而在这背后,叶萱不仅是方力申的妻子,更是近日在Netflix纪录片《以神之名》中,勇敢讲述自己曾遭受性侵经历的受害者。 总之,生活…

娱圈隐形富豪带细14岁孕妻行美术馆,怀孕正面照曝光个样靓到发光(娱乐圈隐藏富豪)

锦然新科技取得输电线路用引流板预防发热装置专利,使耐张线夹引流板运行中设备线夹螺栓松动概率减小(锦然是什么意思)

专利摘要显示,本实用新型公开了一种输电线路用引流板预防发热装置,具体涉及输电线路技术领域,包括耐张线夹,所述耐张线夹外壁固定连接有第一引流板,所述第一引流板外壁一侧设有第二引流板。 天眼查资料显示,深圳市锦…

锦然新科技取得输电线路用引流板预防发热装置专利,使耐张线夹引流板运行中设备线夹螺栓松动概率减小(锦然是什么意思)

年轻人热衷工位能量舱(年轻人布置工位)

如今,职场人的工位正成为“情绪经济”的新战场,绿植、精油、治愈系台历、漂亮糖果盒、降噪耳机、微景观等小器物,正构筑起白领们的“工位能量舱”。 从事自媒体工作的慧子发现自己工作效率降低时,看看工位上闺蜜送她的“…

年轻人热衷工位能量舱(年轻人布置工位)

为了星辰大海?上市公司跨界机器人赛道成热潮(为了星辰大海的门票还有诗和远方的路费)

首程控股只是上市公司中跨界机器人赛道的一个缩影,近两三年以来,以汽车、家电及智能手机领域为代表的企业,掀起一轮跨界延伸入局机器人行业的旋风。 实际上,国内在机器人领域的技术迭代速度,已与特斯拉等海外科技巨…

为了星辰大海?上市公司跨界机器人赛道成热潮(为了星辰大海的门票还有诗和远方的路费)

江苏宇拓电力输电线路分布式故障监测装置:数据安全与抗干扰驱动的可靠感知(江苏拓宇机械制造有限公司)

传统装置因“数据传输未加密(明文传输占比80%)、抗干扰能力弱(电磁干扰下误码率>10⁻³)、物理防护不足(防篡改能力缺失)”,导致数据泄露、伪造、干扰等安全事件频发(某省级电网2024年统计显示,30%的故…

江苏宇拓电力输电线路分布式故障监测装置:数据安全与抗干扰驱动的可靠感知(江苏拓宇机械制造有限公司)