MIT团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

MIT团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

机器之心报道

机器之心编辑部

Transformer 很成功,更一般而言,我们甚至可以将(仅编码器)Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布(iid)采用假设构建的,因此很自然可以尝试将 Transformer 用于它们。

针对经典统计问题训练 Transformer 的好处有两个:

  • 可以得到更好的估计器;
  • 可以在一个有比 NLP 更加容易和更好理解的统计结构的领域中阐释 Transformer 的工作机制。

近日,MIT 的三位研究者 Anzo Teh、Mark Jabbour 和 Yury Polyanskiy 宣称找到了一个可以满足这种需求 「可能存在的最简单的这类统计任务」,即 empirical Bayes (EB) mean estimation(经验贝叶斯均值估计)。

  • 论文标题:Solving Empirical Bayes via Transformers
  • 论文地址:https://arxiv.org/pdf/2502.09844

该团队表示:「我们认为 Transformer 适用于 EB,因为 EB 估计器会自然表现出收缩效应(即让均值估计偏向先验的最近模式),而 Transformer 也是如此,注意力机制会倾向于关注聚类 token。」对注意力机制的相关研究可参阅论文《The emergence of clusters in self-attention dynamics》。

此外,该团队还发现,EB 均值估计问题具有置换不变性,无需位置编码。

另一方面,人们非常需要这一问题的估计器,但麻烦的是最好的经典估计器(非参数最大似然 / NPMLE)也存在收敛速度缓慢的问题。

MIT 这个三人团队的研究表明 Transformer 不仅性能表现胜过 NPMLE,同时还能以其近 100 倍的速度运行!

总之,本文证明了即使对于经典的统计问题,Transformer 也提供了一种优秀的替代方案(在运行时间和性能方面)。对于简单的 1D 泊松 - EB 任务,本文还发现,即使是参数规模非常小的 Transformer(

定义 EB 任务

jrhz.info

理解 Transformer 是如何工作的

论文第四章试图解释 Transformer 是如何工作的,并从两个角度来实现这一目标。首先,他们建立了关于 Transformer 在解决经验贝叶斯任务中的表达能力的理论结果。其次,他们使用线性探针来研究 Transformer 的预测机制。

本文从 clipped Robbins 估计器开始,其定义如下:

得出:transformer 可以学习到任意精度的 clipped Robbins 估计器。即:

类似地,本文证明了 transformer 还可以近似 NPMLE。即:

完整的证明过程在附录 B 中,论文正文只提供了一个大致的概述。

接下来,研究者探讨了 Transformer 模型是如何学习的。他们通过线性探针(linear probe)技术来研究 Transformer 学习机制。

这项研究的目的是要了解 Transformer 模型是否像 Robbins 估计或 NPMLE 那样工作。图 1 中的结果显示,Transformer 模型不仅仅是学习这些特征,而是在学习贝叶斯估计器是什么。

总结而言,本章证明了 Transformer 可以近似 Robbins 估计器和 NPMLE(非参数最大似然估计器)。

此外,本文还使用线性探针(linear probes)来证明,经过预训练的 Transformer 的工作方式与上述两种估计器不同。

合成数据实验与真实数据实验

表 1 为模型参数设置,本文选取了两个模型,并根据层数将它们命名为 T18 和 T24,两个模型都大约有 25.6k 个参数。此外,本文还定义了 T18r 和 T24r 两个模型。

在这个实验中,本文评估了 Transformer 适应不同序列长度的能力。图 2 报告了 4096 个先验的平均后悔值。

图 6 显示 transformer 的运行时间与 ERM 的运行时间相当。

合成实验的一个重要意义在于,Transformer 展示了长度泛化能力:即使在未见过的先验分布上,当测试序列长度达到训练长度的 4 倍时,它们仍能实现更低的后悔值。这一点尤为重要,因为多项研究表明 Transformer 在长度泛化方面的表现参差不齐 [ZAC+24, WJW+24, KPNR+24, AWA+22]。

最后,本文还在真实数据集上对这些 Transformer 模型进行了评估,以完成类似的预测任务,结果表明它们通常优于经典基线方法,并且在速度方面大幅领先。

从表 3 可以看出,在大多数数据集中,Transformer 比传统方法有显著的改进。

总之,本文证明了 Transformer 能够通过上下文学习(in-context learning)掌握 EB - 泊松问题。实验过程中,作者展示了随着序列长度的增加,Transformer 能够实现后悔值的下降。在真实数据集上,本文证明了这些预训练的 Transformer 在大多数情况下能够超越经典基线方法。

特别声明:[MIT团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

包你满意!格力电器9款全球首创新品在包头发布!(格力包装)

空调搭载格力自主研发的AI节能芯片,节能达13.6%,还会在使用中不断学习用户习惯,实现“越用越省电”的智能效果。 此次格力9款新品的集中发布和“健康家”门店的创新实践,不仅为消费者带来了更优质的产品选择,…

包你满意!格力电器9款全球首创新品在包头发布!(格力包装)

惊!国安部喊你警惕AI数据投毒,0.01%虚假数据就能搞出大麻烦!(国安部厉害不)

这可不是危言耸听,AI在咱生活里越来越常见,要是数据被“下毒”,那后果简直不敢想!在金融领域,不法分子要是利用数据投毒干扰金融AI,让它给出错误的市场分析,可能引发股价大幅波动,无数人的财富就打了水漂;医疗上…

惊!国安部喊你警惕AI数据投毒,0.01%虚假数据就能搞出大麻烦!(国安部厉害不)

罗海琼:37岁嫁华谊总裁,婚后连生两女,如今一家四口澳洲度假(罗海琼是谁的老婆)

在娱乐圈,明星的婚礼总是备受瞩目,但2010年那场不同寻常的婚礼,却成了话题的焦点。 一次酒会上,罗海琼与一名陌生男子开始交谈,最终她将自己的困惑和追求倾诉了出来。从那时起,罗海琼的事业迎来了转机,她不仅在工…

罗海琼:37岁嫁华谊总裁,婚后连生两女,如今一家四口澳洲度假(罗海琼是谁的老婆)

时尚袜子:脚踝上的魔法,唤醒穿搭的隐秘灵魂(脚踝穿袜子)

复古学院派:乐福鞋或牛津鞋邂逅一双及踝或略高于脚踝的纯色(深蓝、酒红、墨绿、学院灰)或经典菱格纹条纹短袜,是永不褪色的书卷气与英伦格调。俏皮甜酷风: 玛丽珍鞋、小皮鞋甚至运动鞋,大胆搭配蕾丝边短袜、带有…

时尚袜子:脚踝上的魔法,唤醒穿搭的隐秘灵魂(脚踝穿袜子)

Excel图表配色有高招(excel图表设计颜色)

选中取色器后,按提示在插入的样张图片区域点击,选择自己所需的配色。 图6 在Excel图表中填充取色器获取的颜色如果仅仅是展示所用,还可以直接在PPT点击“插入→图表→饼状图”,这样在PPT中可以直接生成饼…

Excel图表配色有高招(excel图表设计颜色)