该团队表示:「我们认为 Transformer 适用于 EB,因为 EB 估计器会自然表现出收缩效应(即让均值估计偏向先验的最近模式),而Transformer 也是如此,注意力机制会倾向于关注聚类 to…