我们首先重点测试了这类任务(结果见下表),使用 Gated DeltaNet 作为 MoM 的 memory 计算形式(在 Memory更新过程中,每个 memory 都使用 Gated DeltaNet…