Meta开源创新大模型架构AU-Nets(开源软件创新)

在大模型领域,如何将文本数据分解成合适的单元一直是重点研究对象。传统的分词方法,如Byte Pair Encoding等,会预先将文本分割成固定粒度的单元,然后构建一个静态的词汇表供模型使用。但这种方法存在诸多局限性,一旦分词完成,模型在后续处理中就只能局限于这些预设的单元,无法灵活地调整对数据的处理方式和预测范围;

另一方面,对于一些低资源语言或者具有特殊字符结构的文本,这种固定分词方式往往难以有效处理,限制了模型的泛化能力和应用范围。

为了解决这些难题,meta的研究人员开源了创新架构AU-Net,过引入一种自回归的 U-Net 架构,彻底改变了传统语言模型的分词和处理模式。AU-Net 能够直接从原始字节开始学习,动态地将字节组合成单词、词对,甚至多达四个单词的组合,形成一种多尺度的序列表示。

今日霍州(www.jrhz.info)©️

开源地址:https://github.com/facebookresearch/lingua/tree/main/apps/aunet

AU-Net的架构灵感来源于医学图像分割领域的 U-Net 架构,它是一种自回归的层次化模型,具有独特的收缩路径和扩张路径。收缩路径的主要作用是对输入的字节序列进行压缩处理,通过逐步合并字节来形成更高层次的语义单元,从而提取出文本的宏观语义信息。

而扩张路径则负责将这些压缩后的高层次信息逐步还原,恢复到原始的序列长度,并且在这个过程中将高层次的语义信息融入到更细致的局部细节中,使得模型在不同层次上都能够捕捉到文本的重要特征。

今日霍州(www.jrhz.info)©️

收缩路径分为多个阶段,每个阶段都有其特定的功能和结构。在第一阶段,模型直接处理原始字节。这个阶段的维度设置为 512,包含 3 层。由于字节级别的序列是最长的,为了保证计算的可行性,模型在这个阶段会限制注意力机制的作用范围,使其仅在一定的窗口内进行操作。这样的设计既能够充分利用自注意力机制的优势,又能够避免因为序列过长而导致的计算负担过重的问题。

接下来是第二阶段,在这个阶段,模型会在单词边界处进行池化操作。池化操作是通过选择特定位置的向量来实现的,这些位置是由预先定义的分割函数确定的。分割函数会根据单词的起始位置来选取对应的向量,这些向量能够捕捉到单词之前的上下文信息。

然后模型将这些向量投影到下一个阶段的维度,即 2048 维度,并且这个阶段也包含 3 层。通过这种方式,模型能够将字节级别的信息抽象成单词级别的语义信息,为后续的高层次处理提供基础。

今日霍州(www.jrhz.info)©️

第三阶段的池化操作则是在每两个单词处进行。这个阶段的维度进一步增加到 3072,包含 18 层。在这个阶段,模型开始处理更大范围的语义信息,它不仅仅关注单个单词,而是将两个单词作为一个整体来进行处理。这种设计使得模型能够捕捉到单词之间的搭配关系和更复杂的语义结构,从而更好地理解文本的含义。

扩张路径的作用是将收缩路径中压缩后的高层次信息逐步还原,并且在这个过程中将高层次的语义信息与局部细节信息进行融合。在扩张路径中,模型会采用一种称为多线性上采样的策略来进行上采样操作。

模型会将每个粗向量复制多次,以匹配下一个阶段的长度,并且为这些复制的向量应用不同的位置特定线性变换。这种策略使得每个位置的向量都能够根据其在序列中的相对位置进行调整,从而更好地融合高层次的信息和局部细节。

例如,当从每两个单词的表示恢复到单词级别的表示时,模型会为每个单词位置生成一个独特的向量。这些向量不仅包含了来自高层次的语义信息,还能够根据单词的具体位置进行适当的调整,以更好地捕捉单词级别的细节特征。通过这种方式,模型能够逐步恢复序列的长度,并且在这个过程中将高层次的语义信息有效地融入到局部细节中,从而生成更加准确和自然的文本。

在扩张路径中,模型还会利用跳跃连接来传递信息。跳跃连接的作用是将收缩路径中提取到的细节信息直接传递到扩张路径中的相应阶段,从而保证在还原过程中不会丢失重要的局部细节。这些跳跃连接的存在使得模型在不同层次上都能够同时获取到高层次的语义信息和局部细节信息,进一步提高了模型的生成能力和预测准确性。

今日霍州(www.jrhz.info)©️

在推理阶段,AU-Net 采用自回归的生成机制。字节级别的阶段会在每一步都保持活跃,而更深层次的阶段则根据池化模式以较低的频率激活。这种自回归的生成方式不仅保证了生成文本的连贯性和准确性,还提高了推理效率。

自回归生成机制的优势在于它能够确保模型在每一步生成过程中都能够充分考虑到前面已经生成的内容以及深层次的语义信息。通过这种方式,模型能够生成更加自然和准确的文本,避免了可能出现的语义不连贯或者语法错误等问题。同时,由于更深层次的阶段不是在每一步都激活,这大大减少了计算量,提高了推理的速度,使得 AU-Net 在实际应用中更加高效和实用。

本文素材来源meta,如有侵权请联系删除

特别声明:[Meta开源创新大模型架构AU-Nets(开源软件创新)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

PPT优化:定制化设计+品牌的独特性凸显(优化ppt效果的做法)

PPT优化的核心从来不是简单的“换一个好看的模板”就能解决的事,而是要实现内容与视觉的高度匹配,换模板只是表面的改变,而真正的优化需要深入到内容的本质。 我们的『设计师』会对内容进行深度的梳理,他们就好像是一群经…

PPT优化:定制化设计+品牌的独特性凸显(优化ppt效果的做法)

苍井优的这5部电影,深入骨髓又欲又纯(如何评价苍井优的长相?)

而在《间谍之妻》中,苍井优饰演的聪子经历了从依赖到自我觉醒的转变,她用实际行动诠释了女性♀️的勇气和独立,给观众带来了深刻的启发。 希望未来的影视作品能够继续关注女性♀️形象的真实展现,展现女性♀️在不同社会背景下的多…

苍井优的这5部电影,深入骨髓又欲又纯(如何评价苍井优的长相?)

64岁『张学友』捐出130万!此前被传老婆败光20亿家产狂开演唱会

当他抛出这句失业后,台下立刻爆发出欢呼声,因为大家知道,这不是告别,而是暂时的停顿,是『张学友』给自己换气的时刻。他甚至在舞台上做了一字马,这个动作不仅仅是在炫耀自己的身体,更是用最直观的方式告诉所有人:我还可以…

64岁『张学友』捐出130万!此前被传老婆败光20亿家产狂开演唱会

直径12毫米铝托的圆柱导轨SBR12光轴有哪些特点?(12公分的铝合金型材)

直径12毫米铝托的圆柱导轨SBR12光轴在机械设备中的应用日益广泛。它以高精度、低摩擦和耐用性著称,能够满足多样化的工业需求。本文详细分析其技术优势、应用场景及选型注意事项,帮助您快速找到最适合的方案。

直径12毫米铝托的圆柱导轨SBR12光轴有哪些特点?(12公分的铝合金型材)

齐启新程 共赢未来,淄博移动举办行业生态合作伙伴座谈会(齐力共赢)

淄博移动公司积极融入地方发展大局,在5G网络、算力基础设施、数字技术应用等领域持续深耕,下一步将加大资源投入,发挥网络、技术、服务优势,聚焦行业『数字化』需求,与合作伙伴打造场景化创新解决方案,完善合作机制,共同…

齐启新程 共赢未来,淄博移动举办行业生态合作伙伴座谈会(齐力共赢)