【青鸟飞扬教育】Transformer 初探(青鸟教育是做什么的)

【青鸟飞扬教育】Transformer 初探(青鸟教育是做什么的)

试了试,确实差点意思。我们从技术的角度看看,为啥会变成这样。

众所周知,现如今的 LLM 绝大多数都是基于 Transformer 架构的。

工作流程

我们先来粗略了解一下它的工作流程。 大约就是每次生成从候选词列表中选择一个 token 作为输出,这个这次输出作为下次输入。关键点在于采样输出是怎么选择的。

早期的 llm 通过 Top-k温度作为采样策略,后来引入了 Top-p 等其他负责的控制策略。

Top-k 采样

Top-k 比较简单,就是把候选词按照概率从高到低排,取前 k 个。

温度

假设只有 Top-k 采样,会发生什么?会变成每次都从 k 个元素中选择,而 top1 会被更高概率选择,导致输出重复度比较高。

为了让输出更加丰富,不这么单调,需要引入新的采样策略,让低概率的词也可能被选择到。

假设有一个参数,

值小的时候稳重一些,选择概率高的,应对一些严谨性高的场景(如编程)

值大的时候多样一些,选择概率低的,应对一些丰富性高的场景(如写作)

为了方便描述,我们姑且先称这个参数为 T。

也就是说

T 小的时候,我们需要让低概率词的被选择的机会变小,也就是放大低概率词和高概率词的差距,一枝独秀。

T 大的时候,我们需要让低概率词的被选择的机会变大,也就是缩小低概率词和高概率词的差距,众生平等。

除法

什么运算可以实现这种缩放效果呢?最朴素的,就是除法。我们用 $x_i$ 表示词汇表中第 i 个词的概率(术语叫 logits), $y_i$ 表示第 i 个词温度调节后的概率,有下面这样的公式。

yi=xiT��=���

指数函数

我们知道,概率之和应该为 1。为了让概率之和变为 1,我们需要用 当前概率 除以所有概率的和得到新的概率(归一化)。

聪明的你可能已经想到了,等比例缩放一旦归一化,我们所有缩放都没有意义了。比如:[5,3,2] 无论我们怎么使用除法,归一化都会变成 [0.5,0.3,0.2]。

显然,我们需要再引入一个非线性变化,让我们缩放不失效,我们选择使用指数函数。

zi=eyi��=���

举例说明一下 我们的缩放不再被归一化抵消,平均概率差距也被拉大了。

特别声明:[【青鸟飞扬教育】Transformer 初探(青鸟教育是做什么的)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

甄子丹62岁生日庆典:帽下“地中海”现身,娇妻“冻龄魔法”引关注(甄子丹57岁了)

甄子丹在这个62岁生日庆典上,热闹的场面让人生羡,好友吕良伟夫妇与关之琳等一众亲友悉数到场。相比之下,57岁的关之琳则因“僵硬微笑”和明显的“法令纹”成了众人瞩目的焦点,而汪诗诗的状态就显得相对“胜利”了,网…

甄子丹62岁生日庆典:帽下“地中海”现身,娇妻“冻龄魔法”引关注(甄子丹57岁了)

高标准农田智能灌溉系统怎么建?(高标准农田智能化实施方案)

测控一体:手自一体化控制闸门的开合,依据渠道、田间水位测量、水流量计量、视频监控装置,实现闸门的自动启停和灌区的快速应急。 南京农业大学溧水白马基地灌溉系统,由江苏叁拾叁打造,项目基地配备了智能灌溉闸门、电…

高标准农田智能灌溉系统怎么建?(高标准农田智能化实施方案)

双良承建,大唐国际北京高井热电零碳余热项目获突破性进展(大唐双李)

近日,由双良节能承建的 大唐国际北京高井热电零碳余热项目8套核心设备蒸汽型溴化锂吸收式热泵机组,历经10天的连续奋战,顺利圆满的完成卸车吊装就位工作,标志着该项目核心设备安装取得突破性进展,为2025年冬季供…

双良承建,大唐国际北京高井热电零碳余热项目获突破性进展(大唐双李)

龚翔日记 刘德华你是我的骄傲2025演唱会,华仔唱了多首冷门歌曲(龚伟刘翔)

你绝对猜不到,他会唱这首歌,因为你会觉得这首歌在今天演唱会都不唱,怎么会突然在这个环节唱呢?对啦,没错,你一定猜到了是什么歌,就是这首《天天想你》啦,这首歌华仔曾经在抖音线上演唱会的时候唱过,那时候还说唱这首…

龚翔日记 刘德华你是我的骄傲2025演唱会,华仔唱了多首冷门歌曲(龚伟刘翔)

小米回应智能门锁误识人脸开门:会记录并核实相关情况并反馈(小米回应智能门锁自动打开)

8 月 11 日消息,据经视直播报道,今日有网友发帖称,其家中的小米智能门锁将外卖员人脸错误识别,导致门锁被开启。史先生称,这是该智能门锁使用以来第一次出现这种情况,此前偶尔发生过需要二次扫脸才能正…

小米回应智能门锁误识人脸开门:会记录并核实相关情况并反馈(小米回应智能门锁自动打开)