一文读懂,可重构『芯片』为何是AI的完美搭档

今日霍州(www.jrhz.info)©️

在当今『数字化』时代,人工智能(AI)无疑是最为耀眼的技术领域之一。从早期简单的机器学习算法,到如今复杂的深度学习和 Transformer 模型,AI 算法正以前所未有的速度快速发展。这种快速演进使得 AI 在各个领域的应用不断拓展,从边缘端的高能效场景,如智能安防摄像头、智能家居设备,到云端的大算力场景,如『数据中心』的智能分析、智能语音交互系统等,AI 正逐步渗透到人们生活和工作的方方面面。

在边缘端,设备对能耗限制严格,需在有限电量下完成复杂任务,像实时图像识别、简单语音指令处理等。而在云端,面对海量数据和复杂计算需求,如大规模图像数据集处理、复杂自然语言处理任务等,需要强大计算能力支撑。无论哪种场景,AI 『芯片』都至关重要,其性能直接决定 AI 应用效果。然而,随着 AI 算法不断革新,传统固定架构『芯片』逐渐暴露出诸多局限性,难以满足 AI 算法日益增长的多样化需求,无法充分发挥硬件性能优势。

现代神经网络模型作为AI算法的核心,具有一系列复杂多样的特征,这些特征对『芯片』的设计和性能产生了深远的影响。

神经网络的拓扑结构复杂且不断演变。早期神经网络主要由卷积层和全连接层构成,结构简单,功能单一。但随着技术发展,为提升网络性能和处理复杂任务的能力,诸如 ResNet 的残差连接结构、注意力机制等复杂拓扑不断涌现。ResNet 的残差连接解决了梯度消失问题,使网络可构建得更深,学习更复杂特征;注意力机制通过动态生成矩阵提取全局信息相关性,带来不规则拓扑结构,能更聚焦关键信息。例如在 2023 年特斯拉 AI Day 展示的网络中,包含更多类型节点和更复杂连接,旨在模拟人类大脑神经连接,实现更高级智能处理能力。不同网络拓扑结构决定数据在网络中的流动和处理方式,对『芯片』的计算资源分配和数据传输路径提出多样化需求。

今日霍州(www.jrhz.info)©️

图1.AI算法呈现出复杂演变的特点

神经网络模型存在多维度的稀疏性,涵盖输入、权重和输出。为模拟大脑中非活跃神经元,提高计算效率,稀疏性在神经网络研究中备受关注。实际计算中,稀疏(0 值)操作数不影响计算结果,跳过无效计算可减少整体计算量和内存访问需求。早期对稀疏性的研究集中在基于剪枝的一维权重稀疏性,如今已发展到利用输入、权重和输出的三维稀疏性。例如,在一些模型中,通过检测输入数据中的 0 值元素,直接跳过相关计算,避免不必要的计算资源浪费。

今日霍州(www.jrhz.info)©️

图2.神经网络模型精度不断变化

神经网络模型在不同层对数据精度要求差异较大。推理阶段,模型最初常被量化为统一精度,如 INT8,这种方式虽简单,但在某些情况下无法充分发挥模型性能。后来发展为每层量化,根据不同层需求调整数据精度,提高推理效率。近期,甚至出现元素级混合精度应用,进一步优化计算资源利用。训练阶段,早期常用的 FP32 和 FP16 虽能保证较高计算精度,但会带来较高内存和功耗开销。为降低训练成本,有人提出使用 FP8,但因其数据表示能力有限,会导致训练精度损失。因此,混合精度训练(如 FP16 和 FP8 混合)成为平衡训练精度和能效的有效解决方案。例如,NVIDIA 的 H100 GPU 就采用 FP8 和 FP16 混合精度来加速 Transformer 训练。

这些复杂的模型特征给『芯片』设计带来诸多严峻挑战。不同网络拓扑结构导致数据重用模式和数据访问时间差异显著。数据访问,尤其是对 DRAM 的访问,相较于计算会带来显著时间和功耗开销。在高性能 AI 『芯片』设计中,减少内存访问成本至关重要,这就要求『芯片』具备灵活的数据流支持能力,以适应不同数据重用模式,降低数据访问量。不同类型的稀疏性特点不同,增加了『芯片』设计难度。输入和权重稀疏性需逐元素计算跳过,输出稀疏性导致逐向量计算跳过。AI 『芯片』要充分利用这些稀疏性消除冗余计算,必须具备灵活处理不同稀疏性的能力。不同应用对数据位宽要求不同,AI 『芯片』需处理多种数据精度,这对处理器的计算单元提出很高要求,需要一个高效的 MAC 单元,既能满足不同精度计算需求,又能在功耗和面积方面进行优化。

今日霍州(www.jrhz.info)©️

图3.硬件重构优于软件编程

为应对这些挑战,硬件重构成为关键技术,相较于软件编程具有明显优势。软件编程在处理不同拓扑结构时具有一定灵活性,通过插入分支指令处理不同节点,但在处理元素级稀疏性和多种精度时存在局限。软件编程无法充分利用稀疏性优化计算,对于不同精度计算也难以灵活切换,无法满足 AI 『芯片』对灵活性的全面要求。例如,在处理大规模稀疏矩阵计算时,软件编程可能耗费大量时间和资源处理 0 值元素,而硬件重构能够全面适应神经网络的各种结构、稀疏模式和计算精度。它可根据不同神经网络模型和任务需求,在硬件层面快速调整,实现资源高效利用。处理稀疏性时,硬件重构可通过专门电路设计,直接对稀疏数据进行处理,避免无效计算,提高计算效率。例如,通过设计特定的稀疏数据处理单元,可快速检测和跳过 0 值操作数,减少计算资源浪费。应对多种数据精度时,硬件重构能灵活切换计算单元精度模式,满足不同层计算需求。例如,在同一『芯片』上,可根据不同层需求,动态调整计算单元精度,从低精度的 INT4 到高精度的 FP16,实现资源优化配置。

硬件重构主要在『芯片』级、处理单元阵列(PEA)级和处理单元(PE)级三个层次进行。『芯片』级重构旨在处理输入、权重和输出的稀疏性,提高硬件利用率,可以通过 BENES 网络实现。BENES 网络由双向开关单元组成,每个开关有旁路和交叉两种模式。处理输入和权重稀疏性时,根据操作数是否为零,配置 BENES 网络为对称或不对称结构,将非零操作数路由到 PE 进行计算,并在计算后恢复结果的稀疏位置。对于输出稀疏性,传统顺序计算存在硬件利用率低和数据重复访问问题,而乱序计算通过 BENES 网络优化计算顺序,减少向量内存访问,提高硬件资源利用率。例如,在处理大规模稀疏矩阵乘法时,通过 BENES 网络的乱序计算,可优化原本需多次访问内存的数据,减少内存访问次数,提高计算效率。数据显示:清微智能从边缘端 TX5至云端TX8系列可重构『芯片』 ,硬件利用率均可提升 50% 以上。

PEA 级重构分为整体重构和交错重构。整体重构中,整个 PE 阵列以特定数据流运行,适用于不同神经网络顺序执行的场景;交错重构允许多个数据流在单个 PE 阵列上同时运行,适用于需同时计算多个神经网络的场景。其目的是通过改变数据流,根据不同神经网络模型的张量大小和数据重用模式,选择固定某一张量,让其他张量流动,从而最小化数据访问。通过调整数据流向和计算顺序,提高数据重用率,减少数据在内存和计算单元之间的传输次数,进而降低功耗和提高计算效率。与 GPU 相比,GPU 硬件利用率通常仅达 50%,而可重构『芯片』通过灵活的阵列级重构,能达到 80% 以上的硬件利用率。例如,在处理多个不同类型的神经网络任务时,可重构『芯片』的交错重构能力可同时处理不同任务的数据流,充分利用硬件资源,避免资源闲置。清微智能的 TX8 系列可重构大算力『芯片』通过这种数据流计算范式使中间数据直接在计算单元之间传递,避免大量重复访存,计算性能和能效水平显著提升。

PE 级重构的目标是支持多种数据精度,常见技术包括位串行、位融合、浮点融合和部分积重构。位串行从最高有效位(MSB)到最低有效位(LSB)逐位计算,通过配置控制位决定计算周期,适用于超低功耗应用,但吞吐量有限。位融合由多个并行的位砖单元组成,通过空间重组实现灵活的位宽配置,可支持不同精度计算,能显著提升计算速度,但带宽利用率较低。在训练中分离特征图为 FP16 和 FP8 组,可提高训练能效,但存在硬件资源浪费问题。浮点融合用于混合精度浮点训练,通过共享乘法器、对齐器、加法器和归一化逻辑实现不同精度计算,从而显著提高硬件资源利用率。部分积重构支持混合整数和浮点计算,通过不同的部分积计算单元配置实现不同精度计算,硬件利用率较高,但功耗相对较大。例如,在对功耗要求极高的边缘设备中,位串行技术可充分发挥其超低功耗优势;在对计算速度要求较高的云端应用中,位融合技术可显著提升计算速度。

今日霍州(www.jrhz.info)©️

图4.可重构『芯片』可实现多层次硬件重构

可重构『芯片』凭借『芯片』级、阵列级和 PE 级三级重构能力,在保持编程灵活性的情况下,通过对硬件资源的精细化重构调度和高效利用,实现更高性能和更高能效的 AI 『芯片』设计。在『芯片』级,由于 AI 处理的数据存在稀疏性,可重构『芯片』的『芯片』级重构能力能跳过无效的 0 值计算,减少内存访问次数,提高硬件使用效率,更好发挥硬件性能并提高计算能效。在阵列级,可重构『芯片』能利用其阵列级重构能力,实现数据流计算范式,减少中间数据在存储器之间的反复搬运,降低访存能耗,解决 “存储墙” 问题,同时提高硬件资源利用效率。在 PE 级,可重构『芯片』利用其 PE 级多精度配置、定浮点融合和资源共享等重构能力,精细控制和调度底层计算资源,显著提高资源利用率,从而提高『芯片』面积利用率。

随着 AI 技术的不断发展,可重构『芯片』的应用前景将更加广阔。它有望为 AI 的持续创新提供强大硬件支持,推动人工智能技术迈向新高度。

在未来,随着 AI 算法进一步发展和应用场景不断拓展,可重构『芯片』将在更多领域发挥重要作用。国内规模最大的可重构『芯片』厂商清微智能,目前已量产TX5和TX8两大系列十余款『芯片』,覆盖云边端应用场景,广泛应用至智能安防、智能『机器人』️、智算中心,大模型市场,实现可重构『芯片』从0到1的探索实践。脱胎于『斯坦福大学』顶尖科研团队的 SambaNova Systems,在2023年就成为AI 『芯片』估值最高的独角兽标杆。

下篇报道我们将盘点国内外可重构『芯片』赛道各家标杆企业的创新实践,为读者勾勒这一颠覆性技术的全球发展图景。

参考链接

特别声明:[一文读懂,可重构『芯片』为何是AI的完美搭档] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

13年11个对象?斯嘉丽《新蝙蝠侠2》演恋人,网友:老爷口味特别(在一起13年是什么婚)

好莱坞今日炸开一枚重磅炸弹:我们熟知的“寡姐”『斯嘉丽·约翰逊』,正酝酿一场跨越宇宙的华丽转身——她或将告别漫威的“黑寡妇”,翩然踏入DC的暗黑世界,在《新蝙蝠侠2》中与罗伯特·帕丁森饰演的黑暗骑士谱写恋曲!她刚…

13年11个对象?斯嘉丽《<strong>新蝙蝠侠2</strong>》演恋人,网友:老爷口味特别(在一起13年是什么婚)

一周狂啃煮玉米 真能躺瘦吗 小心越吃越“崩溃”(喜欢吃煮玉米会胖吗?)

  在“内卷”的减肥赛道上,总有人幻想找到“捷径”。近,“吃一星期煮玉米能瘦”的说法在朋友圈、短视频平台火得一塌糊涂,不少博主晒出对比图,声称靠啃玉米轻松甩肉5斤。这让无数减肥心切的朋友跃跃欲试,但这种“一根玉米走天下”的减肥法,真的靠谱吗

一周狂啃煮玉米 真能躺瘦吗 小心越吃越“崩溃”(喜欢吃煮玉米会胖吗?)

眼镜👓新零售风起云涌,优购镜仓如何凭“星趣控”引爆市场?(眼镜👓零售业具有的特点)

在优购镜仓的产品矩阵中,依视路星趣控防控眼镜👓无疑是一颗璀璨的『明星』️。它的验配需要专业的设备和人员,这恰恰为优购镜仓提供了一个展示其专业实力的绝佳舞台。通过成功验配一副复杂的星趣控眼镜👓,优购镜仓能够迅速建立消费者…

眼镜👓新零售风起云涌,优购镜仓如何凭“星趣控”引爆市场?(眼镜👓零售业具有的特点)

“铝代铜”争议下:董明珠坚守传统,美的海尔小米谋新变

另一边,空调行业的“铝代铜”争议中,董明珠也因坚持传统路线成为焦点。12月14日,董明珠公开表示,格力坚持不用“铝代铜”,原因是铝尚未达到铜的技术条件和保障水平。 尽管舆论对“铝代铜”持负面态度,但空调厂商…

“铝代铜”争议下:董明珠坚守传统,美的海尔小米谋新变

高精度漆包机制造商:西玛梅达引领行业新高度(漆包机设备结构介绍)

西玛梅达通过自主研发,打破了这一局面,其生产的漆包机在性能上可与进口设备相媲美,为国内企业提供了更优质的选择。MD卧式高速圆线拉丝漆包机系列较传统设备能耗降低30%,立式高速圆线拉丝漆包机系列单台设备年节省能…

高精度漆包机制造商:西玛梅达引领行业新高度(漆包机设备结构介绍)