文 | 『半导体』产业纵横
文 | 『半导体』产业纵横
距离AI PC推出的概念炒作已经一年有余了,但似乎“雷声大,雨点小”。市场和消费者似乎也并不买账。AI PC真的“AI”吗?什么才是真·AI PC?看看真正的AI大厂给的答案吧。
AI PC概念的兴起
AI PC是Artificial Intelligence Personal Computer的简称,最早由英特尔于2023年9月提出,短短时间内获得业内广泛青睐,尽管发展时间不长,但业内普遍认为,AI PC将会是PC行业的转折点。而Canalys 对 AI PC 的定义为配备专用 AI 『芯片』组或模块(如 NPU)的台式机和笔记本📓电脑💻️,用于处理 AI 工作负载。
2024年被业界公认为AI PC应用的元年,各大企业纷纷推出了自己的AI电脑。
3月初,苹果发布AI PC MacBook Air。3月18日,荣耀发布公司首款AI PC MagicBook Pro 16,紧接着,AMD董事会主席及CEO苏姿丰宣布AMD锐龙8040系列AI PC处理器已经实现出货。3月22日,微软宣布推出Surface AI PC。4月11日,华为发布新款MateBook X Pro笔记本📓电脑💻️,首次应用华为盘古大模型。
某种程度上来说,强绑定AI概念的PC业确实有了起色。2024年第四季度,AI PC出货量达到1540万台,占季度PC总出货量的23%。2024年全年,AI PC占PC总出货量的17%。其中,苹果以54%的市场份额领跑,联想和惠普各占12%。受『Windows』 10服务停止带来的换机潮,AI PC的市场渗透率将在2025年继续提升。但这其中究竟有多少AI含量?
AI PC:雷声大雨点小
2024年2月23日,联想CEO杨元庆在最新财报发布后表示,预计2024年全球PC出货量将同比增长约5%。尽管面临一些挑战,但他坚信人工智能将是推动联想业务增长和重塑的关键因素。
然而,杨元庆也指出,目前AI PC市场还处于初级阶段,尽管“雷声大”,但实际销售量和用户接受度还相对较低。他认为,这主要是由于技术成熟度、用户教育以及市场接受度等方面的原因。
对于已经发布的 AI PC 产品,不少人并不认可,核心在于这些 AI PC 中“AI”与“PC”(硬件)基本是分离的。以目前 PC 上最大的 AI 用例——微软 Copilot 来说,在英特尔与微软对AI PC的联合定义中,强调必须配备混合架构『芯片』、Copilot 及其对应的物理按键。但事实是,所有升级到最新 『Windows』 11 版本的 PC 都能使用 Copilot,因为 Copilot 只依赖于微软 Azure 云端算力,与 PC 硬件本身无关。
而作为掌握核心科技的AI『芯片』老大,『英伟达』根本就不理微软的定义,试问又有谁能比『英伟达』更有AI 的话语权?而『英伟达』很早就开始布局 AI 领域的生态,自1993年成立以来,一直是加速计算领域的先驱,拥有最广泛 CUDA 生态应用的 AI 生产力,带有 N 卡独显的高性能PC,不那么依赖于 OEM 的适配,不但可以运行轻量极的 AI 工具,比如本地的『大语言模型』,简单的 Stable Diffusion绘图,甚至可以玩中等规模的 AI 模型,实际使用的生成速度,也比普通核显玩AI快得多。
jrhz.info之所以现在AI PC受到市场冷遇,主要有以下几点原因:
1、现阶段AI PC搭载的NPU算力不足
Intel NPU的AI性能最高为48TOPS,Intel Xe 核显大约28TOPS。搭载核显的 AI PC 算力目前在 10 - 45 TOPS 这个量级,而搭载 GeForce RTX 40 系列 GPU 的设备,涵盖了笔记本📓电脑💻️和台式主机,能提供 200 - 1400 TOPS 不同级别的产品方案选择。
而今年发布的RTX 5090显卡采用了NVIDIA的Blackwell架构,这使得它在性能上有了质的飞跃。据NVIDIA官方介绍,RTX 5090的AI算力达到了4000 TOPS,是上一代Ada Lovelace架构的三倍。
NPU的AI算力与GPU相比可谓是弟中弟。
事实上主流的那些常见AI应用方面,本地上哪怕单块RTX 4080、4090也不见得多充沛,可想而知NPU这点算力也确实没有太多作用。
2、NPU不带DRAM,无法单独支撑大模型运行
目前的AI大模型从硬件需求来说都是“DRAM 的大模型”。NPU天生不带DRAM,依赖系统RAM。也就是运行大模型必须另配64G以上的DRAM以配合NPU——都加码到这份上了,这为啥不直接用APU/GPU跑呢,都要加钱了,让谁跑不是跑?
而且APU和GPU跑AI大模型是开源适配好的,可谓是开箱即用。
3、NPU适配应用少,应用范围窄
理论上,现在NPU上已经能跑LLM『大语言模型』、stable diffusion图片生成、常见CV神经网络的推理(包括Resnet、yolo)、whisper语音转文字。基本上所有的AI推理负载,本质上就是矩阵运算,都能够通过NPU来实现低功耗运行。
但实际上现在用户买到的『Windows』笔记本📓电脑💻️,能够调用NPU的应用场景是『Windows』 Studio Effect里面的背景虚化、剪映抠图。应用范围实在是太窄了。NPU支持的本地程序截止目前非常少。
总体来说,目前NPU实际能用的功能都是一些花拳绣腿。这一轮AI真正火起来,还是因为大家看到ChatGPT这样的聊天『机器人』️能够解决很多问题。所以如果真的要让NPU发挥作用,还是需要能运行LLM『大语言模型』,而显然当前AI PC上的NPU无法满足需求。
NPU还是GPU不重要,但本地化的AI很需要。而目前来看,是不是AI PC并不重要,有没有搭载NVIDIA GPU比较重要。
三大厂的“真·AI PC”
此前虽然一些厂商宣传推出了AI PC产品。但实际上却至少噱头居多,只是搭载了NPU『芯片』,而没有真正的本地大模型运行。既不能训练、也不能推理。
AI PC 的概念被广泛宣传在笔记本📓电脑💻️上。然而,现在没有任何一台轻薄本,称得上是高算力的 AI 专用计算设备PC,反倒是传统的高性能游戏本,搭载强大 GPU 显卡的台式机,可以真的去提供真正的 AI生产力。
真·AI PC还是得看能开发高性能GPU的厂商,比如『英伟达』和AMD。
而就在今年年初CES上,AMD发布了AI Max 300Strix Halo。黄仁勋也发布了Project DIGITS。再加上此前苹果公司的Mac Pro。这三个是本地部署大模型的利器。堪称“桌面AI超级电脑”。
AMD发布的Strix Halo有两种:消费级的Strix Halo---主要用于消费性能笔电(游戏本)和商用级的Strix Halo Pro---主要用于移动工作站。曝光的3DMark测试数据显示,其旗舰型号Ryzen AI MAX+ 395有16个基于Zen 5架构的CPU核心,32线程;40个基于RDNA🧬 3.5架构的GPU核心,即Radeon 8060S核显;最高120W,是标准移动APU的3倍;支持四通道LPDDR5X内存,提供高达256 GB/s的带宽。值得注意的是,集成的Radeon 8060S核显性能竟达到前代Radeon 890M的三倍以上,甚至逼近RTX 4060独显水平。
『英伟达』将其发布的Project DIGITS称之为“目前体积最小的AI超算”。Project DIGITS使用了一颗定制的“GB10”超级『芯片』,它在一个核心里融合了基于Blackwell架构的GPU,以及NVIDIA与联发科、ARM三方合作研发的Grace CPU。资料显示,其中的Blackwell GPU能够提供1PFLOPS的FP4算力,同时Grace CPU则包含了10个Cortex-X925核心和10个Cortex-A725核心。在GPU和CPU之间,则是通过大型超算同款的NVLINK-C2C『芯片』到『芯片』互联总线连接。
Project DIGITS还配备了一颗独立的NVIDIA ConnectX互联『芯片』,它可以让“GB10”超级『芯片』内部的GPU兼容多种不同的互联技术标准,其中包括NCCL、RDMA、GPUDirect等,从而使得这颗“大核显”可以被各种开发软件和AI应用直接访问。
而苹果则在2023年发布了M3系列『芯片』并配备了下一代 GPU,代表了苹果『芯片』图形架构史上最大的飞跃。不仅速度更快、能效更高,并且还引入了称之为“动态缓存”的新技术,同时首次为 Mac 带来了硬件加速光线追踪和网格着色等新渲染功能。渲染速度现在比 M1 系列『芯片』快 2.5 倍。值得注意的是,全新的M3 系列『芯片』带来最高128GB的统一的内存架构。苹果称,对高达 128GB 内存的支持解锁了以前在笔记本📓电脑💻️上无法实现的工作流程,例如人工智能开发人员使用具有数十亿参数的更大的Transformer模型。去年苹果有发布了M4 Pro『芯片』,性能号称超越AI PC『芯片』。
而这三者都采用了一种叫做统一内存架构的技术。统一架构的好处,就是把以前内存和显存(显卡的内存)做了统一,这样就减少了CPU和GPU通信时候,在内存和显存之间数据通信时候的拷贝。此外,这一技术也能使电脑显存更大,从而可以打破消费级显卡在运行大模型时候显存不足的困境。值得注意的是,统一内存设计不是『英伟达』首创,苹果M1才是第一例。
Deepseek开启桌面 AI 超级电脑之战
近一段时间以来,『DeepSeek』线上算力的严重不足,带火了大模型本地部署需求,三大厂的“真·AI PC”也都开始厂商部署『DeepSeek』。
而『DeepSeek』作为一款MoE模型对显存要求高,对算力/内存带宽要求相对低。这也给了这些通过统一内存技术而拥有大显存的桌面AI超级电脑可乘之机。
之前有国外大佬用8台M4 Pro Mac mini跑『DeepSeek』 V3。同样的,预计可以利用四台Project DIGITS来部署『DeepSeek』 V3,而且生成速度应该也会快很多。根据AMD自己的公布,strix halo架构APU可以部署70B的模型,比4090快2.2倍,功耗低87%。
有网友表示,“打算等halo笔记本📓上市之后把现在的笔记本📓换掉的,本地部署大模型确实有意思,再过几年也许就可以本地部署671B的INT8或者FP8大模型了。除了大模型,RAM和CPU配置提高了,做其它事情也快。”
AI赛道,或许是国产厂商切入PC『芯片』领域的契机。当前许多厂商开始营销各类AI一体机产品。相信如果国产厂商能推出更大统一内存,比如256G版本的国产“Project DIGITS”,也许会更受欢迎。
AI PC 的概念,是任人『打扮』的小姑娘。故事,其实各家有各家的讲法。OEM 各大厂百花齐放,砸钱砸『工程师』做本地化AI应用,软件有些能本地也能云,云服务可以接入国产模型做商业,可能是一快很好的蛋糕。
低延迟+隐私保护,或许是拉动类似GPT一类『大语言模型』,SD绘图,声音克隆,AI补帧,抠图,重绘等本地化AI应用的一个点。
AI PC 的足够强的边缘算力 + 大内存(显存)+优化到足够高效的软件,结合起来才能有望解决行业痛点,大批量落地 AI 终端。所以说,AI PC 其实也不完全是噱头炒作,不管是更普惠的AI,更高能效的AI,还是更强大算力的AI,还是基于云和网络更简单好用的AI,都是有在进一步发展技术,摸索市场。




