安谋科技下代“周易”NPU成功部署DeepSeek-R1:速度高达40 tokenss

安谋科技下代“周易”NPU成功部署DeepSeek-R1:速度高达40 tokenss

2月14日消息,安谋科技宣布,搭载新一代“周易”NPU处理器的硬件平台,已经成功在端侧部署并运行DeepSeek-R1系列模型,而且性能卓越、成本优异。

新款“周易”NPU采用专为AI大模型特性优化的架构设计,Beta测试版本已在2024年底向早期用户开放评估测试,预计今年上半年正式发布亮相。

DeepSeek-R1 1.5B、7B蒸馏版本推出后,安谋科技新一代“周易”NPU在很短的时间内,就在Emulation平台上完成了部署与优化,并在FPGA平台上成功实现了端到端应用的演示。

测试显示,在标准单批次输入、上下文长度为1024的测试环境中,新款“周易”NPU在首字计算阶段的算力利用率突破40%,解码阶段的有效带宽利用率超过80%。

带宽利用率呈现高线性特性,能够灵活适配16GB/s至256GB/s的系统带宽需求。

7B版本、1024上下文长度的场景下,保障模型应用精度的同时,新款“周易”NPU的最高处理速度可达每秒40 tokens,并支持动态长度的模型推理输入。

这也展现了安谋科技软件栈对大模型的成熟支持、深度优化,包括动态推理优化和硬件算力潜力的挖掘,从而显著提升推理速度和吞吐量。

目前,软件栈已支持Llama、Qwen、DeepSeek、ChatGLM、MiniCPM等多种主流大模型,并提供与Hugging Face模型库的对接工具链,方便直接部署主流模型。

硬件层面,新一代“周易”NPU采用7nm工艺制造,单Cluster算力最高可达80 TOPS(每秒80万亿次计算),能够轻松应对超过16K上下文长度的大模型部署需求,同时对外带宽提高至256GB/s,解决大模型计算的带宽瓶颈问题。

它还全面支持FP16数据精度计算,完整支持INT4软硬量化加速,还支持多核算力扩展,满足端侧模型的低首字延迟需求。

它还具备强大的多任务并行处理能力,通过细粒度的任务调度和优先级资源分配,实现多任务灵活切换,确保传统语音、视觉业务、大模型应用的高效协同。

特别声明:[安谋科技下代“周易”NPU成功部署DeepSeek-R1:速度高达40 tokenss] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

太飒!全红婵戴口罩逛gai,vlog证没长胖,小师妹同行(全红婵太火)

全红婵最新更新的vlog里,她戴着口罩和渔夫帽逛街的样子被网友称赞“太飒了”。 视频里的全红婵穿着简单的T恤和运动裤,虽然戴着口罩,但露出的眼神灵动有神,和小师妹交流时偶尔抬抬帽子,动作随性又帅气。教练多…

太飒!全红婵戴口罩逛gai,vlog证没长胖,小师妹同行(全红婵太火)

仅因为一句话,他连发数十条骂人动态,罗永浩到底在“破防”什么(只因一句话伤了对方的句子)

他还侮辱网友,称其为“Q兽”、“下半身思考的大S狼”、“发情”,言辞中暗指自己不被喜爱的原因是因为长得不如庞博。在担任领笑员时,他确实展现了自己的魅力:巧妙化解李诞设置的“坑”,温和指出演员的缺点,观众纷纷点…

仅因为一句话,他连发数十条骂人动态,罗永浩到底在“破防”什么(只因一句话伤了对方的句子)

realme UI 6.0全量推送,看似更新,其实是场“分级游戏”?(realme ui v2.0)

我对 realme UI 6.0 的态度很明确:这次确实有亮点,比如旁路快充+Boost模式真正照顾到游戏与重度用户,但覆盖的机型仅6款,这不是技术限制,这是资源分配。 如果你是 GT7 Pro、neo …

realme UI 6.0全量推送,看似更新,其实是场“分级游戏”?(realme ui v2.0)

AD2428WCCSZ电路设计难在哪?3步搞定A2B音频布线(ad628 电路)

典型故障:发动机启停时音频断续、爆音破解方案:星型接地法:所有节点接地线独立汇聚至电源端,避免共地噪声双绞线屏蔽层:选用铝箔+编织网双层屏蔽线(阻抗100Ω±10%)滤波电容配置:电源端并联10μF钽电容+…

AD2428WCCSZ电路设计难在哪?3步搞定A2B音频布线(ad628 电路)

BOM清单、工艺路线、生产计划,到底啥区别?一文讲清制造数据核心!(bom和工艺路线在mrp处理中的作用)

计划基于订单和库存自动生成:通过 MRP 功能,根据 BOM 用量、库存水平、采购周期等自动生成“生产建议单”;多级计划分解能力:先出主计划(MPS),再出工单、再到工序排产、班组排班,形成一条计划链;和销…

BOM清单、工艺路线、生产计划,到底啥区别?一文讲清制造数据核心!(bom和工艺路线在mrp处理中的作用)