(来源:华为计算)
2025年9月20日,华为联合智子芯元(深圳)科技有限责任公司,在大湾区昇腾算力应用创新研究院的支持下,正式发布ModelBridge,一款面向昇腾CANN的生态适配工具,覆盖从算子到模型的一站式转化、适配、测评与性能优化,助力CANN创新“零等待”。
背景:算子与模型的“双重爬坡”,生态壁垒日益凸显
在人工智能加速演进的今天,神经网络的训练与推理对算力利用效率的要求日益提高。作为面向计算硬件的预封装计算单元,算子与模型框架适配是确保计算硬件“可用”和“好用”的核心保障,也是释放硬件峰值性能的关键引擎。
从生态视角来看,昇腾CANN生态在开源开放、各方共建的支持下蓬勃发展,但在算子与模型框架的适配上仍需持续优化、共同前进:
跨底座迁移复杂,技术门槛难以避免:从“其它算力底座→ 昇腾”的迁移过程中,常需应对环境配置、依赖衔接与算子差异等多重挑战,对技术整合能力提出较高要求。
模型与架构持续演进,算子支持面临压力:伴随新架构、新技术与垂直场景的不断涌现,如何及时完善算子覆盖、实现高效适配,成为保障模型快速上线的重要课题。
性能优化与长期维护需兼顾:现有自动适配与加速工具多聚焦编译产出,『工程师』难以二次开发与持续迭代,难以支持生态项目长期发展。
ModelBridge:打破算子和模型适配壁垒
ModelBridge是“智子芯元”团队开发的一款面向昇腾CANN生态的自动适配工具,该工具集成了AI大模型能力,能够将其他生态的模型推理代码自动转化为CANN生态代码。ModelBridge具备以下核心优势:
算子自动补齐:基于算子自动生成能力,ModelBridge可以突破已有算子库的完备性限制,自动补齐模型适配中的算子空洞,从而适应多种模型架构。
一站式适配:仅需提供源代码、单元测试和环境配置信息,ModelBridge即可生成可解释、可维护的CANN生态源代码,『工程师』可以在该代码上进一步开发与优化。
自动修复环境问题:ModelBridge可以自动配置环境并修复链接库错误,大幅降低了生态适配中工程成本。
持续跟进社区进展:ModelBridge工作时,能实时搜索与应用开发社区中的最新模型架构与技术特性,确保第一时间跟进社区进展。
ModelBridge应用表现:Qwen3‑14B在生态上的快速部署与调优
ModelBridge仅需30分钟即可从零开始完成Qwen3‑14B模型在昇腾Atlas硬件上的推理部署。使用ModelBridge的自动优化功能,仅需2小时即可将Qwen3‑14B在昇腾上的单卡吞吐提升至 28 token/s,对比社区提供的最新镜像提升了40%。
智子芯元团队介绍
智子芯元(深圳)科技有限公司是一家由深圳市大数据研究院孵化的专注于以“数学+AI”优化AI计算的初创企业,致力于通过自动化方式生成高性能算子,持续推动算力底层创新。在智子芯元成立以前,核心团队成员已在深圳市大数据研究院取得了多种关键算子生成与优化上的突破:
数学函数算子:在昇腾复杂数学函数(如lgamma、贝塞尔函数等)的实现与逼近方面,将基线版本的数值精度提升约3个数量级(从1e-4提高至1e-7量级),精度表现比肩或超过国际主流硬件。
矩阵乘法算子:针对结构化矩阵乘法 XX^T,发现复杂度更低的全新计算方法,在硬件上相比于SOTA benchmark BLAS取得约 5% 的速度提升,在这一结构化矩阵相乘问题上实现了50年来的首次突破;针对 Transformer神经网络核心组件Causal Attention,自动发现的新算法复杂度相比标准算法降低10%。
垂直场景算子:在供应链领域的随机需求库存路由问题(stochastic demand inventory routing problem,SDIRP)上,结合算法矩阵化与算子深度适配,提出基于GPU/NPU的新型求解方案,相对传统CPU并行方案,加速可达万倍。
展望:算子高效研发是计算生态建设的关键
随着硬件迭代和模型架构创新的加速,新型算子的开发与调优需求激增,同时,对模型性能的极致追求,驱动了融合算子和特化算子的快速发展。智子芯元将围绕“降低研发门槛”与“推演极致性能”持续迭代算子自动化工具,坚定支持国产计算硬件的生态建设。
合影人从左到右依次为:丁添(智子芯元创始人)、林志航(智子芯元联合创始人)、陈罡(华为计算高校科研生态发展资深总监)、康迅(智子芯元联合创始人)