每日微信报
人物专访监管
制造芯片
6G 运营
大数据物联网
移动互联网量子
云计算互联网
报告卫星

一起昇腾，共赢行业智能化

2026年3月23日 17:50CCTIME飞象网

[中国，深圳，2026年3月20日] 在华为中国合作伙伴大会2026期间，以“与时代，共昇腾”为主题的昇腾人工智能伙伴峰会在深圳成功举行。会上，华为昇腾计算业务总裁张迪煊发表主题为《一起昇腾，共赢行业智能化》的主题演讲。他表示随着开源模型能力持续跃升、Tokens指数级增长，产业正加速迈入Agentic AI新时代，2026 年将成为强化学习与Agent应用规模化落地的关键元年。围绕AI演进趋势与行业真实诉求，昇腾打造大中小系列化算力，使能伙伴满足差异化场景需求，共同深耕行业智能化。

华为昇腾计算业务总裁张迪煊

以下是张迪煊的演讲全文

各位来宾，线上线下的朋友们，大家下午好！非常荣幸与各位再次相聚华为中国合作伙伴大会——昇腾人工智能伙伴峰会。今天，我将与大家分享并共同探索行业智能化落地加速的路径。

昇腾开源开放，与伙伴携手共赢行业智能化

2025年，是昇腾沉淀技术、拥抱开源、把握机遇的一年。去年8月，在北京我们正式宣布CANN和Mind系列软件全面开源开放，架构解耦。同时，积极贡献关键特性，与业界共创。比如，联合科大讯飞落地了大EP技术，并在9月份贡献到了vLLM社区。在这之前，该社区主要聚焦单机推理能力提升，大EP特性发布填补了业界多机推理加速能力的空白，有效激发了更多的伙伴和开发者的实践和创新。

目前，昇腾已向三方社区累计贡献超过11万行代码，让技术共享，让创新加速。昇腾始终与主流生态保持同频。我们识别并快速响应开发者需求，在毕昇编译器层构建了AscendNPU IR，平滑对接Triton，让开发者保持当前使用习惯。除了算子开发框架，昇腾还兼容了FSDP2、verl、vLLM、xLLM等50多个主流开源社区和项目，意味着当前所有训练和推理的创新都可以基于昇腾快速实现；通过对开源模型的0day支持，开发者还可以第一时间享受业界最新的模型能力，也有越来越多的SOTA开源模型基于昇腾原生孵化。智谱基于昇腾，三个月完成了多模态大模型GLM-Image的训练，这个模型创新性采用了自回归 + 扩散的混合架构，开源不到24小时就登顶了Hugging Face Trending榜第一！有力证明了在昇腾上可以训练出世界级领先的大模型。

去年DeepSeek一发布，春节期间我们迅速在上海练秋湖集结了500多人攻关会战，不到一周就发布了大模型应用一体机参考配置，使能80多家伙伴2周内发布了自己的一体机产品，快速抢占市场。一年的时间，已有350多家伙伴打造了400多款深入业务场景的一体机产品，服务了2700多家客户，占据国内一体机市场80%以上的份额。期间，也涌现了一大批能力型伙伴，不仅发布了新产品，也通过技术团队向客户提供专业AI服务，加速了大模型在各行各业的快速落地。

大模型智能水平快速提升，2026年是“强化学习 & Agent 应用”规模落地的元年

过去三年，是AI快速发展的三年。2023年“大模型元年” ，让模型从感知理解走向生成创造；2024年迎来“大模型推理元年”，我们判断Tokens将成为AI时代的新量纲；2025年，中国大模型积极开源，凭借出色的性能成为应用首选，Tokens使用量呈爆发式增长，席卷各行各业。

现在，我们正式迈入Agentic AI时代，这是一个AI产业发展的全新拐点，标志着AI从“会聊天”向“能办事”实现升级。在To C场景，OpenClaw成为新一轮现象级应用，短短几周内star数超过32万，新增百万用户，已成为最受欢迎的开源项目。国内头部互联网争相布局智能体入口，企业和个人也都在积极参与，打造专属个人智能助理。在To B场景，AI正深度渗透生产、决策等环节，基座模型落地到行业核心场景需要行业专业知识，强化学习成为必选之路。而支撑这一切的核心，是海量的Tokens。Tokens将成为AI时代的大宗商品，其计算效率直接决定企业的核心收益。

昇腾开放大中小系列化算力，使能伙伴满足差异化场景需求，共同深耕行业智能化

一是大算力场景。主要满足大模型预训练、强化学习后训练以及大规模推理服务需求。昇腾将持续深耕技术研发，打造领先的超节点架构及产品，开放灵衢协议、部件及参考架构，使能伙伴打造超节点系统，助力企业重塑核心业务。

二是中算力场景。覆盖辅助医疗、智慧教学等主流行业应用场景，昇腾围绕“开箱即用”，兼具“快速部署”与“成本可控“的平衡，开放中心模组/刀片。伙伴可结合模型及软件生态，打造大模型应用一体机、高密服务器等产品，加速行业智能化升级进程。

三是小算力场景。聚焦工业质检、具身智能、科研教学等智能边端领域，客户核心诉求为灵活高效、成本可控。昇腾开放标准模组和板卡，使能伙伴打造多样化边缘算力设备，满足差异化市场需求，这也是潜力最大的海量市场。

面向大规模推理服务场景，昇腾开源开放超节点+大 EP，联合伙伴打造最佳推理方案

AI Agent已经成为企业智能化的必备工具，其多轮自我迭代带来了百倍级Tokens需求和10ms级时延要求。传统服务器堆叠的方式存在局限，以Atlas 800 A2为例，每台服务器最多配置512GB片上内存，即便通过以太网组建96台规模的集群，总内存达到48TB，但各服务器的内存仍从0到512GB独立编址，跨服务器交互依赖以太网通信，涉及数据拷贝、协议转换、网络传输等多个环节，存在较大性能开销。

昇腾384超节点可实现48TB内存统一编址，全局内存共享，共享内存容量较传统方式提升96倍。所有NPU之间的交互可通过Load&Store等内存语义直接操作，无需经过复杂的通信协议转换，数据交互效率提升三倍。更大的共享内存池，可实现更高的KVCache，满足Agent超长上下文，推理Decode吞吐倍级提升。超节点天然亲和Agent负载，是大规模推理的必选！而“内存统一编址”和“内存语义访问”是判断超节点的核心标准。

同时，昇腾为伙伴提供三种灵活高效的实现路径，助力伙伴基于超节点+大EP能力，构建更佳推理方案。

一是复用MindIE已有的成熟大EP方案部署应用，无需额外开发，实现客户业务快速上线；二是通过代码或插件合入vLLM、SGLang两大开源推理引擎，无缝集成，降低迁移成本；三是基于CANN进行深度定制，打造贴合自身业务场景的极致性能推理引擎。目前硅基流动、清昴智能等能力型伙伴，已基于昇腾构建打造推理引擎，面向金融等客户提供大规模推理服务，在手机银行、代码助手等业务场景，多轮任务应答速度提升3倍。

面向强化学习后训练场景，昇腾开源全流程最佳实践，与伙伴共助客户打造行业专属模型

面向强化学习后训练场景，昇腾沉淀了一套完整的强化学习后训练最佳实践，伙伴可以选择最新的RL模型、算法及框架，通过完整Docker镜像，一键完成部署；部署完成后，如何实现训推资源的合理调度，提升传输效率，保持训推一致，是业界普遍关注的核心问题。当前，业界RL框架普遍采用单控制器模式，指令数据与样本数据均需经过控制器中转，一轮rollout下来需占用百GB级内存占用，在大规模后训练时，在大规模后训练场景中，内存容量和网络带宽极易成为性能瓶颈。

为此，昇腾创新推出了“异步流式数据引擎TQ”技术，通过将控制流与数据流解耦，实现样本数据不经过控制器，可直接在推理节点和训练节点之间交互。依托超节点内存统一编址，训练节点可以通过load&stroe快速读取推理节点生成的样本数据，端到端性能可提升40%以上，进一步印证超节点内存统一编址的核心价值。

目前，该特性已经合入verl社区，并成功应用于商业化广告、信贷风控等核心场景，实现了倍级性能提升。昇腾将持续围绕精度优化、训推转换、训练及推理加速，提供业界最全、最新的RL加速特性，并第一时间贡献到开源社区，让伙伴及开发者即取即用。

软硬件升级，开源Agent参考设计，使能伙伴打造开箱即用的“Claw一体机”

面向国计民生大模型应用场景，昇腾产品实现全面升级，分级分档，适配不同模型需求：面向百亿级模型，开放A2标卡，内存带宽达业界1.85倍，实现100ms推理时延；面向千亿级模型，提供单机服务器，单机算力8.96P，是业界的2.3倍；面向万亿级模型，提供双机超节点服务器，双机间灵衢直连，是业界唯一能够部署T级模型的产品，整机算力达3.78倍业界，突破20ms低时延，提供极致使用体验。

为支持好人人养好“龙虾”，昇腾推出Agentic开源参考设计，将深度适配优化后的推理引擎、主流开源模型权重，以及OpenClaw等Agent AI框架打包成完整镜像，伙伴只需聚焦业务集成、Skill开发等，即可快速打造Agent应用一体机。

基于双机超节点服务器打造的一体机，在Kimi K2.5 1T模型上每日可提供20亿Tokens，若搭载MiniMax 230B模型，Tokens供给量可达到100多亿，真正实现“饲料”管够，“养虾”无忧。目前，已有20多家伙伴正在落地Agent一体机产品，服务教育、医疗、金融、政府等行业核心领域，引领行业智能体产业新变革。

面向推荐、多模态、LLM三大推理场景，提供Atlas 350加速卡，使能伙伴打造高性能推理方案

Atlas 350加速卡面向推荐、多模态、LLM三大核心推理场景，为伙伴提供多精度、更灵活、更易用的加速卡。搭载全新的昇腾950PR处理器，性能实现全面升级，实现性能较业界同类产品领先1至1.4倍。

核心优势体现在三方面：一是算力、内存双升级，单卡算力可达业界的2.8倍以上，是目前国内唯一支mxFP4低精格式的推理产品。片上内存最大提升至112GB，达业界1.1倍以上。大算力+大内存，多模态生成性能直接提升60%。二是访存更灵活，Cache-line的访存粒度降低到128字节，使搜索推荐等场景中海量小算子的访存效率提升4倍；三是开发更易用，支持SIMT+SIMD混合编程，全面支持主流推理算子，满足伙伴多样化开发需求，伙伴可以基于Atlas 350加速卡打造更高性能的推理方案。

联合伙伴深入行业核心，打造应用场景解决方案，加速千行万业走深向实

2025年9月华为开发者大会上，昇腾联合20多家ISV，启动面向金融、能源等5大行业的应用场景解决方案打造工作。半年来已成功孵化辅助办公、AI实训、电子病历、智能客服、政务办公等十余个应用场景方案，落地180多家客户，实现技术与业务的深度融合。

如在智慧文旅场景，昇腾联合海天瑞声、陕文投，共同打造多模态AI伴游助手解决方案，助力景区升级出游服务体验。该方案具备AI伴游讲解、多语言选择、用户偏好设置等核心能力，依托海天瑞声在多模态数据加工、数据库建设等方面的技术积累，可实现文旅知识秒级获取，精准匹配个性化服务需求。目前，基于该方案打造的AI伴游助手“小七”，已经全面在陕西各大景点投放使用，为400多万游客提供个性化出游体验。

面向海量边缘计算场景，开放模组/板卡，使能伙伴以丰富的AI产品加速行业智能化

在智能边端，智能无处不在的海量场景，但产品面临形态多样、部署环境复杂等挑战。昇腾开放更多算力档位、更高集成度、更高温宽设计的模组/板卡，结合更多OS兼容、更多场景SDK，使能伙伴打造多样化产品，广泛应用于制造、医疗、教育等多个行业场景。

例如，面向需要本地部署的大模型推理、微调等场景，软通华方、同泰怡等伙伴充分发挥硬件设计能力，基于Atlas 300I A2打造液冷AI工作站，具备静音、高密、省电、安全等竞争力，已成为科研仿真、医疗、金融等行业本地算力设备的首选。

昇腾CANN开源开放共生，体验升级，加速伙伴灵活创新

CANN开源开放实现了三大升级：一是部署效率升级，原有8个大包拆分为29个可独立升级和部署的组件，包大小从2G缩减至0.43G，特性加载时间从2分钟缩短至20秒，大幅提升部署效率。二是开发体验升级。去年实现了Triton、TileLang等主流算子编程框架的无感对接；今年将开源PyPTO编程范式，进一步强化Python+Tile编程能力，SoftMax算子代码量可从700行下降到200行，平均减少70%；借助可视化调试调优能力，复杂CV融合算子开发缩短至一周；同时，昇腾将提供开源Skill库，支持打造算子自动生成Agent，让算子编程更简单。三是社区资源升级，完善开源社区CI/CD，提供完整的代码流水线，实现代码检查、编译、验证及发布等。同时提供免费算力资源，今年6月份将开放2000卡供伙伴及开发者使用，降低创新门槛。

昇腾坚持围绕5大方向，社区化运作，赋能转型，激励创新，共同发展可持续的AI产业生态

昇腾生态的蓬勃发展，离不开每一位伙伴的并肩努力。昇腾持续围绕硬件、算子、加速库、模型及应用五大创新方向，携手伙伴，共同发展。随着昇腾基础软件全面开源，将转向社区化运作，为伙伴明确成长和创新方向，完善激励机制，鼓励伙伴积极共享，提供完整知识体系，陆续开放能力认证，加速伙伴能力转型；同时，通过社区下发丰富创新任务，首批创新激励基金达2000万，助力伙伴创新发展。昇腾持续深化昇腾万里伙伴计划，NRE全面升级，投入5000万鼓励伙伴创新，创新成果和应用案例将上架社区AI应用市场，与伙伴联合推广、共享收益。

在此，欢迎更多伙伴加入到昇腾生态，加速成长，持续创新，与昇腾共同打造可持续，有韧性的AI产业生态，共绘行业智能化发展新蓝图！

在智能化的道路上，昇腾与各位伙伴已并肩走过7年，见证了AI产业从探索起步到深耕细作、从单点突破到场景落地的的快速发展，每一份同心聚力，都将成为昇腾奔赴未来的坚定脚步；每一次携手前行，都将推动行业智能化迈向新高度。

最后，衷心感谢每一位并肩携手的伙伴，谢谢大家！

编辑：T01

飞象网版权及免责声明:
1.本网刊载内容，凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有，未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载，请必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和飞象网来源。
2.凡注明“来源：XXXX”的作品，均转载自其它媒体，在于传播更多行业信息，并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题，请在相关作品刊发之日起30日内与本网联系，我们将第一时间予以处理。
本站联系电话为86-010-87765777，邮件后缀为cctime.com，冒充本站员工以任何其他联系方式，进行的“内容核实”、“商务联系”等行为，均不能代表本站。本站拥有对此声明的最终解释权。