极客网·极客观察(朱飞)5月29日 当前,智能算力革命重塑产业创新范式,人工智能进入“指数级跃迁”时代,模型迭代速度也迎来“指数级加速”。无论是扩展模型规模、提升泛化能力的“参数摸高”,还是优化模型架构、提升运行效率的“工程创新”,都在沿着各自路径快速推进,共同推动大模型敏捷迭代和规模应用。
在刚刚落幕的鲲鹏昇腾开发者大会2025——昇腾AI开发者峰会2025,一系列围绕大模型创新的重大发布和开放举措,也深刻印证了这一点。从底层开放促进AI创新,到超节点+大EP护航MoE落地,再到生态协同加速共建AI产业,昇腾AI正持续升腾,“模”塑世界。
华为昇腾计算业务总裁 张迪煊
昇腾全面深度开放,底层创新促进AI模型发展
随着大模型的快速迭代,开发者的开发方式也在发生变化,逐渐从上层软件走向更贴近硬件的极致优化,对算力系统的开放性、工具链的丰富度等提出了新的要求。为此昇腾分层开源开放基础硬件、异构计算架构CANN、昇思AI框架、以及各类应用使能套件和开发工具链,并持续升级发布新品赋能伙伴创新,通过底层创新促进AI模型发展。
在硬件使能层,CANN通过分层开放,当前已开源Ascend C、算子加速库、集合通信库等组件,并在Gitee上提供了260+算子、10+通信算法参考样例,显著提升开发效率;同时深度开放了Runtime运行时、毕昇编译器等组件接口,满足极致开发的需求。此外,CANN还在计算、通信、内存三个维度持续提升,实现底层硬件资源的极致利用,精准适配不同开发场景需求,加速AI技术引领。
在算子开发层,昇腾在去年发布的Ascend C 2.0基础上正式发布CATLASS昇腾算子模板库,按照计算粒度自上而下分层设计,提供从接口调用到单条指令的多层可复用模板,当前已在Gitee社区开源上线并提供20个典型算子样例,大幅缩短开发周期,实现算子性能最优。
昇腾算子模板库CATLASS全新发布
同时,毕昇编译器全面升级,提供端到端的昇腾算子编译和调优能力,包括前端支持混合编程、异构编译;中端借助亲和微架构技术,使算子性能提升超 20%;后端能优化寄存器分配、定位内存异常;同时开放AscendNPU IR接口,实现无感对接Triton、FlagTree等Python算子编程框架,使能开发者在算子层面持续创新突破。
面向强化学习,昇腾发布强化学习开发套件MindSpeed RL并在Gitee上开源,提供大规模训推共卡、权重Reshard和调度优化等多场景加速技术,性能持续引领,满足后训练中多任务的协同加速。同时带来多模态理解SDK和昇腾推理微服务MIS,大幅简化应用的部署流程,更好地让每位开发者聚焦应用的创新。
昇腾持续引领创新,超节点+大EP护航MoE落地
在模型快速迭代中,继DeepSeek公布MoE模型训推方案后,MoE(混合专家模型)凭借优异模型效果已成为主流模型结构。随之而来的是,MoE涉及最复杂的混合并行策略,随着并行规模的增长,传统服务器的跨机带宽成为训练核心瓶颈;同时MoE涉及多专家协作,专家负载不均的情况时常发生,导致效率低下且推理服务不稳定。昇腾在这两个维度创新引领,以超节点+大EP构筑了MoE落地的最佳拍档。
在训练方面,昇腾超节点架构亲和MoE,以突破性架构创新打破集群互联瓶颈,实现节点间高效协同,让庞大集群如同一台强大的计算机运行,大幅提升整体计算效率。峰会期间重磅推出的昇腾384超节点,通过构建业界最大规模的384卡高速总线互联体系,将通信带宽提升了15倍,训练性能相比传统节点实现了3倍飞跃,以强劲算力支撑大规模AI任务快速推进,使让昇腾成为MoE模型的最佳选择。
华为推出昇腾384超节点
性能测试数据显示,在昇腾384超节点上,LLaMA 3等千亿稠密模型性能相比传统集群提升2.5倍以上;在通信需求更高的Qwen、DeepSeek等多模态、MoE模型上,性能提升可达3倍以上,较业界其他集群高出1.2倍,在行业中处于领先地位。未来还可进一步扩展为包含数万卡的超节点集群,为更大规模的模型演进提供有力支撑。
在推理环节,昇腾大EP把模型权重分布到更多的卡上,通过降低单卡内存权重占用,释放更多内存用于用户并发所需的KV Cache,最终实现更大的单卡吞吐能力;同时,将每张卡专家数减少,使得权重加载时间更短,让模型Decode更快,系统时延更低,最终实现了2到4倍的单卡吞吐提升,50%的系统时延降低,在相同卡数下获得更大的收益,实现“一份投入,多份输出”,并且用户体验更佳。
昇腾大规模专家并行推理解决方案持续升级
峰会期间,昇腾推理解决方案持续升级,全新发布MindIE Motor推理服务加速库,提供精细异步调度、AutoPD分离、高阶RAS等特性,通过动态专家冗余与亲和调度技术均衡负载,AutoPD分离部署智能调配Prefill/Decode资源,三重RAS防护保障系统长稳运行,进一步系统性提升昇腾大EP的能力。
在昇腾大EP的加持下,昇腾384超节点成为业界唯一实现一卡一专家的方案。该方案通过全高速总线互联实现专家一卡一域分布,突破性达成Decode时延15ms的极致性能,在同等50ms时延下单卡吞吐达传统集群4倍,赋能AI模型在实际应用中降本提质增效,更好地保护客户投资。
业界主流生态支持昇腾,加速共建AI产业大生态
在昇腾AI持续开放创新背后,业界主流社区支持昇腾、主流模型基于昇腾孵化……技术突破与生态发展得到同频共振,一个基于昇腾的更加繁荣的AI产业大生态正加速构建。
一方面,Pytorch、vLLM等业界主流社区均已支持昇腾,便于开发者基于昇腾开发。会上,清华大学博士生、vLLM社区Maintainer游凯超分享了双方的合作故事。在最新版本的vLLM中,开发者可以基于昇腾与vLLM的全链功能,一条命令实现底层应用的无感切换,同时通过插件化的解决方案获得混合并行、动态调度等更多高阶特性。未来双方还将深化技术创新,为广大用户和开发者提供更极致的大模型推理体验。
清华大学博士生、vLLM社区Maintainer游凯超
另一方面,基于昇腾AI基础软硬件平台,各行各业已孵化50多个主流大模型。会上,科大讯飞星火大模型训练工程资深技术专家张海俊分享了基于昇腾超节点架构的MoE模型训练实践。过去一年,讯飞完成了长思考强化学习、MoE训练推理等多个关键技术在昇腾算力底座上的突破和率先应用;未来将携手昇腾和广大开发者,继续全力推进星火大模型研发迭代,通过算法与算力的协同创新优化,加速行业应用落地。
毫无疑问,业界主流生态对昇腾的支持,有助于整合各方资源,吸引更多开发者基于昇腾平台进行开发。这不仅丰富了昇腾生态中的模型和应用种类,还能促进不同技术之间的交流与融合,加速AI技术的创新和推广,推动全球AI生态系统的繁荣发展。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。