算力革命再升级 昇腾大EP如何重塑AI推理效率边界

近年来,人工智能领域迎来爆发式增长,大模型技术成为推动行业变革的核心引擎,大模型能力的跃升不断刷新人类对AI潜力的认知。

当OpenAI的GPT-4训练需消耗数数万张GPU卡时,中国AI企业DeepSeek却以“千卡级”算力训练出性能对标国际巨头的模型,这一反差揭示了行业的关键转折点——从单纯追求硬件性能的“军备竞赛”,转向通过工程创新实现算力效率的颠覆性提升。

DeepSeek在开源周里发布的大规模跨节点专家并行(大EP),更是揭开推理服务提高吞吐、降低时延的技术秘诀,掀起大模型推理系统优化的热潮。

以DeepSeek为代表的大模型创新为算力基础设施也带来新的技术趋势:大模型向大量小专家方向演进,性能提升、成本降低开始快速普及;另一方面,少量大专家模式走向高性能摸高,大量小专家向创新普及,未来两种方案并存。

同时,DeepSeek采用的大规模跨节点专家并行,实现性能、吞吐量和并发用户数量的显著提升,成本大幅度降低,也为大模型推理系统采用大规模跨节点专家并行方案提供了可行性。

大规模专家并行EP,就是将专家Expert分布到更多的卡上,可以减少每张卡权重加载的时延,减少权重的显存占用,能够显著的提升单卡并行的路数(batch size)。每个专家计算路数的提升可以提高矩阵乘的效率,从而实现更大的吞吐和更低的时延。同时大规模专家并行EP,更多专家也带来负载均衡、卡间通信的挑战。

尽管大规模跨节点专家并行集群推理能够降低成本,但在实际应用中仍面临专家动态均衡与通信时延等挑战。
昇腾大EP解决方案凭借多项关键技术有效解决了以上挑战,针对专家负载不均的难题,通过自动寻优、自动配比、自动预测、自动降解,实现备份节点和副本专家灵活可扩展、高可用和极致均衡。

针对All-to-All通信优化的难题,昇腾大EP解决方案提出了双流/多维混合并行,其中Prefill micro-batch双流并行,可以实现计算和通信的相互掩盖;MoE expert专家双流并行,实现两条数据流Stream的并行计算;Weight权重预取双流并行,可以把访存和通信并行起来,降低权重加载时间,提升效率。

此外,昇腾MLAPO融合算子也是关键技术之一,降低计算耗时70%。我们知道,MLA预处理阶段,传统方案多算子串行,频繁占用内存、通信等资源,整体计算耗时占比高。而昇腾MLAPO融合算子,将小算子融合成单一算子,Vector和Cube计算并行处理,减少开销降低计算耗时。

在昇腾大EP推动技术普惠的同时,英伟达针对中国市场推出的H20芯片却显露出明显短板。

H20作为英伟达针对中国市场发布的AI芯片,是用于大模型训练普遍采用的H100“低配版”,其AI算力仅为H100的15%,在推理方面,受性能的制约,H20只能在特定模型架构,展现出一定的效能。像DeepSeek采用的是混合专家(MoE)架构,在高batch size场景下,H20极易陷入性能瓶颈,导致时延显著增加,从而无法充分发挥DeepSeek专家并行机制所具有的高吞吐量优势。因此,在大规模高并发的训推场景,H20难以满足实际应用需求。

当DeepSeek证明“小算力亦可挑战巨头”,昇腾大EP则进一步回答:如何让每一焦耳电力、每一美元投入,释放最大AI价值。这场效率革命的意义远超技术参数之争——它标志着AI竞争从“硬件堆叠”转向“工程创新”,最终迈向产业普惠。(御风)

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2025-03-17
算力革命再升级 昇腾大EP如何重塑AI推理效率边界
近年来,人工智能领域迎来爆发式增长,大模型技术成为推动行业变革的核心引擎,大模型能力的跃升不断刷新人类对AI潜力的认知。

长按扫码 阅读全文