摩尔线程助攻深度寻源开源周:打造“全家桶”助力开源生态繁荣
自 IT 之家 3 月 2 日消息,DeepSeek 开源周已正式收官,这一周对于摩尔线程智能科技(北京)股份有限公司来说,无疑是一次重大的里程碑。在短短时间内,摩尔线程成功实现对 DeepSeek 各个开源项目的全面支持,涵盖了 FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer 文件系统(3FS)。这一切的背后,是摩尔线程对开源生态的深度参与和积极推动。
FlashMLA,一款高效的 MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速 MLA 机制的计算,特别适用于 DeepSeek 系列模型。摩尔线程基于全新 MUSA Compute Capability 3.1 计算架构,可提供原生 FP8 计算能力。同时,升级了高性能线性代数模板库 MUTLASS,从而快速支持了 FlashMLA。借助 MUTLASS 0.2.0,摩尔线程发布开源仓库 MT-FlashMLA,能够快速对 DeepSeek FlashMLA 进行兼容部署。
DeepEP,一个用于 MoE(混合专家)模型训练和推理的开源 EP(expert parallelism,专家并行)通信库。DeepEP 主要适用于大模型训练,特别是需要 EP 的集群训练。摩尔线程基于 MUSA Compute Capability 3.1 全功能 GPU,第一时间适配了 DeepEP。其高效优化的 All-to-All 通信,支持 dispatch & combine;支持 MTLink + GPU(MUSA Compute Capability 3.1)节点内通信;训练及推理预填充阶段的高吞吐量计算核心;推理解码阶段的低延迟计算核心;原生支持 FP8 数据分发;灵活控制 GPU 资源,实现计算与通信的高效重叠等特点,无疑将为 DeepEP 的广泛应用提供了有力支持。
DeepGEMM,一个支持密集矩阵与混合专家(MoE)矩阵乘法的 FP8 GEMM 库。摩尔线程在全新 GPU 架构上优化实现了 FP8 矩阵乘法,从而支持 DeepGEMM 的相应功能。与此同时,摩尔线程依托深度学习框架 Torch-MUSA 和 MUSA 软件栈全方位的兼容性,实现了对 DeepGEMM 的高效支持。
DualPipe,DeepSeek-V3 提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了“流水线气泡”(设备空闲等待)。与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。摩尔线程在 DualPipe 的支持上表现出色,依托深度学习框架 Torch-MUSA 和 MUSA 软件栈全方位的兼容性,实现了对 DualPipe 这一算法的高效支持。
至于 Fire-Flyer 文件系统(3FS),这是一种利用现代 SSD 和 RDMA 网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致。在 V3 和 R1 的训练与推理过程中,3FS 作为关键支撑,以应对 AI 训练和推理工作负载的挑战。为了高效支持 3FS,摩尔线程在一天内迅速完成了高性能分布式文件系统 3FS 的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成。
总的来说,摩尔线程以实际行动参与和推动 DeepSeek 开源周活动,不仅提供了全面的技术支持,还打造了一系列开源项目——“全家桶”,涵盖了多个关键领域。这些开源项目不仅展示了摩尔线程的技术实力和开放精神,也以实际行动助力开源生态繁荣。在未来的日子里,我们期待看到更多这样的开源项目和活动,共同推动科技的发展和进步。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )