支持超万亿参数大模型训练:华为发布全新架构AI集群Atlas 900 SuperCluster

C114 9月20日下午消息(蒋均牧)智能化掀开新篇章,华为全联接大会2023上,华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛正式发布了全新架构的昇腾AI计算集群Atlas 900 SuperCluster。

随着人工智能进入大模型时代,大算力正在成为发展的AI核心引擎。华为改变传统的服务器堆叠模式,以系统架构创新打造AI集群,实现算力、运力、存力的一体化设计,突破大算力瓶颈。华为最新推出的Atlas 900 SuperCluster,可支持超万亿参数的大模型训练。

新集群采用了全新的华为星河AI智算交换机CloudEngine XH16800,借助其高密的800GE端口能力,两层交换网络即可实现2250节点(相当于1.8万张卡)超大规模无收敛集群组网。新集群同时使用了创新的超节点架构,可提供高达200PFLOPS@FP16的算力,大大提升了大模型训练能力。此外,发挥华为在计算、网络、存储、能源等领域的综合优势,从器件级、节点级、集群级和业务级全面提升系统可靠性,将大模型训练稳定性从天级提升到月级。

硬件使能是释放大算力的关键,也是大模型开发的基础。为了加速大模型的创新,华为发布了更开放、更易用的CANN7.0,不仅全面兼容业界的AI框架、加速库和主流大模型,还深度开放底层能力,让AI框架和加速库可以更直接地调用和管理计算资源,使能开发者自定义高性能算子,让大模型具备差异化的竞争力。

C114获悉,面向Transformer网络模型的开发,华为升级了Ascend C编程语言,以更高效的编程方式,简化算子实现逻辑,将融合算子的开发周期从2人月缩短到2人周,使能AI模型与应用的快速开发。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-09-20
支持超万亿参数大模型训练:华为发布全新架构AI集群Atlas 900 SuperCluster
支持超万亿参数大模型训练:华为发布全新架构AI集群Atlas 900 SuperCluster,C114 9月20日下午消息(蒋均牧)智能化掀开新篇章,华为全联接大会2023上,华为常务董事、IC

长按扫码 阅读全文