4月28日消息(九九)今天上午,以“算力网络点亮AI新时代”为主题的中国移动算力网络大会在苏州开幕。在大会主论坛上,中国工程院院士郑纬民介绍,支持大模型训练的三类系统分别是基于英伟达公司GPU的系统、基于国产AI芯片的系统和基于超级计算机的系统。
郑纬民指出,基于英伟达公司GPU的系统硬件性能好,编程生态好,但是价格暴涨,一卡难求;基于国产AI芯片的系统面临国产卡应用不足、生态系统有待改善的问题;至于基于超级计算机的系统,“当前有14个国家级超算中心,机器不是用得非常满,采用软硬件协同的设计在超算机器做大模型训练成为可能。”
郑纬民进一步指出,国产算力支撑大模型训练,国产软件生态需要做好几件事:
首先是编程框架,降低编写人工智能模型的复杂度,利用基本算子快速构建人工智能模型,例如PyTorch , TensorFlow。
其次是并行加速,为多机多卡环境提供人工智能模型并行训练的能力,支持数据并行、模型并行、流水线并行、张量并行等。例如微软DeepSpeed、英伟达Megatron-LM。
三是通信库,提供跨机跨卡的通信能力,能够支持人工智能模型训练所需各种通信模式,能根据底层网络特点充分利用网络通信带宽,例如英伟达NCCL库、超算普遍支持的MPI通信库。
四是算子库,提供人工智能模型所需基本操作的高性能实现,要求能够尽可能覆盖典型人工智能模型所需的操作,要求算子库能充分发挥底层硬件的性能例,如英伟达cuDNN,cnBLAS。
五是AI编译器,在异构处理器上对人工智能程序生成高效的目标代码,对算子库不能提供的操作通过AI编译器自动生成高效目标代码,例如XLA、TVM。
六是编程语言,提供异构处理器上编写并行程序的支持,要求覆盖底层硬件功能,发挥硬件性能,能够编写人工智能模型的基本算子(Operator),例如英伟达的CUDA,Intel的oneAPI。
七是调度器,提供在大规模系统上高效调度人工智能任务的能力,设计高效调度算法,提高集群资源利用率,例如Kubernetes(K8S)、华为ModelArts。其中,内存分配系统针对人工智能应用特点提供高效的内存分配策略,容错系统提供在硬件发生故障后快速恢复模型训练的能力,存储系统支持训练过程中高效的数据读写(检查点训练数据等)。
郑纬民强调:“国产AI芯片与业界领先水平存在一定差距,但如果生态做好了,客户也会满意,并且大多数任务不会因为芯片性能的微小差异而有明显感知。”
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。