7月7日消息(九九)全球智能算力需求快速增长,智算产业迈入了大模型时代,以GPU计算芯片和高速以太网交换网络为核心的新型智算中心(NICC)基础设施建设不断布局。
在近期举办的2024中国光网络研讨会上,中国移动研究院数据中心网络技术经理王瑞雪指出,AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”。
中国移动原创提出GSE技术体系,革新以太网转发机制,基于三大核心机制转变(从“流”分发到“报文”分发、从盲发+被动控制到感知+主动控制、从“局部”决策到“全局”调度),实现高精度负载均衡、网络层原生无损及低延迟。
王瑞雪介绍,GSE采用逐包分发技术后,对leaf上行带宽需求降低,同等芯片容量下,leaf上行口的端口速率越小,组网规模越大,负载分担链路更加散列,包均衡能力更优,更适配国产芯片大规模组网需求。
王瑞雪进一步指出,智算中心网络规模持续提升,带来高成本、高功耗等问题,且随着速率不断演进,电交换可能成为规模提升瓶颈。引入光交换机,形成光电混合组网是技术趋势之一,但同时也存在3大挑战:一是GSE与光电混合组网融合机制待明确;二是缺少流量模型与网络拓扑协同机制;三是缺乏光电混合设备统一纳管能力。
毋庸讳言,能耗是数据中心当前最大问题:交换容量提升80倍,功耗增加22倍。因此,全球云服务商加速800G商用部署,以应对日益增长的数据传输需求和优化数据中心基础设施。
王瑞雪介绍,800G以太网也是智算中心网络互联的重要方向。中国移动积极参与推动IEEE P802.3df&dj工作组的800GE标准化工作,主导提交10余篇技术需求及标准提案;主导完成800GE 20km新目标立项,是中国公司在IEEE的首个以太网基础标准立项,并主导通过20km/40km相干标准框架提案。
当前,超万卡级智算中心的电力供应/机房空间等节点能力将成为建设瓶颈,通过网络能力可换取更大的集群规模;智算中心分地域、分时期、分阶段建设现象较为普遍,形成多个算力资源孤岛,碎片资源可通过网络能力整合。王瑞雪认为,当前应重点解决园区跨机楼互联和同城多局址互联问题,满足十万卡建设需求。但这又将产生新的问题:一是网络时延的增加(受限于物理极限),二是互联带宽剧增(受限于建网成本)。
王瑞雪总结说:“当跨智算中心互联需求凸显,IP+光融合是技术方向。”IP+光融合技术可简化互联设备形态,设备直出采光,简化组网方案,减少光电转化,降低转发时延,更好匹配智算互联需求,成为业界百公里智算互联主要技术路线。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。