5月10日消息(岳明)大模型需要大算力,大算力需要大集群,大集群需要大网络!
业界对此没有疑问,但选择什么样的机间互联技术,却有着不同的技术实现路径。
是先入为主的InfiniBand,还是当前呼声很高的UEC;其实,我们有更多的选择。在近日举行的“中国移动算力网络大会”上,中国移动副总经理高同庆宣布,对标国际主流的IB和UEC方案,形成中国自主的技术体系--全调度以太网(GSE),今年将开展GSE中试,加速GSE关键技术和产业成熟,为标准开放的新型智算互联贡献中国方案。
有了IB和UEC,我们为什么还需要GSE?GSE将会给产业界带来价值?从理念到技术再到产品和应用的落地,GSE还需要迈过哪些门槛?
我们为什么需要GSE
在回答这个问题之前,先让看看算力形态的变化。业界现在将算力分为通算、超算与智算,其中智算作为AI能力的主要载体,到2025年可能会占据新增算力的85%左右。也就是说智算将逐渐成为AI市场主流,作为智算的载体,智算中心的重要性就不言而喻了。
智算中心与传统数据中心存在很大不同,不仅体现在卡型、性能、功耗、算力密度等方面,主要由GPU服务器联网构成的智算中心需要完全不同的网络架构。当大模型训练时,并行计算节点越多,通信效率越重要,智算网络性能成为集群算力提升的关键。总结下来,智算中心网络要求很特殊,需要高带宽、零丢包、超低时延、高可用性,月级零故障。
简言之,我们需要新的网络架构。客观来看,英伟达主导的InfiniBand因其自身特性,是当前市场主流选择,但InfiniBand在产业开发性、部署成本方面非常不友好。还有很重要的一点,在云谲波诡的地缘政治环境下,产品与解决方案的可持续获得性也是个问题。
InfiniBand不行,我们可以选另外一条技术演进路径,从底层革新传统以太网机制,同时又最大限度的利用以太网产业的开放性和成熟性。乱拳打死老师傅,这的确是个好主意!
从以太网这条技术路径来看,主要有两个流派。一种是采用大量的私有协议,自己做深度优化,性能的确是很强,国内有些云服务商走的是这条路;一种是用开源社区思路,“众人拾柴火焰高”,比如国内主导的GSE,是美国主导的UEC,都是这个思路。
但需要强调的是,UEC和GSE的先后关系。很多人先入为主的认为,我国在智算领域落后于美国,GSE是在拾UEC牙慧!但事实刚好与之相反。在2023年5月份,中国移动联合10余家中国企业率先发布全调度以太网技术架构(GSE)白皮书,这标志着GSE技术的确立。几个月之后,包括英特尔、AMD、HPE、Arista、Broadcom、思科、Meta和微软等主导成立的超级以太网联盟(UEC)才成立。
GSE能够给行业带来什么?我觉得最重要的有两点:
第一,给了智算中心服务器互联更多选择。在云谲波诡的地缘政治环境下,可选择性、可获取性比性能、成本本身更为重要。况且,GSE也在快速的走向成熟,形成标准开放的技术体系!
第二,给了中国AI产业路径更多选择。在先进算力芯片受限的前提下,我们只能通过别的方式来弥补,“以网强算”是个必然路径。但网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”。我们单纯的从这个公式来看:集群有效算力={GPU单卡算力*总卡数*线性加速比*有效运行时],前面这几个变量我们都受限,更需要做好GSE这篇文章。
GSE应该怎么去落地?
首先,我们要有自信。AI特别是AGI就是未来的方向,在这点上,是没有任何疑问的。在AGI落地的技术路径上,“以网强算”是个必然选择。
我们有全球最好的网络基础设施,有全球最好的移动通信网络基础设施,有全球技术最为领先的400G光传送网。当然,我们也完全可以有最优的智算中心网络,或者智算中心机间互联技术生态。在挑战或者取代IB的这条道路上,UEC可以做到的,GSE为什么不能做到呢?
其次,产业链形成合力。孙凝晖院士说的好,国内智能计算生态孱弱,更为严重的是国内企业之间山头林立,其实在机间互联技术选择上也一样。比如在今年的云网智联大会上,就有类似的声音出来,认为GSE是中国移动主导的,是个个体行为,UEC才是主流。
从全球来看,特别是从用户的CAPEX来看,UEC的确是远远超过GSE;但国内企业在UEC中到底有没有,有多少话语权,这都是疑问。对于GSE而言,的确是中国移动倡导成立的,但GSE发展离不开开放性,GSE推进计划现在已经有40多家成员,既要最大限度兼容以太网生态,更要最大限度包容产业生态。
还是要小步快跑。智算中心的发展和演进,和传统的CT行业是不同的,标准是个很有意思的问题,是在发展中不断地凝聚共识、优化技术路径;小步快跑才能形成可持续的社区繁荣生态。从GSE的发展历程来看,也的确在朝着这个方向前行。特别是在上个月,《新型智算中心以太网物理层安全(PHYSec)架构白皮书》的发布,说明了GSE产业链的努力。
最后,当然也是最重要的,要用“诚意”和“信心”去培育、催熟产业链。所以,在今年的中国移动算力网络大会上,当高总宣布要开展GSE“中试”时,产业链还是很受鼓舞的。可能有些读者对于“中试”不是很清楚,翻译过来的意思就是“现网试商用”!这也凸显了中国移动在推动民族智算和AI产业发展中的央企担当。当然,我们也相信中国移动具备这样的能力,无论是从传送网100G到400G的跃迁,还是从移动网从3G到5G的嬗变,或亦是承载网从PTN到SPN的沿革,中国移动都已经证明了自己。GSE,我们相信同样如此!
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。