中国电信刘昊:算网协同,开放光网络助力智算中心高质量发展

5月23日消息(水易)今日,CIOE中国光博会与C114通信网联合举办“2024中国光通信高质量发展论坛”第四场研讨会——“AI时代:数据中心光互联技术新趋势”正式上线。会议邀请电信运营商、互联网服务商、云计算厂商、模块芯片商、科研院所、业内专家,深入探讨光互联和全光交换的应用及其面临的机遇和挑战。

中国电信研究院高级工程师刘昊表示,AI大模型的出现,驱动新型算力基础设施建设不断发展,传统数据中心加速向智算中心转型,对网络的规模、时延、带宽和可靠性等方面提出新的发展需求与挑战。

数据显示,截至2023年底,我国智能算力规模突破230EFLOPS,全面超过通用算力,并且差距逐渐拉开。中国电信积极响应国家政策,在全国范围内部署智算中心集群,推动智算中心高质量发展。

智算中心内部光互连

中国电信集团科技委主任韦乐平曾表示,以ChatGPT为代表的AI大模型近中期主要影响DCN网络。DCN顾名思义就是数据中心内部网络,智算中心内部网络也包括其中,AI大模型训练需要DCN具备大规模、高带宽、低时延、零丢包等能力。

刘昊介绍,AI大模型训练参数已达到千亿-万亿的级别,需要千/万卡GPU集群来满足计算任务,大规模组网成为刚需。同时,GPU网卡之间需要传输大量参数、梯度信息,高带宽传输能力不可或缺。对于实时性要求高的应用,难以预测的动态时延会对网络性能造成严重影响,需重点关注时延和抖动指标。更为重要的是,千分之一的丢包率,将导致AI算力下降50%。因此需要构建无损数据中心网络。

目前智算中心大规模组网主要有IB和RoCE两种方案。对于IB组网,英伟达能够提供从GPU到服务器到交换机的全家桶式一体化解决方案,但成本高。RoCE基于以太网RDMA技术,目前已发展到第二代,可以复用现有的以太网设备,成本低,备受青睐。

对于智算中心网络的高带宽需求,直接反映在光模块的应用上。随着交换芯片容量来到51.2T,800G光模块开始崭露头角。面对光模块大规模部署应用,成本和功耗问题日益显著,打造绿色、低碳的智算中心势在必行。

为了改善千卡/万卡集群算力消耗的功耗和时延,LPO/LRO新型光模块备受关注。刘昊介绍,目前产业正加快标准化进程,今年3月,12家单位成立LPO-MSA联盟,旨在定义LPO系列标准,不过能否实现规模化应用有待时间检验。

想要进一步降低设备的处理和转发时延,基于SDN的光路交换技术(OCS)来到聚光灯下,为智算提供一种新型组网方案。目前谷歌和英伟达都有相应方案,器件方面Lumentum、光迅都称有相应产品。不过,是否能充分发挥其自身优势取决于应用方式,控制器需要升级以满足无损应用。

智算中心之间光互连

AI大模型的持续火热,对算力的需求持续攀升,超大规模智算中心资源日渐稀缺,跨区域算力协同成为算力资源的重要补充。

刘昊介绍,以中国电信为例,目前已经在全国范围内部署众多智算中心,同时大量中小型智算中心算力不足,考虑到合理利用,通过对跨区域中小型智算中心进行组网,实现远距离算力协同调度。

对于智算中心拉远需求,WDM/OTN是不二之选,其大带宽、低时延、强保护等特性,能够为智算提供稳定的传输管道。刘昊表示,不同于在同一智算中心执行训练任务,智算中心拉远面临一系列挑战,包括传输时延对模型训练的效率影响,远距离通信如何做到无损传输,传输设备引入的建设成本,不同类型设备之间能否解耦。

在刘昊看来,拉远场景下开放的智算光网络系统有助于提高模型训练效率,短期方案是信息实时共享,这需要制定协议,如传输侧感知无损业务类型、带宽、VLAN等,IP侧感知时延、带宽等;终极目标是控制器管理所有设备,需要跨专业协同,难度大。整体来看,DCI场景下跨域设备管控方案建议标准先行。

据了解,在开放解耦的道路上,中国电信具备一定的经验积累。中国电信的DCI-BOX盒式波分设备经过两期发展迭代,具备城域内组网能力,支持10G-100G业务接入能力,单波200G/400G,具备光层组网能力,可覆盖满足大带宽数据中心互联、城域波分组网场景。

对于DCI-BOX能否继续在智算场景发挥价值?刘昊认为,盒式波分设备支持城域组网,具备向800G演进的水平,其开放解耦的特征能够支撑智算拉远场景应用。

刘昊介绍,近期中国电信北京公司在现网完成城域三节点无损智算网络部署,采用800G组网方案,分布式训练性能达到集中式单智算中心训练性能的90%以上,证实了分布式无损智算网技术方向的可行性。后续,中国电信将在此基础上进一步验证更高速率组网方案,以及尝试采用空芯光纤降低传输时延,验证其对运算效率提升的影响。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-05-23
中国电信刘昊:算网协同,开放光网络助力智算中心高质量发展
中国电信刘昊:算网协同,开放光网络助力智算中心高质量发展,C114讯 5月23日消息(水易)今日,CIOE中国光博会与C114通信网联合举办“2024中国光通

长按扫码 阅读全文