北邮教授顾仁涛:光+计算深度融合,大规模连接或成关键挑战

7月18日消息(赵婷婷)今天下午,由CIOE中国光博会和C114通信网联合举办的“2024中国光通信高质量发展论坛”最后一场线上活动“智能光网络:应对算力新挑战”顺利召开。

北京邮电大学教授、未来学院常务副院长顾仁涛发表题为《智算光网络:面向“光+计算”探索与展望》的主题演讲。他表示,随着数字经济的迅猛发展,计算和网络技术的深度融合变得愈发重要。在这个背景下,将智能算力与超大容量光网络相结合,正在引领着未来网络的发展方向。

“光+计算”将成为未来发展趋势

顾仁涛表示,当前,大模型市场的蓬勃发展与算力的快速增长密不可分。算力不仅是支撑大模型发展的基础,更是驱动数字经济前进的重要引擎。智算中心作为发展最快的一种算力供给形式,已经成为全球人工智能算力的主要增量。同时,算力的发展也对运力提出了巨大挑战,预计骨干网带宽将增加1000T以上,对枢纽间的带宽运力带来了巨大压力。

光网络作为连接算力的重要基础设施,其超高速率、超大容量和超长距离传输的特性使其成为当前通信网络的核心组成部分。随着智算算力的快速发展,光网络必须不断提升其带宽和传输效率,以满足日益增长的算力需求,确保数据的快速、可靠传输。

“光网络将成为支撑算力业务的重要底座,是承载智算中心算内和算间业务的基础设施,‘光+计算’将成为未来的发展趋势。”顾仁涛说道。

他指出,面向智算中心业务,光网络在大规模提升算力、高吞吐提高容量、低时延保障效率、高可靠保障训练和超远距离互联五个方面提出了新的要求。

具体而言,面对大规模算力要求,光网络高带宽特性支持大规模数据传输,以支撑大规模GPU集群的需求;通过多波段扩展、频分复用、空分复用等技术,光网络可以提供大规模数据传输,提升网络容量;在光模块方面,LPO/LRO等新型封装技术的出现可以提升光电转换的处理速度,同时改善算力集群的功耗;光纤和光交换机作为传输设备和交换设备,因其低损耗的特性可以为智算网络提供无损传输介质;此外,包括OTN在内的传送网络因其大带宽、低时延的特点、强保护的特点,是算力拉远场景下的基础支撑。

分智算中心内部和智算中心之间两个场景来看。就算内而言,光电混合的智算中心会是未来的主要趋势。电层负责突发性小颗粒传输,适用于需要快速响应和局部连接任务;光层则处理周期性的大颗粒传输,较长距离的数据传送需求。通过构建光电混合智算中心,架构实现了两者的优势互补。

从算间来看,IP和光的协同会变得更为关键。为了实现计算资源和网络资源的高效协同,将IP层的传输灵活性与光层的高速传输特性结合,形成了多链路IP+光的灵活可编程并行传送网络。

智算光网络关键技术

接下来,顾仁涛从算内、算间、算间算内一体化三方面介绍了智算光网络的关键技术。

算内方面,在器件上,当前光模块在算智中心的大数据量传输中可能会面临带宽瓶颈,同时对稳定性和成本都有更高需求。光模块的更新可以提高光电转换的效率,从而满足智算大带宽低功耗的需求。例如LPO技术具备易插拔、易维护的优点,降低功耗和延时的同时,还可节省50%的光学能耗和25%的交换机能耗。

在交换技术上,光交换机的提升方向主要集中在透明传输特质的利用以及成本和性能的优化上。与传统的InfiniBand交换机方案相比,OCS方案具有更低的成本和功耗,另外3D-MEMS技术的光交换机凭借低成本以及优秀的性能未来将更适用于智算中心。同时,在智算中心内部流量具有流数少、单流带宽大的特征,长短流场景下存在资源利用率低的问题,需要一种能够灵活应对多粒度流量的技术。光电混合架构不仅能处理单一流量,还能应对多种流量类型,实现资源的高效利用。

“超大规模的训练过程中,一个计算中心可能在功耗、空间等等方面确实也不能满足需求,所以算间互联就成为一个必然的选择。”他说道。

随着算力业务的增加,算力部署也变得更加多样化。分布式智算中心因其盈利能力、抗风险能力和算力设施的弹性,预计将成为未来的重要候选方案。在这种部署中,OTN等高速传输技术将扮演关键角色,提供了高带宽、低延迟、灵活性和高可靠性的解决方案。

在传输上,新型光纤在智算网络中心间互联意义重大,其高速率低损耗特征,满足大带宽、低时延传输需求;可编程拉曼放大器作为长距传输再生器,支持超宽谱增益的精准调优,满足波段扩展带来的新挑战。

在组网上,算网协同管控是关键技术之一,网络资源池化,满足多维异构网络和算力资源的统一管控需求;支持“隐私保护”的多主体协作式资源分配,支持跨域任务需求;拓扑结构重构也非常重要,找到最佳的IP+光网络拓扑,实现根本性资源重构,保证网络的灵活性和适应性;采用基于感知的重构式故障恢复方法,保障智算组网高可靠需求。

此外,端到端一体化的光网络技术旨在构建算内和算间的一体化连接,满足任务的定制化需求。端网协同的算内算间一体化衔接可以实现端到端的全生命周期管控。通过多波段光网络支持的虚拟网络嵌入方法,实现业务的定制化需求。

发言最后,顾仁涛表示,面向未来,数字孪生技术将成为智算光网络发展的重要使能技术,为面向“光+计算”的融合网络提供数据基础、模型基础。另外,智算和自智之间会逐渐融合。自智的智算光网络将通过“感知-决策-执行-保障”闭环,实现AI赋能的光+计算系统。

但与此同时,智算光网络还面临很多挑战。在算内,如何实现高效、低成本和多粒度的交换模式还是一个问题。在算间方面,如何在超长距离下解决拥塞控制和冲突、通过优化TCP/UDP来保障吞吐量等都是亟待解决或者明确的问题。面对大规模的逻辑上“All-to-all”连接,如何利用算力和网络之间的耦合关系降低网络部署成本,也是一个值得深入挖掘的领域。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-07-18
北邮教授顾仁涛:光+计算深度融合,大规模连接或成关键挑战
北邮教授顾仁涛:光+计算深度融合,大规模连接或成关键挑战,C114讯 7月18日消息(赵婷婷)今天下午,由CIOE中国光博会和C114通信网联合举办的“202

长按扫码 阅读全文