百度资深工程师周谞:大模型背后的数据中心光网络演进

5月24日消息(岳明)CIOE中国光博会与C114通信网昨日联合举办的“2024中国光通信高质量发展论坛”第四场研讨会——“AI时代:数据中心光互联技术新趋势”正式上线。会议邀请电信运营商、互联网服务商、云计算厂商、模块芯片商、科研院所、业内专家,深入探讨光互联和全光交换的应用及其面临的机遇和挑战。

会上,百度资深工程师周谞应邀作了题为《数据中心光通信技术趋势》的主题演讲,重点介绍了数据中心之间DCI光互联、数据中心内DCN光互联,以及在现有大模型下,OTN与其结合等光通信技术问题。

从灵活系统到智能化运维,助力DCI光互联

周谞表示,在数据中心之间DCI光互联方面,城域单波传输技术大致每3~4年有一次迭代,从2017年至2019年的单波200G,波道间隔50GHz,到2020至2023年单波400G,波道间隔75GHz,到现在已经到来的单波800G,波道间隔150GHz,单波速率的提升能带来成本的降低,也存在速率迭代年限与机房系统使用年限不匹配的矛盾。传统方案中,固定的间隔和限定速率,在应用更新一代的单波传输技术时,使系统难以引入更高速率的电层板卡。

2023年,百度引入了FlexGrid系统,其灵活网格方案波道可变功能,取代传统使用的固定间隔的AWG功能。灵活系统方案可以实现在无需改造条件下,适应不同速率,实现400G和800G系统的平滑升级。根据场景,选择最优的速率,整个系统的频谱得到更好利用,以期在2024年这一800G速率换代时期,取得更好的收益。

此外,随着数据中心之间业务云化,以及云规模的日渐增大,同一云业务可能被部署在不同数据中心,这就对数据中心之间传输稳定性提出更高要求。周谞表示,传统传输系统保护倒换时间大致在50ms,这一时间在电信领域存在近20年,而通过高速磁光开关取代传统的机械式光开关,及优化DSP等,第一次实现了5ms高速保护倒换时间。同时,在设备出现业务中断的情况下,通过传输设备主动介入技术,实现整体网络的相对稳定。

IP over WDM方面,随着光子集成技术的发展,通过封装技术实现光信号直接从交换机出来后具备长距离传输能力,改变传统的需要额外电层设备完成线路到客户的转换过程。当然,这需要IP+光统一网管协同,适用机房之间近距离传输。同时,这种相关光模块对接上,测试中面临着个别厂商模块抗裂化能力差,不同厂商对接上的难题。

在传输的运维和管理上,大部分现有厂商采用的是开放式光传输系统的方案,所有设备通过统一建模,完成设备与网管之间的交互,再通过统一的网管实现对所有设备的管理,提升自动化开发效率。从传统运维,各厂商自己完成从网管到设备,到统一化运维,统一网管,统一运维培训体系,再到智能化运维,本质上是为了更进一步提高效能。

CPO未来有可能成为GPU互联重要方案

周谞表示,在AI时代,整个数据中心内部对光互联的需求也非常大。HPN网络主要是针对GPU训练集群的专门网络,其里面存在多种训练方式,以实现不同GPU之间信息共享,而GPU 卡之间的通信带宽速率的提升,会带来训练时间的减少,以及成本的降低。但是大模型参数增长非常快,数据中心内光宽带如何跟上节奏,成为非常重要的议题。以 IB/RoCE 为代表的跨GPU 服务器互联技术,当前速率在400G/800G时代,伴随训练规模的变大和算力的提升,未来向1.6T及更高速率发展。虽然现有的交换机加光模块形式能满足一些需求,但却面临更大的成本和功耗压力,这就引出了对线性直驱光模块(LPO)的需求。

相比传统光模块,LPO将DSP功能集成到芯片中,降低了模块的功耗和成本,具有良好的可维护性。当然,除了传统光模块和线性直驱光模块方案外,还有其他也有一些方案,比如联合封装技术(CPO)方案,其将光模块功能集成到芯片上,因光子器件离芯片更近,可实现更低的功耗。随着GPU互联对功耗,带宽的要求,CPO将有可能成为GPU互联的一种重要方案。

OTN与大模型结合方面,百度建立了文心大模型,训练方式包括提示词工程提高大模型唤起的准确率、更高级别的基于人类反馈的强化学习等,让大模型更了解应用场景。整个开发流程可以理解为,用自己的数据生成,注入到大模型训练,得到更理解应用场景的一个大模型,比如OTN大模型,再把这个大模型部署到整个应用环境中,去完成大模型推理等。

周谞表示,OTN和大语言模型的相互结合,是值得去关注的一个方向。因为传统的运维更多的是基于GUI的界面,即图形界面,随着大语言模型的兴起,其实可以很好的实现人机基于自然语言的对话,慢慢地可能会形成GUI和LUI,即图形交互和自然语言交互的一个运维场景,得到更加懂我们的OTN大模型。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-05-24
百度资深工程师周谞:大模型背后的数据中心光网络演进
百度资深工程师周谞:大模型背后的数据中心光网络演进,C114讯 5月24日消息(岳明)CIOE中国光博会与C114通信网昨日联合举办的“2024中国光通

长按扫码 阅读全文