腾讯李方超:光电融合创新解决方案全力支持MegaScaleOut

1月16日消息(艾斯)AI时代已经来临。大模型等新兴AI应用需求海量的算力支撑,一座座智算中心拔地而起,规模庞大的万卡集群逐渐投入商用。如何更好地实现智算中心互联,服务AI应用创新发展,业界做了大量研究工作。

1月16日,作为“2025中国光通信高质量发展论坛”的开篇之作,“智算中心互联:算网协同,构筑智算互联新底座”线上研讨会顺利召开,会议邀约产业链专家代表,围绕智算中心间跨地域、跨层级、跨主体、高可靠的算力协同与调度,以及智算中心互联关键技术等话题展开了深入探讨。

腾讯光网络架构师李方超应邀作了题为《 超大规模横向扩展网络》的主题报告。在报告中,李方超针对AI大模型飞速发展对于网络提出的全新挑战与需求进行了深入分析,并详细介绍了腾讯针对网络超大规模扩展所打造的MegaScaleOut软硬件创新解决方案。

以算力换智力存在物理上限 跨IDC的ScaleOut成为刚需

大模型的能力每2-3年就会上一个全新的台阶,同时伴随着GPU规模相应扩大了数倍乃至数10倍。如今,大模型训练已从早期GPT3的千卡规模迅速扩展至GPT5的10万卡规模。显然,AI的发展与GPU资源线性相关。不过,以算力替换智力天然存在物理资源上限。

“从业务的需求与物理供给之间的矛盾可以推断出,大园区的扩展是必然的。”李方超在演讲中介绍道,参考国际市场发展来看,以谷歌、微软、Meta为代表的北美巨头们正在积极布局算力园区,这些Hyperscalers通过在自己的优势区域部署多个子园区,以3-4个IDC的方式共建一个超大规模的算力集群,以此来实现对于电力的供应和投资安全的保证。

作为对比,在国内环境中,如果想训练一个对标GPT5或者Llama4的大模型,由于GPU的性能限制,我们可能需要更多的GPU来实现相同的算力。同时,随着多模态训练的到来,不同型号、不同性能的GPU对应不同类型的训练存在最优选择,这对于网络的灵活和任务分配带来了更多挑战。此外,由于交付与工程的因素,会存在不同型号的GPU与不同厂商的GPU混布在同一个IDC的可能,这些最终会导致出现GPU碎片池化的问题。

“因此,结合AI的发展和规模的限制,跨IDC的ScaleOut可能会成为刚需。”李方超强调。

跨IDC ScaleOut存在多重挑战 IP与光的融合成为最优解

他进一步分析称,当进入到DCI以后,收敛比与可靠将变成一个全新的挑战。

对于DCI出口而言,大象流是一个需要解决的问题。不过,通过优化拥塞控制算法与扩容带宽等方式,便可以有效应对高并发需求。更大的挑战在于解决可靠性问题,这主要归因于跨机房之后对于光缆的不可控。相比传统网络来说,无损系统在带宽下降的时候会直接影响算力能力,网络抖动与丢包也会直接影响RDMA的性能,光缆故障与抖动成为新的变数。

“根据我们的测算,在丢包0.1%数据的情况下,RDMA的吞吐量会下降10%,因此从机房内到机房间,对于跨IDC的场景,带宽充裕、链路可靠是必备的基本需求。”李方超分享了一组详细的测试数据,并指出无法简单通过光缆与设备来换取可靠性的绝对提升,其中深层次的原因在于“交换机无法实时预见到即将到来的劣化和故障”。

于是,腾讯光网络团队意识到,如果可以让交换机快速地了解物理层到底发生了什么,使交换机有时间去提前执行预定好的策略,并规避物理层的一些变化,这对于IDC的无损网络来说非常有意义。因此,该团队提出,IP与光的融合是跨园区无损网络的最优解。

李方超谈到,“针对IP over DWDM,我们正积极推动光器件的小型化与标准化,也即微光学模块。这一次我们将通过这些创新,让IP与光可以真正地拉近,实现打破硬件的隔阂,完成真正的融合。通过相干芯片与交换芯片的融合创新,我们让交换机具备了物理层健康度的评估能力,为跨IDC的Scaleout做好了一切准备。”

此外,他还详细介绍了腾讯在ODCC立项的MegaScaleOut项目组,及其在IP over DWDM当中的全新硬件DTS在解决DCI可靠性问题方面的应用,以及通过OCS全光交换设备解决DCI侧应用解决容量按需分配的应用。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2025-01-16
腾讯李方超:光电融合创新解决方案全力支持MegaScaleOut
腾讯李方超:光电融合创新解决方案全力支持MegaScaleOut,C114讯 1月16日消息(艾斯)AI时代已经来临。大模型等新兴AI应用需求海量的算力支撑,一座座智

长按扫码 阅读全文