智算中心互联:算网协同,构筑智算互联新底座

1月20日消息(水易)AI时代已经来临。大模型等新兴AI应用需求海量的算力支撑,一座座智算中心拔地而起,规模庞大的万卡集群逐渐投入商用。如何更好地实现智算中心互联,服务AI应用创新发展,业界做了大量研究工作。

1月16日,作为“2025中国光通信高质量发展论坛”的开篇之作,“智算中心互联:算网协同,构筑智算互联新底座”线上研讨会顺利召开,邀约产业链专家代表,围绕智算中心间跨地域、跨层级、跨主体、高可靠的算力协同与调度,以及智算中心互联关键技术等话题展开了深入探讨。

智算中心互联呼唤网络架构创新

中国信息通信研究院技术与标准研究所所长张海懿表示AI大模型推动智算中心向超万卡及以上集群发展,智算中心内互联、智算中心间互联、智算应用支撑等高质互联成为关注热点。

具体而言,为支撑万亿及以上量级参数量大模型训练,智算中心内互联需满足超大规模组网、大带宽、超低时延、高可用性等需求。为突破电力供应、机房空间等瓶颈,智算中心间互联成为重要补充,需要通过长距无损、极低故障率的互联能力来支撑构建分布式智算集群。为支撑多场景、多业务、大流量入算等智算业务,需要长距高可靠、任务式带宽、高效流量调度。

针对上述需求,产业界已进行了诸多探索。智算中心内互联方面,相关片间和组网互联协议技术竞相发展,集合通信库异构兼容或成未来竞争优势点,大带宽需求助推高速光模块迭代加速,线性模块方案应用持续探索,芯片级光互联提供高密度低能耗互联新方案,全光交换组网和连接可靠性成为关注点。

智算中心间互联方面,大带宽、低时延和高可靠需求凸显,智算分布式训练应用试验加速探索,干线400G规模部署,城域800G+逐步试验,G.654.E、空芯光纤灯新型光纤加速助力构建高质量网络。

智算业务支撑方面,全光接入为用户提供灵活品质入算,端到端协同管控助力用户快速入云入算,网络大模型成为网络自智迈向L4+关键技术。

在鹏城实验室云脑研究所副所长张士勋看来,智能计算需求的急剧增长引发了大规模算力基础设施建设热潮,如何构建适用于大规模算力基础设施的网络架构是关键挑战。当前,业界对智能计算网络架构的探索呈现出多元化的发展态势,而基于原始需求,性能、可扩展性、成本、可靠性与可维护性、以及可演进性始终是网络架构选型的核心考量因素。

方案创新,构建高品质智算网络

中国移动研究院副院长段晓东表示,如何将分布式部署的智算中心进行协同调度,充分发挥算力资源的最大效能,是业界亟需研究的关键问题。为此,中国移动原创提出无损智算OTN( Hitless intelligent computing OTN,HIC-OTN),从超大带宽、超高可靠、超低时延三方面构建面向智算中心的新型OTN技术体系。

据了解,中国移动在全球运营商最大单集群智算中心(哈尔滨数据中心)基于无损智算OTN(HIC-OTN)完成首个104km跨智算集群PP拉远训练现网技术试验,探索和验证了百公里级跨集群PP训练的可行性。

打造高品质智算网络的过程中,作为在业界最早提出“云网融合”理念的运营商,中国电信认为云网融合下算力和网络的发展途径也开始有了新的变化,云网融合也随之迈入云网融合3.0新阶段。中国电信研究院副院长傅志仁介绍,算力发展核心逐步变化成构建以GPU为核心的智算集群,网络的发展核心逐渐变化成基于智算架构的新型网络,向AI native Network演进。

目前,中国电信围绕云网融合3.0底座,在运力、算力、存力,以及算网融合、存算融合的云网融合底座、数据和底座融合、大模型和底座融合、应用和底座融合方面进行了一系列布局,并实现智算能力、创新环境、应用场景开放,赋能千行百业,推动数字经济发展。

中国联通研究院副院长/首席科学家唐雄燕介绍,为了更好地支撑智算互联的需要,2024年,中国联通正式发布算力智联网AINet,通过IP+光融合打造新质运力,实现算力服务与网络服务协同,构建算力互联网的新底座。

AINet具备三个重要特征,即“三高”核心能力,分别是高通量、高性能、高智能。唐雄燕表示,光网络是构建AINet“三高”能力的关键底座。AINet部署了双平面立体组网的400G ROADM全光智算网络,同时部署了智算网关,实现网络与智算的高效连接。

腾讯光网络架构师李方超表示,随着算力网络的规模化发展,大模型训练与推理应用的持续增长与园区物理资源扩展受限的矛盾愈发显著,在此背景下腾讯协同多家用户与合作伙伴一起推动Mega Scale Out项目,目标是解决园区内和跨园区扩展两个层面的关键问题与核心能力。

产业引领,助推智算互联高质量发展

AI大模型的算力增长以每年10倍的速度持续扩张,对芯片间的光互联带宽提出了极为苛刻的要求。在众多光芯片技术中,硅光芯片凭借其独特的优势脱颖而出,承载着数据中心高速光互联的技术优势。

苏州海光芯创光电科技股份有限公司首席科学家陈晓刚介绍,硅光产业链条中封测产能是关键瓶颈,为推动硅光芯片量产化发展,Fabless 2.0 在封测段提出Standard(标准化),Simplified(简单化)、Scalable(规模化)、Shared(多平台共享)四项需求。

也是随着AI智算中心高速光互联速率的提升,光模块功耗不断增加。东莞立讯技术有限公司产品经理周小丹介绍,在200G到800G时代,采用PAM4调制,功耗就从4W增加到16W;来到1.6T时代,功耗约是在30W。同时,光模块功耗的持续上升,也给系统散热能力带来了挑战。

针对这一挑战,立讯技术提供了包括DPO、LRO和LPO等多种AI低功耗的解决方案。周小丹透露,立讯科技推出的多款低功耗AI光互联解决方案,已经和业内头部的交换机和服务器厂商进行了小批量验证,无论是带宽速率、功耗、误码率还是兼容性等方面,都完全满足最终用户需求。

“2025中国光通信高质量发展论坛”是由CIOE中国光博会与C114通信网联合推出的大型研讨会系列活动,通过多场专题论坛、线上研讨会、闭门研讨会等形式,聚焦产业链薄弱环节,瞄准技术未来演进方向,发掘热点应用场景,群策群力,贡献行业价值,进一步助力我国光通信产业高质量发展。

下一场论坛将于2月27日上线,主题为“FTTR-B:赋能垂直行业数字化转型”,探讨FTTR如何在政企领域实现数字化转型,如何在中小微企业全光内部组网灵活部署,如何解决传统网络架构的带宽瓶颈和覆盖难题。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2025-01-20
智算中心互联:算网协同,构筑智算互联新底座
智算中心互联:算网协同,构筑智算互联新底座,C114讯 1月20日消息(水易)AI时代已经来临。大模型等新兴AI应用需求海量的算力支撑,一座座智

长按扫码 阅读全文