1月16日消息(颜翊)AI时代已经来临。大模型等新兴AI应用需求海量的算力支撑,一座座智算中心拔地而起,规模庞大的万卡集群逐渐投入商用。如何更好地实现智算中心互联,服务AI应用创新发展,业界做了大量研究工作。
1月16日,作为“2025中国光通信高质量发展论坛”的开篇之作,“智算中心互联:算网协同,构筑智算互联新底座”线上研讨会顺利召开,邀约产业链专家代表,围绕智算中心间跨地域、跨层级、跨主体、高可靠的算力协同与调度,以及智算中心互联关键技术等话题展开了深入探讨。
中国联通研究院副院长、首席科学家唐雄燕应邀作了题为《构建算力智联网AINet,推进算网协同》的主题报告。在报告中,唐雄燕结合中国联通正在建设的算力智联网AINet,探讨了对于智算中心互联网的认识,并介绍中国联通开展的相关工作。
打造算力智联网AINet
智能计算的发展对带宽和网络质量提出了越来越高的要求,主要体现在高通量、低时延、高可靠三个方面。为了更好地支撑智算互联的需要,2024年,中国联通正式发布算力智联网AINet,通过IP+光融合打造新质运力,实现算力服务与网络服务协同,构建算力互联网的新底座。
唐雄燕指出,AINet具备三个重要特征,即“三高”核心能力,分别是高通量、高性能、高智能。其中,高通量主要是针对数据传输管道,构建高通量广域网能力,提升承载计算任务的数量,保障海量计算任务高效率、差异化、分布式流通,使能算的多;高性能是指要确保智算中心网络实现零丢包、无阻塞、低时延运营,保障算得快;高智能则是通过算网大脑实现算力和运力之间协同编排和调度,提供算力与连接的融合服务,促进算得优。
对于广域网来说,主要是通过IP+光技术形成高通量能力,即打造大带宽、低时延、无损的高通量广域承载网络,提供高效灵活算力数据传输服务。当前,主要依靠建设超大容量、端到端高速直达的400G全光网络,实现高速可靠的海量数据传送。
在智算中心网络中,对网络性能要求非常高,需使用IB、RoCE等无损电交换技术,同时逐步引入光交换,实现光电融合。此外,智能管控也非常关键,中国联通研发了智算中心管控平台“智驭”,能够实现算网、光电一体化管理以及智算流量端到端优化调度,并能实时呈现网络状态。
在算网大脑层面,主要是实现算力和连接的协同编排和智能调度,提供“算力+连接”的算网融合服务。
光网络演进支撑智算网络发展
唐雄燕表示,光网络是构建AINet“三高”能力的关键底座。AINet部署了双平面立体组网的400G ROADM全光智算网络,同时部署了智算网关,实现网络与智算的高效连接。
对于光网络未来如何更好支撑智算网络,他表示,过去几十年来,光网络的演进方向一直朝着提高速率和增强智能两个方向发展。
在智算广域网方面,光网络的速率和容量快速增长是演进特征。骨干光网络已迈入单波超400G速率时代,并朝着800G方向发展。容量提升上,已经实现了C6T+L6T宽频谱系统,未来还可通过继续扩展频谱进一步提升容量。同时,AINet是基于G.654.E新型光纤,可更好支撑400G和800G超高速传输要求。
在智算中心内部,光交换扮演着越来越重要的角色。智算中心内互联架构正在从电交换向光电混合/光交换演进,可以充分发挥光连接和光交换的大带宽低时延低功耗等优势。LightCounting数据显示,光交换机OCS出货量2023年为1万台,预计2029年将超过5万台。同时,智算中心内新型光模块不断涌现,LPO、CPO等技术未来发展前景良好,尤其是在1.6T之后,光电共封装对于降低功耗、降低成本重要性凸显。
另外,在光纤技术方面,新型光纤空芯光纤近年得到快速发展。其具有更低时延、更低损耗和更小非线性,尤其是时延能降低30%,对于智算互联网来说有着非常重要的价值。例如,微软去年就宣布要部署15000公里空芯光纤。我国也在积极开展空芯光纤相关实验验证工作。不过,空芯光纤的应用仍然面临着多方面挑战。
针对三大典型场景开展试验
唐雄燕介绍,针对入算、训练、推理这三大典型智算业务场景,去年中国联通开展了一些重要实验。
一是海量数据入算场景,主要提供任务式数据传递服务,通过构建高通量数据网来增大有效带宽、提高单位带宽下数据传输通量,解决低带宽等不起、高带宽用不起等问题。去年联通开展了从上海到宁夏3000公里长距RDMA流量传输验证,通过无损流控技术以及端网协同拥塞控制等技术,端口带宽利用率从20%提升到90%。
二是存算分离拉远训练场景,政务、医疗、金融等行业租用智算中心算力进行大模型训练,因涉及敏感信息,为最大限度地防止数据泄露,需要隐私训练数据“不落盘”,进行存算分离拉远训练。为此,中国联通完成业界首例跨地市(杭州-金华)、存算分离200 km 的AI大模型拉远训练,即杭州存储、金华计算,通过广域RDMA无损高吞吐传输,保障存储与计算跨广域模型高效训练,实测训练效率大于95%(与本地数据本地训的效率相比损失5%)。
三是跨DC协同训练场景,超大规模的训练和算力租赁业务带来智算新需求,需要进行跨DC协同训练,这也是技术挑战最大的应用场景,由于跨DC涉及时延问题,往往难以保障参数面拉远下的等效算力。为验证这个场景,在中国联通临港智算中心采用了光传送网OTN技术,成功完成AI大模型300公里分布式协同训练技术验证,充分验证了跨DC协同训练技术的商用可行性,实现了300公里跨域协同训练保持等效算力95%以上,为AI大模型训练模式提供了全新的解决方案。
最后,唐雄燕指出,中国联通通过打造算力智联网AINet,可为人工智能发展提供多样性服务,包括高效入算、灵活联算、算力互联、数据快递、数据高铁、算网一体服务等服务形式,更好地赋能人工智能产业发展。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。