鹏城实验室张士勋:软硬件协同优化,助力智算网络发展

1月16日消息(陈宦杰)AI时代已经来临。大模型等新兴AI应用需求海量的算力支撑,一座座智算中心拔地而起,规模庞大的万卡集群逐渐投入商用。如何更好地实现智算中心互联,服务AI应用创新发展,业界做了大量研究工作。

1月16日,作为“2025中国光通信高质量发展论坛”的开篇之作,“智算中心互联:算网协同,构筑智算互联新底座”线上研讨会顺利召开,邀约产业链专家代表,围绕智算中心间跨地域、跨层级、跨主体、高可靠的算力协同与调度,以及智算中心互联关键技术等话题展开了深入探讨。

研讨会期间,鹏城实验室云脑研究所副所长张士勋应邀作了题为《智算中心高性能网络系统多维度思考》的主题报告,深入分析了智算中心的计算模式与智算网络的多维度特征。

并行方案解锁大模型高效计算

历经数十年的发展,AI模型的参数规模持续膨胀,模型的种类逐渐收敛。当下,智算中心已成为大模型训练与推理的核心舞台,通过将单一计算任务巧妙切分,并运用数千甚至数万个AI芯片加速执行,智算中心有望实现堪比单台计算机执行一个任务的高效协同作业。

在攻克AI芯片间的高效协同难题,进而推动智算中心向“DC as a Computer”演进的征程中,如何通过并行方案赋能大模型高效计算,是一个亟待破解的关键课题。

目前,业界已形成多成熟的并行方案,如张量并行、数据并行、流水线并行。张量并行将矩阵精准切分,再把不同的矩阵块分别置于不同的 GPU 上,通信频繁且通信量较大,但为模型的高效训练提供了有力支撑;数据并行巧妙地将训练数据进行切分,使每个GPU能够独立训练其中的一部分数据,降低了通信量;流水线并行依据模型架构的层次进行切分,将不同的层分别放置于不同的GPU上,只在层的交界处进行通信,使得通信量相对较小。不同类型的并行方案需要不同的通信策略和网络架构支持,智算中心互联架构的发展方向有待进一步探索与研究。

智算网络的四大特征

谈及智算网络的多维特征时,张士勋例举了四大关键点。

其一,智算网络以GPU为中心。GPU成为算力的提供者,数据存储于其上。因此,GPU卡间通信成为主要的通信模式,通过RDMA网络,可以实现高效的数据交换。

其二,在智算网络中,GPU的通信模式比较固定。卡间的通信模式具有很高的确定性,典型集合通信模式能够覆盖绝大部分场景。

其三,智算网络采用双平面的组网方案,兼具高带宽与低时延特性。其中,Scale-out网络适用于大规模组网,涵盖数万到数十万GPU的庞大集群,协议基于InfiniBand/RoCE,速率可达400Gbps/800Gbps;Scale-up网络则是局域高带宽网络,覆盖数个至数百GPU的小集群,协议基于NVLink/HCCS等,速率高达数Tbps级。

其四,智算网络需要软硬件协同优化。在传统的计算模式下,计算和通信依次执行,通信环节的占比可能超过50%,这导致GPU长时间处于空闲状态。经过优化,通信和计算实现了相互叠加执行,GPU约有35%的时间用于等待通信。自2022年之后,通信和计算进一步深度重叠,业界主流的网络可以将通信占比降至7%,设备性能得以充分释放,硬件带宽和软件算法相辅相成。

此外,针对业界关心的高性能芯片供应受限的困境,张士勋表示,可以通过软件、硬件、模型的联合优化,提升训练效果,推进高水平科技自立自强。利用有限的硬件资源实现高阶的AI,是一个极具探索价值的方向。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

1970-01-01
鹏城实验室张士勋:软硬件协同优化,助力智算网络发展
鹏城实验室张士勋:软硬件协同优化,助力智算网络发展,C114讯 1月16日消息(陈宦杰)AI时代已经来临。大模型等新兴AI应用需求海量的算力支撑,一座座

长按扫码 阅读全文