数说品智联接 | 一张网支撑AI端到端应用,哔哩哔哩与华为联袂演绎高维度算网融合

从探索人类前沿科技的超算,到普通人掏出手机就能体验的智能推荐算法,每套以至高算力为目标的集群系统都需要解决一个算力之外的关键问题——网络。

是的,分布式技术用「把大问题拆成小问题」的方法为人们提供了一条以量变实现质变的可行路径。但分开进行的海量计算总还是需要一个汇总结果并继续推进计算的过程。而这一过程对网络的带宽、延迟和丢包率都提出了极高要求。以目前流行的深度学习算法为例,0.1% 的丢包率就会带来 50% 的集群效率降低。

在构建算力集群时,用户通常有两种选择:一种是没有丢包困扰成本较高且生态封闭的 Infiniband 网络,另一种则是性价比更高但需要花费精力降低延迟和丢包率的以太网技术。而对于更看重效率效果的互联网行业来说,答案只有一个——这些特性全都要!

哔哩哔哩基于业务发展需求

需要建设一张高性能计算网络

哔哩哔哩,简称「B 站」,一个有用有趣的综合性视频社区,被用户们亲切地称为「百科全书式的网站、没有围墙的图书馆,成长道路上的加油站,创作者的舞台」。截止 2024 年第二季度,B 站日均活跃用户达 1.02 亿。围绕用户、创作者和内容,B 站构建了一个源源不断产生优质内容的生态系统。基于 AI 的「千人千面」内容推荐算法,B 站能把好内容推荐给感兴趣的用户,进入内容量与用户活跃度双向激励的正循环。而要在海量内容、庞大访问量、亿级用户的背景下,完成精准的内容推荐,B 站需要一套高性能网络为用户提供服务。

面对实时更新的内容和快速变化的用户关注点,B 站的 AI 算力集群要尽可能快地完成「样本导入——训练——模型导出——推理」的完整业务流程,缩短 AI 技术与业务应用之间的距离。需求看似稀松平常,但这个「快」字却对应了多维度的底层技术挑战。

其一,拉通整个 AI 业务流程,实现业务整体的快。

「样本导入——训练——模型导出——推理」等各个功能的子集群需置于同一张网络之中,形成一张庞大的算力网络;尽可能让数据和模型更快传输,让不同功能形成整体,实现业务层面的快。

其二,在关键的训练集群内部,网络延迟要足够低。

大模型训练过程对网络延迟非常敏感,高延迟不仅会影响 GPU 节点之间的同步性和一致性,让 GPU 花费更多时钟周期来等待计算结果和参数的同步,更会影响整个集群的可扩展性和算力利用率。

其三,在「算网一体」的宏观趋势之下,算力方案与网络架构应保持高度匹配。

算与网就如同车和路,二者的高度匹配才能大幅提升系统整体运行效率,并为后续的运维管理和升级扩容带来更大提升空间。

一面是业务层面的严苛需求,另一面则是缺货、禁售等外部因素所带来的巨大不确定风险;经过对网络、计算、经验和供货等诸多因素的考察比对之后,B 站选择牵手华为,共同构建新一代 AI 算力集群。

用以太网统一承载

让 AI 算网一体高度统一融合

数说品智联接

图 1. 多网融合网络架构图

B 站网络技术团队与华为联合设计了基于以太网的「一张网」算力集群建设方案。该方案通过华为 CE16800 系列核心框式交换机,能够将海量样本数据的存储集群、包含海量 GPU 计算节点的训练集群和负责业务应用的推理集群整合成一张庞大的业务网络,为每个业务功能提供足够的数据带宽。使用一张网联接数据和业务、训练和推理,打通功能之间的烟囱壁垒,提升业务整体运行效率。相对于私有化的 Infiniband 网络,使用统一且开放的以太网通讯协议也有助于降低系统总体建设成本,并保持「一张网」内部的架构统一、协议统一,继而降低建设、运维的成本及难度。

在网络架构确定之后,接下来是选择 AI 算力网络的硬件选型和组网方案。在组网硬件选型上,华为提供多种硬件组网方式,典型的有盒盒组网方案,盒框组网方案,框框组网方案。通过双方多次技术交流,综合 B 站机房现场环境条件、硬件成本等多方面考虑,B 站选择盒盒组网的方案,如下图所示,构建的是一张千卡规模的 AI 算力集群。

数说品智联接

图 2. 华为昇腾组网架构图

为了满足 AI 算力训练集群对网络延迟的苛刻需求,B 站技术人员联合华为工程师一起对整张网络实施了细致入微的架构设计和配置优化。AI 算力网络总体按经典的 Spine-Leaf 两层 CLOS 组网设计落地,但基于大模型训练对于网络通信特点,在接入层稍微做了些变动,同时使用 4 台 LEAF 交换机连接 GPU 服务器的多个网口。整个网由 8 个 POD 构成,每个 POD 包含 8 台 GPU 节点,每台 GPU 配置 8 张 400G 以太网卡,每个 POD 可容纳 128 张 GPU 卡,从而整个集群规模可达 1024 张 GPU 卡。在 SPINE 层面,使用 16 台 400G 交换机来实现 8 个 POD 网络联接的对称对等。路由设计方面全网使用了 EBGP 路由协议,当链路出现故障时网络自动收敛。在高带宽和低延迟要求方面,全网使用 RDMA 技术且同时启用华为交换机特性 NSLB(NetworkService Load Balance,网络服务负载均衡)功能。RDMA 技术无需 CPU 和系统内存参与的显存数据交换,能够提高通讯效率,减少系统开销;而 NSLB 则是华为的独有技术,可结合管理模块实现全流量的秒级感知来,继而通过高效网络编排来减少网络拥塞、丢包和锁死情况的发生,提升训练过程的可靠性,减少重新加载 checkpoint 的次数,以达成加快训练的效果。通过网络架构的合理设计和多种先进技术的综合应用,在训练集群内部实现 400G 高带宽互联、互联链路冗余、通信路径最优、Leaf 上下行带宽 1:1 等众多先进特性。而在业务层面这些技术与特性便意味着低延迟和全网无阻塞。

在多种网络流量模型和 GPU 通讯库(NCCL 和 HCCL)验证过程中,华为昇腾整套网络方案在同 Leaf 下点对点网络带宽利用率超 98%,延迟最低 2.8 微秒;「多对一」带宽利用率 80%,All-to-All 和 AllReduce 过程带宽利用率超 98%。而在跨 Spine 测试中,华为昇腾整套网络方案仍能实现超 98% 的带宽利用率和最低 5.6 微秒的延迟;并能在「多对一」通讯中实现 80% 的带宽利用率和超 90% 的 All-to-All、AllReduce 带宽利用率。

数说品智联接

图 3. 服务器集群布线

数说品智联接

图 4. 网络集群布线

以上图 3 和图 4 为华为昇腾整套网络解决方案在 B 站数据中心落地示意图,在部署实施层面,华为配合 B 站网络技术团队完成网络规划、实施前期准备、交付前全网参数调优、HCCL 通讯集参数调优和验收测试等流程,为业务上线做好充分的准备。同时为了保障整个集群的长期稳定运行,华为与 B 站一起对机房现场网络布线做了高标准落地,每条线缆有序布放、捆扎,降低排查链路故障等问题的难度,提升运维效率。

算网一体

让互联网+AI 盛放未来

不仅 B 站,流量大、数据多、用户多是所有互联网业务的典型特征。而在 AI 业务落地的过程中,对单卡算力的锱铢必较已成过去时;借助先进网络来构建千卡、甚至万卡集群来应对业务挑战才是主流选择。因此,「算网一体、高度匹配、相互优化」也顺势成为互联网企业构建新一代基础架构时关注的重点。

对于广大行业客户而言,华为所拥有网络解决方案能力、算力解决方案能力、庞大合作伙伴体系、丰富的规划和实施经验正是构建新型基础架构、落地 AI 业务之所需。与此同时,华为亦在通过不断的底层技术创新和上层体验优化来实现解决方案与服务的持续精进,为互联网企业铺就通向未来的宽阔坦途。双方的相向而行也造就了华为与互联网企业联合创新、共同探索的一段段佳话。

十年前,脱胎于互联网业务逻辑的「互联网+」概念火遍全国,助力千行百业实现了业务和经营理念的跨越式升级;十年之后,互联网又成为了拥抱 AI 技术、引领基础架构和业务升级的先锋军。

能够与互联网产业相伴同行、共赴未来,不仅是华为的荣幸,也是 ICT 产业技术探索、实现价值的绝佳路径。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )