NVIDIA 800G以太网交换机在xAI的Colossus中实现零延迟

人工智能 (AI) 领头羊 NVIDIA 最近宣布,Colossus 是世界上最大的超级计算机集群,用于训练 xAI 的 Grok 系列大型语言模型(LLMs),它依赖于 NVIDIA 的 800 Gbit/s Spectrum SN5600 以太网交换机以及该公司Spectrum-X 以太网网络平台中的其他产品,用于 Colossus 的远程直接内存访问 (RDMA) 网络。NVIDIA 表示,该平台“旨在为使用基于标准的以太网的多租户、超大规模 AI 工厂提供卓越的性能”。

Colossus 目前包含 100000 个 NVIDIA Hopper GPU(图形处理单元),并且正在翻倍以包含 200000 个 Hopper。Colossus 位于美国田纳西州孟菲斯。

NVIDIA 在宣布以太网平台在集群中的作用时表示:“xAI 和 NVIDIA 在短短 122 天内就构建了支持设施和最先进的超级计算机,而这种规模的系统通常需要数月到数年的时间框架。

“Colossus 是世界上最强大的训练系统,”Elon Musk 在 X 上说,“xAI 团队、NVIDIA 和我们的许多合作伙伴/供应商都做得不错。

NVIDIA 进一步报告说,在网络结构的所有三个层中,由于流冲突而导致的应用程序延迟降级或数据包丢失为零。“它通过 Spectrum-X 拥塞控制保持了 95% 的数据吞吐量,”NVIDIA 表示。“标准以太网无法大规模实现这种性能水平,因为标准以太网会产生数千次流冲突,而数据吞吐量仅为 60%。”

“AI 正在成为任务关键型,需要提高性能、安全性、可扩展性和成本效益,”NVIDIA 网络高级副总裁 Gilad Shainer 说。NVIDIA Spectrum-X 以太网网络平台旨在为 xAI 等创新者提供更快的 AI 工作负载处理、分析和执行速度,进而加快 AI 解决方案的开发、部署和上市时间。

xAI 的一位发言人表示,它已经构建了世界上最大、最强大的超级计算机。NVIDIA 的 Hopper GPU 和 Spectrum-X 使我们能够突破大规模训练 AI 模型的界限,创建基于以太网标准的超级加速和优化的 AI 因素。

Spectrum SN5600 支持高达 800 Gbits/s 的速度,基于 Spectrum-4 交换机 ASIC。xAI 正在将 Spectrum-X SN5600 交换机与 NVIDIA BlueField-3 SuperNIC 配对。

NVIDIA 在公告结束时表示,用于 AI 的 Spectrum-X 以太网网络“带来了先进的功能,可提供高效且可扩展的带宽,具有低延迟和短尾延迟,以前是 InfiniBand 独有的。这些功能包括采用 NVIDIA Direct Path Placement 技术的自适应路由、拥塞控制以及增强的 AI Fabric 可见性和性能隔离,这些都是多租户生成式 AI 云和大型企业环境的关键要求。

11月7日,由千家网联合陕西省土木建筑学会智能建筑与智慧城市专业委员会、陕西省土木建筑学会建筑电气专业委员会主办的2024年第25届CIBIS建筑智能化峰会西安站将在西安万丽酒店隆重举办。届时,来自中国建筑西北设计研究院 、西安电子科技大学、中国电建西北院等业内专家将携手全球知名智能化品牌企业,共同探讨绿色低碳、健康建筑、智慧楼宇、建筑能效管理等热点话题,分享如何利用更智慧、更高效、更安全、更低碳的智慧技术,共同开启未来美好智慧生活。

欢迎建筑智能化行业小伙伴报名参会,共同分享交流!

报名方式

成都站(11月05日):https://hdxu.cn/7FoIq

西安站(11月07日):https://hdxu.cn/ToURP

北京站(11月19日):https://hdxu.cn/aeV0J

上海站(11月21日):https://hdxu.cn/xCWWb

广州站(12月05日):https://hdxu.cn/QaqDj

更多2024年峰会信息,详见峰会官网:http://summit.qianjia.com

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-11-01
NVIDIA 800G以太网交换机在xAI的Colossus中实现零延迟
该集群保持了 95% 的数据吞吐量,并且由于流冲突而导致的应用程序延迟下降或数据包丢失为零,NVIDIA 表示,以前只能通过 InfiniBand 获得性能。

长按扫码 阅读全文