算力是数字经济的关键底座,当前智算中心的建设如火如荼,成为推动社会进步和经济发展的重要引擎。智算中心不仅需要强大的计算能力,还需要高效的数据存储与网络互联。对于智算中心而言,算力是核心、存储是保障、而网络是基础,一个高效、稳定、低延迟的网络系统对于智算中心的建设和运行至关重要。
近日,在浪潮网络2024新品发布暨合作伙伴大会上,正式发布了“元脉”全栈AI网络方案,方案以系统化视角,充分结合大模型训练与推理的实际痛点需求,为AIGC智算中心网络的构建提供全面、创新解决方案,帮助用户构建超大规模、超高带宽、超强可靠,以及高度自动化的网络系统。
需求与挑战:智算网络的“三超”特性
从发展趋势上来看:大模型正在“越做越大”,具有通用泛化能力的大模型正在不断涌现,在多个领域展现出了强大的应用潜力;同时大模型也在”越做越小”,基于通用大模型微调得到的行业大模型,以及进一步形成的垂直大模型,正在成为AI技术发展的新趋势。
随着百模大战逐渐进入白热化,万亿参数成为各大玩家竞争的高地,万卡集群成为AI算力系统设计的起点,万卡集群间的网络互联挑战被迅速放大,达到了前所未有的高度。
超大规模:网络设备的吞吐能力、端口带宽及密度、SerDes速率都需要全面提升,以支撑构建超大规模智算中心架构,组网架构也需要结合业务需求进行不断优化。
超高带宽:为了应对智算中心内海量数据的快速传输需求,网络系统必须具备超高的带宽能力,突破带宽瓶颈,确保数据在训练和推理过程中的快速、无缝传输。
超强可靠:在智算中心中,网络的可靠性至关重要。如何通过冗余设计和智能化故障检测,实现网络系统的高可用性和数据传输的连续性,对保证智算中心稳定运行非常关键。
自动化管理:随着智算中心规模的不断扩大,手动管理变得越来越复杂和低效。如何引入高度自动化的管理平台,实现网络资源的智能分配和优化,成为提升运维效率和降低成本的关键。
破局之道:浪潮网络“元脉”全栈AI网络方案
针对智算网络的“三超”挑战,浪潮网络发布“元脉™全栈AI网络方案”,它由智算网络管控&分析平台ICE、AI计算网、存储网、管理网四部分组成。方案主要优势如下:
全栈产品,全面覆盖:元脉全栈AI网络方案提供涵盖AIGC计算网、存储网和管理网的全栈产品,吞吐性能从12.8Tbps、25.6Tbps、到业界目前最高的51.2Tbps。CN9500-128D交换机(51.2T)在两层架构组网下最大支持32K GPU集群,能够满足不同规模智算中心的需求,提供高度灵活的网络架构。
融合方案,最优选择:元脉全栈AI网络方案还与计算、存储和算力调度平台等深度融合,帮助用户实现资源的最优配置和利用,融合方案带来的高性能和高可靠性,可以降低智算中心总体拥有成本(TCO)。
系统能力,最佳实践:元脉全栈AI网络方案基于最佳实践,提供系统级的优化与服务能力。自动化管控分析平台ICE,能够降低AI集群部署时间近50%,同时基于无损以太网技术可节约网络成本25%。
引领:云边协同智慧网络,构筑算力联接基石
浪潮网络作为云边协同智慧网络概念引领者,将在高性能云中心网络、多模态边缘网络、领先的融合方案方面持续发力,致力于构建开放、融合、易用、智能的网络联接力,推动算力从中心到边缘侧不断延申,助力AI+应用,让算力触手可及。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )