8月28日消息(水易)数字经济提档加速,人工智能技术和应用日新月异,智算无疑成为推动技术升级和应用进化的核心引擎,千卡、万卡,甚至是十万卡智算中心的建设如火如荼。智算集群不是简单的将算力卡堆积,而是一个高度复杂的系统性工程,同时在算力多元异构的趋势下,需要网络创新来打通智算互联互通的大动脉。
作为拥有全栈智算能力的行业“领头羊”,新华三提出“算力×联接”的技术理念,以开放标准化联接响应智算对网络提出的要求,为智能算力的广泛应用提供了坚实的基础,从而释放智能算力的无限可能。
为什么需要标准化联接?网络联接又是如何助力智算能力的释放?带着一系列问题,在第八届未来网络发展大会期间,包括C114在内的媒体对新华三集团高级副总裁、网络产品线总裁曾富贵进行了采访。
新华三集团高级副总裁、网络产品线总裁 曾富贵
开放:标准化联接促进智算创新
目前主流的智算方案几乎都是封闭“全家桶”式方案,每个厂家都有自己的标准、集合通信库等等,这一方式虽然效率有所提升,但也带来了大量的负面效果。曾富贵介绍,封闭的系统除了面临供应链的挑战外,还将带来更高昂的采购成本。
众所周知,智算中心的投资不是一锤子买卖,按需分批投资才是常态,同时基于成本和需求的考量,一个智算中心内必定会存在多种算力。而各种协议、标准等割裂不统一,给多元异构算力的互联互通带来极大挑战。如果无法形成合力,对投资是巨大的浪费。
这还只是考虑到单个智算中心,目前各区域、各行业都在建设智算中心,未来想要充分发挥和利用智能算力,跨广域的联接也至关重要。可以预想到的是,不同智算中心的方案更是千差万别,更难以互联互通。
曾富贵表示,新华三一直倡导标准化的联接、多元化的异构算力。依托在网络领域的深耕,基于通用的以太网技术,研究RoCE等标准化技术方案,利用标准化促进智算网络创新,保持持续发展的动力。
“越是标准的技术越有生命力,而封闭的生态最终会被淘汰。”曾富贵强调,虽然标准化也意味着充分的竞争,但竞争是整个产业高速发展的基础和技术创新的土壤。“只有大家走向开放解耦,整个产业才能持续深入发展,才不会扼杀创新。”
值得一提的是,开放标准的智算网络已经在产业界形成共识。目前新华三是超以太网联盟(UEC)的早期成员,同时还加入了高通量以太网联盟(ETH+ Consortium),中国移动主导的全调度以太网(GSE)等。新华三集团网络产品线系统规划与解决方案部总经理程臻介绍,虽然是不同组织,但是在技术栈和技术思想方面非常接近,只是实现手段的差异。
程臻进一步补充到,回顾通信行业的高速发展,得益于整个互联技术向以太化统一,这也是标准统一带来的魅力。“新华三的想法就是,以标准化来促进整个生态的健康,如果突破了多元异构算力的互联互通,未来算力的发展将会是大踏步前进。”
协同:算网存一体释放智算潜能
为了满足人工智能时代对算力的需求,除了大规模智算集群的建设之外,GPU的迭代速度也在加快。程臻表示:“GPU的更新速度是很快,但是其实单片GPU的能力,相对于大模型算力的需求来讲,仍然跟不上节奏。”
曾富贵同样指出,要支撑更大数据量,更快速度的计算任务,仅靠算力本身,或者说芯片的迭代已经很难跟上需求的快速增长,因此需要进行横向的技术整合,通过算网协同/算网融合技术,场景化负载均衡技术等,充分释放算力的性能,让算力应用更加高效。
如何来实现?程臻介绍,首先肯定是大规模互联技术,端口能力越大越好,从而提升传输效率,GPU的运算效率也会越高。目前400G端口已经非常普遍,800G也已经开始应用,1.6T端口也会很快面世。
第二是传送效率,智算的流量具有明显的特征,要发一起发,要停一起停,突发性很强,传统的网络路径负载分担技术难以适应这种变化,这也是为什么需要全新的负载分担技术。而新华三推荐的DDC技术,是基于信元的完全负载分担方式,不需要端侧配合,靠网络自身就能解决流量的均衡问题,满足各种智算场景需要。
第三是算、网、存一体化运维协同,全维度监控智算中心运行情况,一旦出现问题能够快速定位问题。毕竟目前算力的租赁和使用单位价格较高,客户都希望能在极短的时间内完成模型训练。“只要停下来,每停一分钟都是损失。”
可靠:多维度保障智算网络安全
可以看到,业界对于智算网络建设需要标准化的联接这一点,已经形成共识,产业界也在努力促成统一的标准来解决算力和联接的效率问题。与此同时,随着人工智能应用的不断涌现,如何确保数据和应用传输的安全问题也纷至沓来。
“新华三不仅是做算力和联接,我们也有自己的安全公司,在过去二十年里面积累了丰富的经验。”曾富贵介绍,从底层的联接、算力,到上层的应用软件,新华三的解决方案全部具备了内生安全的能力。
程臻表示,在算力网络应用落地的背景下,智算网络的安全边界已经消失,目前业界普遍认同的理念是网安融合和网安联动。一方面,安全和网络相辅相成,正因为没有了边界,整张网络都需要进行安全防护;另一方面,网络要配合安全,提供信息给各类监测分析设备和安全运营中心,提前识别安全风险,全局视角进行安全防护。
具体到网络层面,可以通过网络切片技术,对流量进行硬隔离;通过应用识别导入,再联动网络的服务链机制,把确定的流量指定的送到某个清洗服务或筛选服务;将网络的加密能力和端侧加密结合;通过鉴权机制,将攻击源控制在源端,不至于影响全局。
除了字面上的安全,智算中心的组成有服务器、存储、网络、光模块、高速线缆,任何地方出现故障,比如万分之一或者千分之一的丢包率,整个训推的效率会极速的下降。也就是说数据的传输效率决定算力供给效率,整个传输链路的高可靠性也是安全的重要组成部分。
除了防范外界攻击,提升系统本身的可靠性和稳定性也是至关重要的。曾富贵介绍,新华三的算、网、存一体化运维协同平台能够自动把问题暴露出来,同时将AI能力、大模型能力注入到网络和安全的设备和应用平台中,“以AI养AI,以AI促AI”,将告警事件与故障相关联,实现自动化处理,确保系统稳定运行,也能降低运维成本。
当然,安全不仅仅是系统本身的安全,在波诡云谲的国际形势下,供应链也面临着系统性的安全风险。这也是为什么需要通过联接的标准化,算力的多元化,来规避垄断和单一算力资源带来的风险,实现百花齐放的算力生态。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。