9月20日消息(水易)大模型训练需要大算力的支撑,GPU性能迭代也随之加速。即便如此,单片GPU的性能永远无法跟上大模型的需求,智算集群成为必选项,千卡已是常态,万卡如火如荼,十万卡成为目标。同时,为充分发挥每一分算力的效能,智算网络的技术演进成为关键。
这一轮智算网络建设,为满足大模型更大数据量、更快速度的计算任务,更高端口速率和交换容量的交换机成为刚需,随之也带来了能耗挑战。目前已有专家指出,以电力为代表的能源可能成为掣肘智算中心建设的瓶颈。
数据显示,在网络设备中,以光模块为代表的关键器件是能耗大户,为了实现高速传输与低功耗之间的平衡,LPO等光互连技术受到重视,已经有头部互联网企业开始试点部署,展现了良好的光链路性能。
作为致力于推动标准化联接促进智算网络创新的“领头羊”,新华三基于400G智算交换机与十余家模块厂商的DSP&LPO模块现场互联测试,良好的测试结果充分体现了新华三智算交换机的稳定性与兼容性,基于光互连技术为智算网络建设提速、降耗,全面赋能AI产业高速发展。
联调:促进LPO技术验证
从光模块的技术演进来看,随着速率的不断提升,为确保信号在传输过程中的准确性和可靠性,业界通过引入DSP芯片,对本端/多端的交换机电信号进行整形重塑,降低误码率。因此在高速光模块内部,DSP一直是必备器件。
不过,DSP的不足之处就是成本高、功耗大,统计显示,传统DSP芯片方案会占模块50%以上的功耗。光模块速率的不断提升,功耗也会数量级的攀升,对智算中心带来极大的技术挑战,也与绿色低碳的发展理念相悖。
如何降低光模块功耗,最直接的手段就是去掉或减少DSP在光模块内部的使用。LPO去掉了传统DSP模块中的DSP芯片,利用交换机芯片进行电信号的处理。同时,LPO仍然保持可插拔模块形态,可重用现有成熟的部分光模块产业链,最大限度的实现低功耗、低时延、低成本和高可靠。
综合来看,LPO是一个绿色节能的技术,业界也认为400G/800G周期的下一波需求将会是LPO,解决的重点就是功耗挑战。不过,真正落地还有一系列的挑战,首先是标准,LPO由于无DSP,互操作性存在挑战,目前产业界已经发起LPO MSA,建立相关标准规范。
更为重要的是如何确保以上提到的效果能实现。今年的CIOE中国光博会期间,某头部测试测量厂商在接受C114专访时谈到,LPO将光模块DSP拿掉之后,将会强烈依赖交换机芯片SerDes,这对测试策略产生巨大的影响,LPO如何对标交换机的性能指标,是最大的挑战。
新华三认为,LPO模块需要和设备联合起来,才能真正实现LPO所带来的效果。新华三同钧恒科技进行联合400G QSFP112 LPO开发,通过模块底层光电芯片合理选型、SI仿真优化、系统级参数调优、完善的测试策略,充分保证了LPO模块与交换机的良好适配和快速部署。
兼容:加速LPO规模商用
当然,联合开发并不意味着只能适配某一特定厂商的模块。此次新华三作为设备厂商,同时跟十余家光模块厂商完成了DSP&LPO模块现场互联测试,这是国内第一次交换机设备与十多家光模块的批量实测,充分体现了新华三在生态合作方面的广度。
值得一提的是,考虑到前文提到了联合调优的重要性,新华三还打造了多种智能软件调优方案,助力不同厂商的LPO模块与新华三主机的适配调优,以实现更良好的兼容性,为不同端口走线的LPO模块提供良好的电信号驱动能力。
据了解,在本次DSP&LPO模块互联测试中,数据显示不同厂商的LPO模块在H3C S9827上的误码率均低于IEEE定义的门限要求,且经过与主机适配调优后的LPO模块具有更好的性能参数、误码率更贴近DSP模块,也进一步说明主机与LPO适配的重要性。
不止于此,新华三智算交换机的产品布局丰富,H3C S9827系列能够实现对各厂家的不同模块规格(VR4、DR4等)、不同芯片方案(DSP、LPO)、不同激光器方案(EML、硅光)、多种应用模式(一对一、一分二)的QSFP112模块的类型读取,可灵活智能识别端口模块模式。
回头看LPO技术的初衷,寻找高速传输与低功耗之间的平衡。更高速率在短期内挑战不大,难的是低功耗。目前业界对于绿色光互连技术探索主要从光模块功耗、网络架构设计以及系统散热方案三方面入手。
LPO是业界对于降低光模块功耗的探索,而从系统散热的角度看,今年的CIOE中国光博会期间,C114也看到头部光模块厂商都推出了相应的浸没式液冷方案,多管齐下满足智算中心低功耗的需求。
新华三积极探索与实践多样化的节能降耗策略,将绿色低碳理念融入交换机产品研发设计当中,H3C S9827系列不仅支持全端口LPO可插拔模块应用,还具备风冷液冷兼容设计,通过LPO与液冷技术的融合,实现整机功耗降低25%~40%,满足PUE≤1.14的要求。
开放:践行标准化联接
回到文章开头提到的智算网络的创新变革,新华三始终倡导标准化联接,创新性提出“算力×联接”的理念,通过开放、标准的联接技术,构建开放多元的智算生态,满足人工智能应用对海量多元异构算力的需求。
光模块是其中智算网络的“关键环节”之一,也是智算生态产业中的一环,本次与十余家光模块厂商的现场实测,进一步证明了新华三交换机具备标准开放的特性。另外,与钧恒科技联合研发的LPO模块,其内部的兼容设计允许多芯片方案并行开发和验证。
据悉,在追求高效率、高能效、低功耗的AI智算应用的解决方案的道路上,新华三持续精进,在当下趋于成熟化的400G LPO解决方案的火热探讨中,新华三也已具备800G LPO的高密智算交换机,以前瞻性视角推动智算网络的发展。
除了创新的LPO交换机产品外,新华三打造的算力集群核心交换机H3C S12500 AI将传统框式设备的控制引擎、交换网板、业务板卡分别独立为盒式设备,通过高速光模块互联,满足灵活组网需求,斩获第八届未来网络大会“创新科技成果奖”殊荣。
与此同时,新华三还推出了《智算网络异构连通专项测试》标准,现已完成包括GPU、光模块、网卡等在内等全异构硬件平台连通性验证,以及不同技术方案间的联调适配,进一步推动国内智算产业的生态协作。
面向未来,新华三也将持续与更多的光模块厂商合作,打造开放市场生态,共研高品质模块组件,为客户提供从主机到互连组件的高可靠性、高稳定性、高兼容性的全套方案产品,促进光通信产业的发展,满足人工智能应用对算力的需求,为百行百业的数智发展注入强劲动能。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。