面对AI集群光互连需求,会有客户准备部署LRO或LPO吗?

北京时间8月14日消息(水易)国际光电委员会(IPEC)致力于促进关于人工智能集群新一代光互连的行业讨论。最近一次的网络研讨会的主题是“AI集群中光器件的特殊要求”。光通信市场研究机构LightCounting对这一次研讨会的亮点内容进行了提炼。

Arista联合创始人Andy Bechtolsheim对GPU性能进行了预测。如下图所示,利用CMOS、基板/封装方法、芯片架构和更好的冷却技术的进步,从2022年到2028年,GPU性能预计将提高100倍。

Andy Bechtolsheim的时间线一如既往的非常激进,所有这些新技术的量产可能需要十年时间。最近有关英伟达/台积电用于封装Blackwell GPU的新CoWoS技术问题的传言说明了将新技术转化为大规模生产是多么具有挑战性。

管理这些超大型芯片组件的散热是众多问题中的一个。人工智能集群中使用的所有技术都必须制定提高能效的路线图。CMOS确实有一个在5年内从5nm发展到3nm和2nm的路线图,但光互连仍在寻找提高能效的途径。

Andy Bechtolsheim介绍了当前重定时、LRO和LPO 1.6T (8x200G)光模块的功耗估算,如下图所示。重新定时(DSP)模块的功耗为30W,是800G模块的2倍多。LPO和/或LRO确实提供了提高能效的途径,但目前还不清楚它们是否能在每通道200G的情况下工作。Andy 评论说,只要有干净的电气通道,224G LPO就能工作,但它还需要高性能铜缆、高性能TIA和线性驱动器。

Andy Bechtolsheim还提到,112G LPO MSA已接近完成,应该会在9月份的ECOC之前发布,互操作将于8月举行。到2025年,一些供应商将准备好批量交付LPO。

问题是:是否有客户准备部署LRO或LPO?

目前来看,字节跳动是认真考虑8x100G LPO的潜在客户之一。根据LightCounting的估计,字节跳动将在2024年成为中国云计算公司中第二大光模块消费者,并有可能在2025年成为第一大光模块消费者。

字节跳动的Yinxing Zhang展示了大量LPO测试结果,证明了1E-6规范的Pre-FEC BER测试有助于保证整个温度范围内的链路性能。FEC将为通过Pre-FEC BER测试的光模块性能增加余量。

他还表示,需要对VCSEL和光模块/AOC设计进行优化,以提高Pre-FEC BER测试的良率,但他对2025年-2026年部署 8x100G LPO持乐观态度。此外,字节跳动并不急于转向每通道200G,至少现在还没有。

LightCounting预计,英伟达将在今年晚些时候测试每通道200G的LRO和LPO,并可能在 2025年进行少量部署。如果这些技术都不成功,CPO将是英伟达依赖的另一种选择。英伟达还将放弃基于VCSEL的SR8光模块,但字节跳动和许多其他客户将在未来多年部署这些光模块。

博通公司的Manish Mehta讨论了CPO的进展,并介绍了与云晖科技(Cloud Light)合作开发的SR8 LRO光模块的最新测试数据,如下图所示。他还讨论了面向人工智能应用的SMF双向光模块的设计,这项技术已在FTTx光模块中使用了20多年。Manish还回顾了博通公司(Avago/Agilent)30年的光模块制造历史,其中包括10万亿可靠性记录<1FIT的现网设备小时数。

Meta公司的Drew Alduino介绍了有关硬件故障如何影响人工智能集群运行的数据。单个 GPU或网络链接故障可使整个集群的效率降低40%,缓解故障(通过软件)可能需要10分钟,这种故障平均每30-45分钟发生一次。对于基于更复杂GPU和光器件的大型集群来说,问题会变得更加严重。

他还分享了200G FR4和400G FR4模块的故障分析数据,如下所示。直接调制激光器性能下降是200G模块出现故障的主要原因。与一般制造问题(PCBA和引线键合)相比,400G光模块中使用的EML性能退化问题较小。他建议,使用更简单、更集成的设计将有助于减少这些故障。从这个角度看,LPO和CPO都是业界探索的正确方向,这不仅能降低功耗,还能提高可靠性。

华为的Eric Bernier还讨论了提高可靠性的方法。除了优化整个光模块或集成芯片的光电设计和提高光源效率外,基于激光阵列的更高功率光源也会有所帮助。如果一个激光器出现故障,阵列中的其他激光器可以产生更大的功率,弥补故障激光器的不足。

其他发言人包括 Quintessent公司的Cris Cole,他介绍了有关硅基量子点激光器可靠性提高100倍的更多数据。英特尔公司的Christian Urricariet分享了有关异质集成激光器极高可靠性(<0.1FIT)的数据。Ranovus公司的Jeff Hutchins认为,只有高度集成的CPO 解决方案才能满足人工智能集群的可靠性要求。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-08-14
面对AI集群光互连需求,会有客户准备部署LRO或LPO吗?
面对AI集群光互连需求,会有客户准备部署LRO或LPO吗?,C114讯 北京时间8月14日消息(水易)国际光电委员会(IPEC)致力于促进关于人工智能集群新一代

长按扫码 阅读全文