液体冷却如何克服高性能计算基础设施相关挑战

如今,距离新冠病毒大流行开始已有两三年时间,为了维持我们日常生活的功能,数据中心各行业的数字需求出现了前所未有的繁荣。例如,在医疗保健领域,远程医疗就诊次数增加了63倍,从2019年的84万次增至2020年的5270万次。

据Gartner称,最终用户在公共云服务上的支出预计在2022年将达到4820亿美元。在《哈佛商业评论》的一项调查中,86%的受访者表示人工智能 (AI) 已成为其组织的主流技术,67%的受访者表示希望在2021年加速人工智能的采用。这些服务仍然像以往一样重要,但它们只是触及了网络复杂性的表面。

随着当今的网络变得更加复杂和分散,增强现实和虚拟现实应用变得更加突出,对实时计算和决策的需求变得更加关键。这种实时需求对延迟很敏感,在企业、公有云、私有云、托管、边缘日益普遍的混合模式下,专职人工管理变得越来越困难。

因此,人工智能和机器学习 (ML) 对于优化这些网络的性能并为更多远程监控解决方案让路至关重要。5G的持续推出进一步增加了我们的数字需求,5G的速度有望比其前身4G快500%,并且企业竞相从2022年232 亿美元的预计收入中分得一杯羹。

这些进步不可避免地需要付出代价——计算和热密度的增加。高性能计算 (HPC) 迅速加速支持AI、ML和5G,解决了众多企业业务挑战。对于许多数据中心运营商来说,这很快就会产生对高密度机柜和数据中心的需求,需要改变基础设施来冷却这些关键系统。

随着机架密度接近并超过30千瓦 (kW),无论系统如何优化,空气冷却系统都可能不够。尽管空气冷却技术在有效解决不断增加的密度方面取得了长足的进步,但在某种程度上,空气根本不具备为高密度机架提供足够冷却所需的传热特性。忽视这些限制的组织应该预见到更高的能源成本、更低的性能以及最终的延迟实施。

空气冷却最可行的替代方案是将液体冷却引入机架。液体冷却利用水或其他流体较高的传热特性来支持高密度机架的高效且经济高效的冷却。液体冷却有多种使用不同技术的配置,包括后门热交换器、直接芯片冷却和浸入式冷却。

虽然液体冷却通常被认为是距离主流采用还需要数年时间的利基应用,但Open19 基金会和开放计算项目等技术智库汇聚了行业领导者,共同应对计算密度持续增加带来的挑战。通过这些合作,行业领导者取得了巨大进步,并开发了多种产品,帮助使液体冷却技术成为更广泛受众的可行解决方案。

简而言之,液体冷却的工作原理如下:冷却液体循环到嵌入IT设备中的冷板热交换器。这提供了高效的冷却,因为冷却介质直接进入IT设备,而不是冷却整个空间。它的效率比使用空气高出3000 倍,使密集机架中的中央处理单元 (CPU) 和图形处理单元 (GPU) 能够以其最大电压和时钟频率连续运行而不会过热。

再加上减少或消除数据中心和服务器中空气流通所需的风扇,可以为液冷数据中心带来显着的节能效果。此外,液体冷却所需的泵比完成相同冷却所需的风扇消耗更少的功率。

液体冷却的类型

后门热交换器是一项成熟的技术,它不会将液体直接输送到服务器,而是利用液体的高传热特性。在无源后门热交换器中,充满液体的盘管安装在机架后门的位置,当服务器风扇将热空气吹过机架时,盘管会在空气进入数据中心之前吸收热量。在主动设计中,集成到设备中的风扇将空气吸入线圈以增强热性能。

在直接芯片液体冷却中,冷板位于服务器主要发热组件的顶部,通过单相或两相过程排出热量。单相冷板使用循环到冷板中的冷却液来吸收服务器组件的热量。在两相过程中,低压介电液体流入蒸发器,服务器组件产生的热量使流体沸腾。热量以蒸汽形式从蒸发器中释放出来,并转移到机架外部以进行排热。

通过浸入式冷却,机架中的服务器和其他组件浸没在导热介电液体或流体中。在单相浸没系统中,热量通过与服务器组件直接接触传递到冷却剂,并通过浸没槽外部的热交换器去除。在两相浸没式冷却中,介电流体被设计为具有特定的沸点,可以保护 IT 设备,同时实现高效散热。服务器发出的热量改变了流体的相,上升的蒸汽通过位于水箱顶部的盘管冷凝回液体。

液体冷却作为持续成功的路线图

如果组织计划使用液体冷却来支持新的HPC相关基础设施要求和挑战,那么除了效率和可靠性之外,还有其他一些好处。这些好处包括:

提高性能:液体冷却系统不仅可以实现所需的可靠性,还可以带来 IT 性能优势。当处理器外壳温度接近最大安全工作温度时(空气冷却可能会发生这种情况),处理器性能会降低以避免热失控。

可持续性:液体冷却不仅创造了降低数据中心能耗并将电力使用效率 (PUE) 降至接近 1.0 的机会,而且还提供了一种更有效的方法来重新利用捕获的热量,以减少对建筑供暖系统的需求。系统的回水温度可以达到60 摄氏度或更高,并且液体到液体的热传递比空气系统更有效。

最大限度地提高空间利用率:液体冷却带来的密度使设施能够更好地利用现有数据中心空间,从而无需扩建或新建,或建造占地面积较小的设施。它还可以在物理空间有限的情况下支持处理密集型边缘应用程序。

降低总拥有成本 (TCO):在《数据中心液冷 IT 设备:总拥有成本》报告中,ASHRAE对风冷数据中心与混合(风冷和液冷)数据中心进行了详细的拥有成本分析数据中心模型发现,虽然许多变量会影响TCO,但“液体冷却可以通过更高的密度、增加自然冷却的使用、提高性能和提高每瓦性能来改善TCO。”

对于应对增加机架密度挑战的组织领导者来说,可能是时候认识到空气冷却的局限性并考虑使用液体冷却来帮助实现能源和可持续发展目标。对于那些部署极高密度机架(大于30kW)的人来说,可能没有其他选择。

然而,这是一个复杂的过程,因此企业组织与合适的合作伙伴合作以确保任何液体冷却部署的成功非常重要。更多信息,可参考白皮书《了解数据中心液体冷却选项和基础设施要求》

本文作者:Fred Rebarber 是 Vertiv 热解决方案高级技术总监

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-08-03
液体冷却如何克服高性能计算基础设施相关挑战
液体冷却有多种形式,但哪种形式更适合?Vertiv技术总监Fred Rebarber分享了不同的选择……

长按扫码 阅读全文