将人工智能整合到传统数据中心有多复杂?
将人工智能(AI)技术整合到传统数据中心基础设施中是一项极具挑战性的任务。随着AI工作负载需求的不断攀升,数据中心面临着诸多难题,其中最为突出的便是热量与负载的显著增加。这不仅要求配备先进的冷却系统来应对额外的热量,还需对数据中心的结构进行调整,并大幅提升电力容量,以确保整个系统的稳定运行。
在当前形势下,各种规模的数据中心都在积极将其基础设施向先进的AI服务器整合。然而,传统数据中心在设计之初并未考虑到要处理如此大幅增加的服务器负载与热量,这使得AI的整合过程变得异常复杂。实际上,AI集成所需的专门设计与超大规模数据中心所采用的设计有诸多相似之处,而超大规模数据中心同样面临着高负载的严峻挑战。AI服务器处理速度的提升以及对它们日益增长的需求,导致处理器产生的热量远超传统冷却系统在传统数据中心中的散热能力,这就迫使冷却系统必须不断进化,以跟上温度升高的步伐。这一进化过程涉及到基础设施和设计的诸多变更,包括地板负载、机柜空间、机架密度和电力管理等方面,同时还需要集成液冷系统。
地板负载与机柜
早期的机架柜尺寸为24英寸(610毫米)见方,重量大约在250磅(113千克)左右。在大多数情况下,建筑楼板在通过提升式访问地板承载负载时能够承受这种重量。但随着人工智能服务器的不断进步与整合,机柜的重量和尺寸都有了显著增加。如今,现代机柜的承载能力已达到2,500-3,000磅(1,134-1,361千克)。如此之重的机柜,可能已经超出了大多数新建建筑的楼板评级所能承受的范围。
为了应对这种情况,管理员需要对机柜进行更换或加固,以确保能够支撑AI服务器增加的重量。这需要对机柜的尺寸和重量、服务器机架的数量、通道设计、冷却系统以及活动地板的承重能力等进行综合评估,而这些因素又会因楼层高度和设备放置位置的不同而有所差异。特别深的机柜往往难以适应现有的排间距,从而给布局带来了极大的挑战。值得庆幸的是,IBM提供了一个地板负载计算器,可以方便地估算设备的地板负载值,为管理员在进行相关决策时提供有力的数据支持。
电力供应
标准的数据中心机柜通常包含42个机架单元,而最常见的机架配置功率范围在100千瓦到150千瓦之间。传统的数据中心设计主要是基于5千瓦到10千瓦的机架密度。然而,AI服务器集成则需要至少50千瓦的机架密度。在这种情况下,传统的交流电路和布线已无法高效地为更大的AI阵列提供所需的电流。除此之外,传统的电源线、插头和插座也未针对AI服务器机柜内的高温环境进行评级,这无疑增加了电力供应系统的风险。
目前,许多AI平台已经标准化为400伏直流电,这就需要特殊的电源和集成的电力分配总线。管理员必须聘请专业的专家,将所有电力整合到包含计算机架的机柜复杂结构中,并安装电力总线来管理在地板上升起的电力分配。通过这种方式,不仅可以提高气流效率,还能提升冷却效果,从而更好地满足AI服务器的运行需求。
在电力馈线方面,其中的电路额定值仅适用于一个AI计算集群平台,这可能是传统数据中心中最常见的配置。对于更大规模的安装,通常会使用更高的电压,并且所有电力都应具备冗余性,以确保系统的稳定性和可靠性。稳定的不间断电源(UPS)能源对于全天以100%容量运行的AI基础设施至关重要。因此,管理员必须对增加的电力需求进行全面评估,以整合和维持AI服务器操作,并及时更新电气系统,使其能够满足能源需求。同时,还应评估备用发电机并进行必要的升级,以确保备用系统能够处理增加的能源消耗,从而有效减少停机时间,保障数据中心的正常运行。
冷却系统
许多AI服务器支持直接到芯片的液体冷却回路,这些回路专门用于冷却处理器。直接到芯片的冷却系统能够承担高达75%的热负荷,而传统的冷却系统则负责处理剩余的热负荷。例如,如果一个60千瓦的机柜需要25%的补充空气,那么就需要15千瓦的空气冷却,这在设计良好的数据中心冷却设备的容量范围内是可以实现的。然而,一个150千瓦的机柜则需要30千瓦到45千瓦的空气冷却,这已经超出了大多数传统空气系统的备用容量。而对于一个250千瓦的安装,可能需要50千瓦到75千瓦甚至更多的空气冷却,在大规模数据中心中,虽然这种需求是可行的,但对冷却系统的压力和要求也相应大幅提高。
冷却系统必须能够提供全天候的服务,并具备冗余性和极高的可靠性,这是确保数据中心稳定运行的关键因素之一。有效的冷却系统设计在很大程度上取决于数据中心所处的地理位置和环境条件。例如,在炎热干燥的气候条件下,蒸发冷却或使用单独的冷却塔可能是最佳选择;而在水资源稀缺或凉爽的气候环境中,干冷却是更为合适的选择。
向计算设备分配水时,需要使用冷却液分配单元(CDU)。这些专用的热交换器能够将建筑物的设施水供应与机柜的技术水供应有效连接起来。直接冷却芯片采用微通道技术,但这也存在一定的风险,可能会被污染的水堵塞。而CDU则能够彻底过滤和处理设施的水供应,从而避免这一问题。小型CDU可以安装在机架上,方便灵活;大型CDU则配有平衡阀,能够连接具有不同流量和压力要求的设备,以满足多样化的冷却需求。
此外,还有一种替代冷却方法是使用需要冷却水的主动式机柜门冷却器。主动式门冷却器虽然会消耗一定的风扇功率,但通常比大型空气冷却装置更节能。这种冷却方式使得集成芯片和风冷机柜成为可能,为数据中心的冷却方案提供了更多的选择和灵活性,有助于优化整体的冷却效果和能源利用效率。
综上所述,将人工智能整合到传统数据中心是一个复杂而艰巨的任务,涉及到多个方面的重大调整和升级。数据中心的管理者和相关技术人员需要充分认识到这些挑战,并采取有效的措施来应对,以确保数据中心能够顺利地适应人工智能时代的发展需求,实现高效、稳定和可靠的运行。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。