沈卫东:第四代数据中心关键基础设施建设

第四代数据中心的提法我们已经提了很长时间好几年了,简单回顾一下大型计算机的时代,台式计算机、塔式计算机,这样的数据中心是第二代,机架化的计算机,IT设备是第三代,机架化以后对基础设施提出了很多新的要求,这个推动力来自于哪?来自于互联网,当初互联网有泡沫,但是它确实推动了计算机行业的发展,进而推动了为计算机提供环境的基础设施这个行业的发展。所以我把第三代归纳成叫互联网时代的数据中心。我们现在大多数的数据中心建设就是采用互联网时代的数据中心的设计规范和标准、理念,虽然我们大多数的数据中心从数量上讲并不是IDC,但是我们仍然借用了互联网泡沫带来的数据中心技术的革命的成果,共享了这个成果;所以会看到未来下一代计算机的发展会是哪个方向?计算机应用发展是哪个方向?我们现在看到了云计算,所以云计算时代的到来必然对IT设备、设施服务器、储存带来技术的革命,从而对相应的基础设施,也就是数据中心的建设带来新的革命。所以从2010年代开始我们实际上进入了一个新的时代,这个新时代有一些新需求,它是技术发展的动力。

云计算的业务--这种模式要求按需供给,用户是按需获取,廉价的服务。所以这要求整个数据中心包括基础设施、包括IT设施这两层来讲,云计算业务的驱动动力来自于需要设备成本的降低和运营成本的降低,设备成本就是服务器成本以及基础设施成本。服务器成本的降低需要有一些服务器的架构的革命,曙光正在进行这方面的研究。供电系统的成本,UPS配件系统以及制冷系统的成本,设备的成本如何降低?运营成本主要是PUE,如何去满足运营成本、降低及设备成本降低呢?从技术来讲,是技术的虚拟化,所以大家讲服务器的虚拟化,实际上机房设施也需要虚拟化。什么叫虚拟化?虚拟化是设备的池化,打破设备个体间的物理界限,组成整体的资源时,统一调配资源。其次是按需恒指供给,根据IT设备的需求、供电的需求、制冷需求,根据需求提供最大能力,从零到100%区间里面的任意的供给并且应该保证同样的供给质量。这是基础设施在云计算时代未来需要做的事情。

我这边主要在基础设施的制冷系统做了研究,供电系统我研究的比较少,总的来讲供电系统的虚拟化应该说比制冷系统更近了一步,比如说池化,但是是否能够同质按需供给这还是一个问题,比方说UPS给出的电压以及UPS自身消耗的功率也就是效率是否能保持一致?这可能是目前存在的问题。制冷系统也有池化的方法,设备的局部、全部的池化也是无法做到按需供给,空调设备目前很难做到,根据每个服务器的需求提供冷量这是做不到的。下面说说池化。

传统的地板送风方法是一种池化,这种冷池热池也是一种池化,池化是对制冷的设备进行资源的共享,也是一种池化。技术难点在哪呢?在无法做到按需送冷或者按需配冷。有配电的配冷,按需配冷难以做到,第一很难制造冷量传送的通道,供电系统很容易做一个通道,线缆电缆就是通道,但是空调系统很难做到;第二我们无法确定需求。按需供冷,需是多少?不知道,因为空调的能量表现形式是风,而风的指标既要温度又要风量、流量,所以我真的不知道包括曙光自己也不知道自己的服务器在运行的某一瞬间需要的风量是多少,自己都不知道。所以需求难以确定,无法做到按需供给。再有控制策略的问题,对于冷量来讲,风量和温度是两个参数,要供给合适的两个参数怎么控制,控制策略比较难?UPS相对容易有一个参数就是稳定输出端的电压,电压有效值就可以了比较容易。所以这是空调系统虚拟化的技术障碍,如何解决有些思路,比方说设置封闭的风道这也是一个局部上部分的解决输送能量环节的措施;图中右边是曙光提出的一种模式,第一是池,第二还要在合适的位置加装类似这样的风道,专用的和一体的风道有这样的方式这是一个思路,或者是像HT早年5年前提出来的按需送风这么一种模式,它的特点是调节出风口,出风口受温度本机柜的温度控制参数,而空调机监测地板下面的压力从而就知道多少风,也就知道该开启多大的水、这是一种控制机。

水冷门也是一种办法,国家有好多厂商在做水冷门,它的特点是没有动力,动力就靠服务器,风的动力靠服务器这样就很容易做到了,供给和需求风量上侧重疲惫这是一个办法;但是真正长久的一劳永逸的办法是什么呢?是一体化,这是我提出来的说法双层融合?双层指的是数据中心的基础设施层UPS空调上的以及它上面的IT设施层两层的融合。可能有一天出现空调、UPS三个放一体的东西具体叫什么还不知道?这样的话就可以改虚拟化变成从各自的虚拟化变成一同虚拟化,这个虚拟化做起来很容易,因为结合到某一个服务器单元来讲,我跟它在一起的供电单元和制冷单元很容易知道旁边的主板所需要的供电容量以及冷所需要的冷量。它自己很清楚,这样就很容易做到按需供给,实际上曙光已经有类似这样的服务器在开始做了,大家看到的这是一个机柜,但实际上它是一台服务器,所以它不叫机架式的服务器叫整机柜服务器,这是一台服务器,里面有诺干主板,有40个主板,供电和制冷都在这个机柜里面,这就是所谓的整机柜解决方法,这是我们目前看到的一个方向。双层融合当我们看到这个机柜的时候不知道归纳成这是一台基础设施产品呢?还是台IT设施产品,实际上它们是融合在一起的这是整体方案的思路。

所以刚才我们谈到的都是虚拟化基础设施的虚拟化的问题,下面我们再谈一谈节能的问题。

衡量节能用PUE这个就不详细说了大家都清楚,我们简单算一下节能账,节能的经济账,1000瓦的功耗IT设备服务器消耗1000瓦每年的耗电是这么多8760千瓦时,大概将近1万元电费,100千瓦是100万元电费,所以100千瓦的IT设备对应的基础设施如果POE能够降低0.1的话就降低10千瓦,10千瓦就是10万元,所以如果我们希望通过一个投资做节能改造,并且在三年收回这个投资的话,这个投资在30万之内,我们认为就划算。所以对于100千瓦的数据中心若节能改造的投资在30万元以内能够使PUE降低0.1,就能收回投资。这样来讲做节能改造实际上是一个投资回报率挺高的事情,空调系统节能我们这里有一些研究无非就是气流组织的优化通过冷池冷板,常见、常用的技术,另外通过自然冷却,自然冷却大家也比较熟悉了。原理就是利用室外温度低于室内温度的时候,根据热力学定律第二定律,热量从高温热源(室内25度)流向低温暖热源(室外0度)这个过程无需作功也就是不需要压缩机,不需要压缩机我们就极大的节能,热量怎么传送出去呢?对我们来讲我们就是需要找到一种途径,形象来讲我们希望找到一种管道,这种管道一头在室内一头在室外,是能量的管道不是风的管道,只要能够找到合适的管道热量就能自然的从25度流向0度,现在做的技术研究的方向都是找到这种管道,能够把室内的25度到室外的0度,接下来问题就有了每年小于0度的时间有多长?也就是说每年只有很少的时间1/3的时间在北京能够使用佛泵自然冷却,在南方更少,有没有可能增加时间?使用佛泵也不使用压缩机的时间呢?不使用压缩机这是我们行业里面的新的方向叫做去压缩机化,空调系统去压缩机化,如果成功了将会引起整个机房空调领域的革命,大家不用压缩机了,有没有办法受的阻力小一些,传热温差降低一些,现在做的好的佛泵可以对15度以下的室外空气做自然冷却,0度一下提高了15度,每年低于15度的时间不长我问这个域值从15度再提高到20度有没有可能?我们也在研究,但是这个方向实际上已经到了瓶颈,传染温差低于10度很难。

还有个办法是提高机房温度,提高机房温度我们有机房的标准,机房标准怎么来的,机房标准是根据服务器的需求来得,服务器工作要求在20到25度之间,所以机房的标准就是22.5度、23度,服务器为什么定20到25度呢?最初就是这样定的,能不能提高呢?能提高想办法是可以提高的,所以我们现在像曙光、国外的厂商在研究高温服务器就是我可以工作在30度的室温环境下工作,那如果是说冷池的话,冷池里面的温度可以在30度也就是机房温度可以在30度,当然排出的热风更高了40多度,我们重新设计服务器可以做到,服务器能不能工作在40度?40度出风可能到50度那服务器能不能工作?目前来看技术方向是提高热源的品位就是提高服务器工作的环境温度,目前来看到40度很困难,因为器件有一个合理的工作范围,而用风去冷却器件我们发现效率很地,用风去冷却器件效率很地,所以我们目前能做到30度,30度的风作位冷风来吹服务器,服务器可以工作,再高做不到了。但是大家知不知道CPU的壳温,大约是65度,超地计算机的CPU在运行的时候它的壳温可以达到60到100度,正常是90度,所以我们会提出一个问题如果热源的温度达到90度,夏天的温度最高40度,这两个热源的差已经到了50度,当然可以自然冷却无须压缩,为什么现在非要CPU的进风温度是30度?这是空气的原因,所以节能技术的下一步,未来是服务器的液冷。

风、空气作为冷酶来冷却服务器我们认为不合理,实际上他的载流量、载流密度很低,所以如果我们想降低8度的温差的话,空气的流量需要这么大,一万多米一个小时,如果用水只要几个立方米就可以,如果用蒸发的类似的冷酶实际上1立方米就够了,所以机柜前面的门需要过孔率70%以上,因为有两量的风要进来,所以要求风管道的口径非常大,同样这个冷量传出去,直径40毫米的管就可以了,氟利昂的话19毫米的管就可以了。所以我们喜欢氟利昂不喜欢空气,我们预测未来空气作为冷却方式,冷却服务器、冷却CPU要。以上是简单讨论一下未来服务器以及与服务器相关联的技术设备以及虚拟化方面的研究方向。下面简单介绍一下实践。

这是曙光自己的高性能计算机使用的集成化的系统,包括制冷、配电都在里面,这是一种典型的排异级的气流组织方式,它把风送到前面,这都是玻璃门所以空气许多送到机房里面去而是玻璃门的后部,玻璃门与服务器之间左右相通,所以空调机把冷风送到隔壁以及隔壁的隔壁,被服务器吸入,冷却、空气被加热以后从后面再转回来,这叫水平送风或水平就近送风,曙光为自己的云计算中心可以达到30个千瓦的配置,已经得到了大量的使用,但是目前还主要是给自己用还没有向市场推广。以及跟它一样的采用水座位冷门的,前者是氟利昂作冷门,这是水作为冷门,当然我们也有池级的,组成冷池或热池这种方案,以及地板送风的话有池的配件,刚才池里面大家注意单排内的空调机,以及节能改造的配件,像EDU空气配送单元可以把内部地板的空气强制排出这是节能改造方面的配件。

另外我们在服务器的液冷方面已经开始了一些实践,现在已经原型机出来了,这是一种节间式液冷,还有直接式的,预计曙光在7月1日发布,这是14的刀片,内部的CPU这部分,CPU的热源比其他高,所以单独拿出来利用氟利昂通进去给CPU本身制冷,氟利昂被汽化,汽化以后带出来带到上游,上游专门有冷却装置,冷却装置可以直接放到户外,这样可以直接在室外进行冷门,CPU的温度是65度,所以这里面的液体蒸发温度设计在50度,也就是说氟利昂产生的热的50度的气体,50度就很轻易的可以对室外环境在40度以下进行自然冷却,而全年无需压缩机。

这是一个间接式液冷的一个方案,另外我们还有直接式液冷,直接式液冷就是革命性更靠前一些,整个服务器的机箱是密闭的仓,里面灌满了氟利昂,主板泡在氟利昂里,所以主板的发热、CPU的发热与氟利昂直接接触,汽化以后把气体带走到别的地方冷却,所以这边就分配冷液,收集热的蒸汽带走从而对正个的数据中心的主要的设备进行自然冷却,这个自然冷却到25度,这个原型机在曙光的展厅里已经做过了,前几年张广立总理去考察的时候对这个技术感兴趣。这个PUE,实际现场的PUE做到1.01,功率是160瓦,服务器的功率160瓦,需要的泵和风机大概1.6瓦左右,CPU已经很低,当然如果是工业化以后由于输送距离的增长,增加PUE可能会增加,对于大型的数据中心是1.1比较容易做到的。这样我们就有了各种的搭配,如果用传统的,刚才我说的传统的氟冷现在在云计算用的最多的,如果用水冷蒸发做冷气组织可以做到1.2,间接式液冷可以到1.2,直接式液冷可以到1.1,这是将来建造大型的计算机中心的基本的方案。这里谈到制冷,如果空气作为冷酶的话,风冷的服务器、机房是常见的,池级是用的比较普及的,再就是排级再往上是服务契机。

我们认为云计算时代会给基础设施带来新的挑战,主要的特点是双层分离双层融合,服务器的层和IT基础设施的层,智能化、绿色化、模块化。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2013-06-03
沈卫东:第四代数据中心关键基础设施建设
第四代数据中心的提法我们已经提了很长时间好几年了,简单回顾一下大型计算机的时代,台式计算机、塔式计算机,这样的数据中心是第二代,机...

长按扫码 阅读全文