刷新OpenStack最大规模集群纪录,智算中心操作系统有了新标杆

刷新OpenStack最大规模集群纪录,智算中心操作系统有了新标杆

2020年初,一场以新基建之名的数字基础设施建设热潮,让国人为之兴奋。所谓“新基建”也称为新型基础设施,主要是指融合了云计算、大数据、人工智能等新兴数字技术的城市基础设施,2020年4月中央明确“新基建”范围,包括5G建设、大数据中心、人工智能等七大领域。新基建之所以重要,还在于它承担了推动传统基础设施向新型基础设施转型的历史重任,这在十三五与十四五之交具有格外重要的意义。

针对新基建以及大数据中心等具体的数字基础设施,浪潮作为国内老牌技术厂商以及全球第二大服务器厂商,在2020年4月提出了“智算中心”的概念,为大规模数据中心的演进指明了方向。如果说大规模数据中心强调的是算力、性能、可靠性等,那么智算中心更多强调的是算力的集约化,包括各种异构计算的整合以及云、大数据、人工智能等平台的协同打通。开放标准、集约高效、普适普惠,是智算中心的基本特征。

从大规模数据中心到智算中心,其核心“操作系统”又将迎来怎样的变化?2020年11月25日,浪潮在2020云海创新论坛(IIF2020)上发布了智算中心操作系统,向外界展示了对智算中心操作系统的构想及落地实践——云海OS完成了全球最大规模OpenStack单一集群1000节点的云数智融合实践。

刷新OpenStack最大规模集群纪录,智算中心操作系统有了新标杆

(浪潮信息副总裁张东)

浪潮信息副总裁张东表示,浪潮云海OS以开源开放技术为基础、以新时期用户需求为出发点,不断进化成为开放、融合、敏捷、智能的操作系统,满足新基建时代智算中心的要求,奠定了政企数字化转型“云数智”融合的基础,是智算中心的中枢。

浪潮云海OS经历了从虚拟化管理到云数据中心操作系统的演变,如今又进化为智算中心操作系统,而其底座仍然是开源技术及工业标准硬件,从而满足开放标准、普适普惠、集约高效的要求。

  突破OpenStack大规模单一集群

在11月25日举办的浪潮云海创新论坛2020上,浪潮云海发布了全球最大规模OpenStack单一集群达1000节点的云数智融合实践。浪潮云海在2019年就完成了单一集群500节点的测试,是当时基于OpenStack Rocky版本的全球最大规模单一集群实践。本次1000节点大规模测试,在规模、场景、性能等方面进行了全面突破,完成了从500节点到1000节点的升级,还刷新了今年4月云海OS所取得的SPEC Cloud IaaS 测试纪录,实现了量变到质变的跃迁。

刷新OpenStack最大规模集群纪录,智算中心操作系统有了新标杆

中国信通院全程参与了两次集群的测试。中国信通院云大所副所长栗蔚表示,OpenStack是当前主流的云架构开源项目,逐渐成为高速发展企业和成熟企业基础IT架构的首选解决方案之一。OpenStack在小规模部署时,其性能和稳定性较为稳定,开源特性和良好的社区支持也为小规模部署提供了技术参考。随着企业探索的不断深入,大规模应用的需求越发迫切,OpenStack大规模云集群有待突破。

作为全球顶级的开源项目之一,OpenStack已经走过了十年的历程,成为私有云的产业事实标准以及部分公有云的“底座”,是当前全球部署最为广泛的开源云软件。截止2020年,OpenStack发布了22个版本,社区里有超过40个项目,全球有超过1000万的基于OpenStack的计算核心,在全球187个国家和地区有数十万成员。今年10月,OpenStack基金会演进成为Open Infrastructure Foundation开源基础设施基金会,凸显了融合人工智能、5G、大数据、边缘计算等新型工作负载的定位。

一方面,OpenStack可以纳管和支持融合的工作负载越来越多;另一方面,由于开源技术和复杂组件带来的局限性,导致当达到一定规模时,系统的运维难度陡增、并发性能降低,而通过对系统的合理优化方能满足大规模节点部署的应用场景,保证系统的正常稳定运行,这就是浪潮云海OpenStack大规模单一集群测试的意义所在。

  更大、更全、更高

浪潮在多年云平台建设的探索中发现,大型用户的云平台实践普遍面临大规模的挑战。随着内外部用户数量的增长,单一应用和服务的规模变得愈发庞大,需要同时部署数百甚至数千台虚拟机。如果使用多个小规模集群构建云平台,应用和服务的跨集群部署、管理、升级会变得异常困难甚至无法实现,因此对单一集群的规模产生了强烈的需求。

刷新OpenStack最大规模集群纪录,智算中心操作系统有了新标杆

针对大型用户对大规模云平台单一集群的需求,浪潮云海团队在中国信通院的见证下开展了OpenStack大规模单一集群的测试。浪潮云计算与大数据产品线首席架构师亓开元表示,从2019年的OpenStack单一集群500节点到今年的1000节点,不仅仅是更大规模的单一集群,今年还加入了大数据和人工智能,测试集群支撑的业务更全,整体系统达到的更高性能。

本次测试,浪潮云海团队在短短3天内完成了1000台服务器部署,支撑传统业务、云原生业务、大数据业务、人工智能应用等,并刷新了SPEC Cloud基准测试世界纪录:OpenStack实现3000个虚拟机高并发创建,密度可达5万,30分钟内完成百节点裸机发放;容器实现1000节点管理,3万POD并发创建,20万POD管理,10万应用管理;存储实现240节点管理,10万卷分布式存储,单节点1万IOPS,单集群240万IOPS;SDN实现2到7层网络10万台虚拟机统一管理配置,流量灵活调度。

亓开元强调,浪潮公司大力支持OpenStack大规模单一集群的测试,仅本次测试用的1000台服务器的成本就高达上亿,是直接从生产线拉下来后送入老化线,其目标就是向用户展示浪潮的交钥匙工程能力。换言之,本次所测试实现的1000台OpenStack大规模单一集群,同样的方案可以直接部署到用户的数据中心,马上就可获得本次测试所实现的各种极致性能,例如金融和电信等行业都对1000节点单一集群有着实际需求,因此1000节点单一集群相应就极具行业参考规范价值。

而在1000节点之后,下一个测试规模是什么?亓开元介绍,实际上在本次测试中也进行了1000节点集群的多集群连接测试,未来可以通过多集群方式扩大到上万节点,满足用户更大规模数据中心的未来需求。

从云数据中心到智算中心

作为OpenStack社区的重要成员之一,浪潮早在2015年就开始围绕“开放、融合、敏捷”的理念,以OpenStack为核心构建数据中心操作系统,通过敏捷开发的模式实现了虚拟、裸机、容器的统一管理及增强。尤其是在高性能、高效率、高可用、资源融合、多云融合、云数智融合以及智能运维、智能服务等方面持续进行优化创新,在开源版本基础上融入了大量企业级增强和优化,打造了云数智坚实的底座。

刷新OpenStack最大规模集群纪录,智算中心操作系统有了新标杆

实际上,对于云计算、大数据和人工智能计算来说,这是三种不同形态的计算方式,对于计算资源的要求和调度等有着各自的要求,那么作为智算中心操作系统又是如何实现云数智融合的呢?这首先就需要对云计算、大数据和人工智能等开源技术的深入掌握和深度理解,特别是需要掌握OpenStack云计算“底座”的精深知识以及相关的工程实践,而这就是1000节点单一集群测试和实践的重要价值。

对于浪潮云海OS来说,不仅强调对OpenStack开源技术的掌握,更强调参与开源社区以及通过自己的实践来回馈开源社区。例如在OpenStack第21个版本Ussuri和刚发布的第22个版本Victoria中,浪潮在代码提交数、完成蓝图数、起草蓝图数、补丁修复数和参与人天数均达到全球前列、中国第一。近年来,浪潮的社区贡献主要集中在Nova(计算)、Cinder(块存储)、Cyborg(加速)、Vitrage(根因分析)、Manila(文件存储)等核心模块,并主导完成Nova通过Cyborg管理加速设备的特性、贡献Inspur GPU、FPGA、NVMe SSD等硬件设备驱动,有效促进了人工智能、边缘计算等新兴领域的发展,今年还发布了Venus智能日志管理开源项目,与业界共同构建开放统一的智能基础设施。

而面向云原生领域、满足用户容器化场景需求,浪潮基于微服务思想、以应用为中心、面向私有云市场打造的企业级容器服务平台,这就是浪潮云海容器云平台InCloud K8S(简称ICK8S),并于2020年9月发布了V2.2版本。该版本新增了微服务治理功能,并在应用管理、应用部署、应用中心等方面全面升级,实现针对容器化业务场景的全面覆盖。例如在最重要的微服务治理方面,ICK8S实现了无侵入式微服务治理——支持全流量治理、链路追踪、灰度发布等治理服务,治理实现与业务开发的完全解耦,平台兼容多种微服务框架,已有微服务应用无需额外改造即可平滑迁移。

在面向人工智能和机器学习方面,大数据处理平台浪潮云海Insight入选了Forrester发布中国预测分析和机器学习市场研究报告《Now Tech: PredictiveAnalytics And Machine Learning In China,Q3 2020》(简称PAML),浪潮与百度、阿里云、腾讯云等企业入选中国预测分析和机器学习市场第一阵营。浪潮云海Insight平台具备数据智能化分析挖掘、多数据源协同计算、大规模集群一键式部署、异构平台混合部署与资源精细化管理等领先技术特性。

正是有了前期在云计算、大数据和人工智能等领域的技术布局,如今浪潮云海OS才有可能升级到智算中心操作系统,特别是实践了1000节点大规模单一融合集群。浪潮以OpenStack、K8S等开放基础设施为底座,融入AIOps和人工智能训练推理平台,构建云数智一体化平台并提供智能化服务。“智算中心操作系统是智算中心的灵魂,能够有效联接下层硬件和上层服务,异构融合多种算力和多元场景,敏捷应对不同智算需求,以智能驱动创新”,浪潮信息副总裁张东就此表示。

总结来说:浪潮云海OS向智算中心操作系统的升级,是面向未来政企用户需求而提前进行的布局。浪潮作为互联网市场的第一大服务器厂商,将互联网对于新兴技术的需求以及相应的技术方案沉淀和积累下来,再向传统政企用户扩散。无论是云原生、大数据和人工智能等,真正要全面进入政企应用还要几年的时间,而浪潮智算中心操作系统不仅为新基建树立了新标杆,更是为十四五的政企数字化转型立下了新标杆!

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )