随着互联网、5G、IoT等技术的飞速发展,全球大型数据中心数量将以3.6%的复合年增长率增长,数据中心规模不断扩大,数据中心服务器规模已经达到10万级,这不仅需要更多的运维工程师,给企业增加运维成本,同时给运维工程师也带来了极大的难度和挑战:如何及时发现异常设备?异常根因是什么?故障是否能自愈?是否能预测故障?性能趋势是什么?如何决策?
运维发展历程:人肉运维、自动化运维和智能运维
早期的运维工作,大部分是由运维工程师手工完成,这被称作人肉运维。服务器运行状态,全靠运维工程师每日肉眼查看,进行问题定位与解决。自动化运维应运而生,大大提升了发现异常设备的效率,降低了运维成本。但是,面对故障根因、故障预测、性能趋势和控制决策,自动化运维力不从心。
Gartner在2016时提出了智能运维(Artificial Intelligence for IT Operations)的概念,并预测到2020年,智能运维的采用率将高达50%。从服务器运维的角度来分析服务器智能运维,目标就是通过对带外信息(配置信息、状态信息、性能信息、日志等)和带内信息(配置参数、性能信息、日志信息)进行采集,通过机器学习的方式来解决运维问题,提高系统预警能力和稳定性,降低运维成本,提高运维效率。
异常快速检测,问题准确告警
在服务器运维中,异常检测是根本,常见的有三大监控数据:状态指标、性能指标和日志数据,状态指标一般误报率较少,而传统性能指标的设置阈值,常常某一时刻产生噪点数据而产生误报;对于周期性变化的数据又无法进行动态调整,也常常产生误报,大大降低了告警的准确性。日志一般是半结构化数据,根据日志级别产生告警,其准确性极差,并且只能检测到已知和确定模式的异常。
浪潮服务器智能运维采用无阈值告警,无需人为设置阈值,通过对时序数据进行去噪、升维、方差等处理后,经过神经网络、LSTM、随机森林等算法进行动态的学习,达到对监控的性能指标,自动、实时、准确的识别出异常数据。对于日志的处理,通过对单条日志的语义识别和日志文件的时序识别方式,经过自然语言、专家系统、神经网络、深度学习等算法进行训练或者维护,从而不断完善,达到日志异常的准确检测。
故障智能处理,轻松运维so easy
智能故障诊断是建立在异常检测之上,有了准确的异常检测,通过综合各个异常指标进行数据的融合、过滤、权重等处理,使用神经网络、SVM、随机森林等智能算法,寻找问题根因,给出问题解决方案,使得运维工程师能够分钟级解决问题。
智能故障预测是对设备某一部件的性能数据和状态的动态检测,对原始数据进行数据挖掘,寻找特征数据建立数学模型,使用神经网络、SVM等智能算法进行在线/离线训练,形成预测模型。在部件发生故障前,感知故障,从而避免业务宕机,提高系统稳定性。
智能故障自愈是指故障确认后或者预测到故障时,无需人为干预,能够通过重启、配置或者一定的流程,使得系统能够恢复正常。故障自愈,需要维护一定的规则或者对故障进行标记,经过神经网络、SVM等算法进行训练,形成自愈模型,实现系统的故障自愈。
智能决策,感知未来发展
浪潮服务器智能运维工具可对服务器的性能数据进行预测,经过ARIMA、最小二乘法、指数平滑、LSTM等智能算法,能够感知系统在未来几个小时、几天或者一年的数据的走势、增长量或者周期性变化等,不仅为人工预测或者智能决策提供基础数据,还能够为业务系统提供优化建议。
浪潮服务器智能决策是建立在异常检测、故障诊断、故障预测、性能预测等之上,通过建立数据模型,经过神经网络、深度学习、专家系统等智能算法的不断学习,形成决策模型,无需人为干预,对服务器的配置参数进行智能调整,版本基线的升级/回退等决策,从而达到系统性能最优、异常最少、功耗最低等效果。
例如监控服务器运行的性能,在业务少的时候,可以将服务器功耗降低,在集群方式下,甚至可以进行服务器关机操作,在业务量大的时候,将服务器性能调整至最优等智能决策。在整机柜/机房中,功耗的管理,当服务器都处于满载时,服务器的功耗是否超越了整个机房或者机柜的最大功耗,超越之后如何进行智能决策等。
智能推荐,发掘无限价值
智能推荐是对平台大量数据的统计、计算、分析和挖掘等处理,建立数据模型,通过神经网络、深度学习、最小二乘法、SVM等智能算法,建立推荐模型,实现对整个数据中心进行分析和预测,来指导客户决策服务器下架、备件量、扩容量、缩容量、采购厂商等。例如某一型号服务器的故障率过高,维护费用相应增高,建议下架,又由于业务的增长,需要采购新的服务器,通过智能算法评估采购量,进行推荐。
目前,浪潮依托自身技术优势,已自主研发了一系列自动化、智能化服务器管理软件集,从服务器上架、配置、部署、监控、故障分析等实现了全生命周期运维管理。其中ISPIM(浪潮物理基础设施管理平台)突破了大规模基础设施智能管理平台的分布式网格架构、高性能数据采集框架及智能分析系统、无状态管理技术,实现大规模服务器的全生命周期的智能管理。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )