云智慧AIOps智能运维应用实战之统一告警

企业IT系统构建是一个聚沙成塔的过程,伴随业务规模的不断增长,IT系统越来越多、IT架构的复杂度呈指数级增长,运维部门承受着巨大的管理压力,这就需要对离散的IT监测系统和海量的告警数据进行统一的采集、处理和呈现。

云智慧基于大数据和机器学习算法构建的智能运维统一告警平台,能够接入各种主流监控系统的告警消息与数据,实现统一的告警接入、发送与处理,帮助用户打通数据孤岛,建立统一标准与管理规范,减少对运维的事务性干扰,提升运维和企业运营的整体管理水平。

智能化统一告警管理典型应用场景和需求分析

智能运维统一告警平台广泛适用于核心业务对IT的依赖程度较高,具有较大IT规模和较高IT成熟度的中大型企业,非常重视IT效率对业务效能的提升,希望充分利用云计算、大数据、人工智能技术,从而获得互联网+和数字化转型的成功,然而在现实中常常具备以下场景特征:

业务系统繁多:包括企业HR系统、OA系统、财务系统、订单系统、ERP系统、协同系统、进销存系统等多个业务系统;

IT系统规模复杂:IT系统的复杂性导致对应的监控系统繁多,监控系统分散但关联性很强,技术体系不统一,有些已非常陈旧;

运维压力巨大:运维人员少,在多个监控系统间往返,工作效率低,不断受到业务部门的投诉和抱怨,绩效考核难,流动性大,新人培养困难;

智能运维统一告警应用场景和管理需求如下:

监控系统离散,各个监控系统的告警规则设置方式不同,告警消息分散存储,不便于统一管理;

告警通知方式有限,基本采用邮件和短信告警,经常会造成“告警风暴”,各个业务系统的告警方式不同,无法自定义告警消息格式;

告警后定位问题困难,需要能够快速知晓并定位问题,针对告警消息关联定位到历史快照;

缺少解决具体告警问题处理的自动化运维手段,针对 “模式化”问题,需要通过告警事件形成标准的自动化处置手段(如服务自动重启)等;

缺乏统一的告警分析及处理平台,缺少集中的告警事件消息的展现及处理界面,分散管理造成人工及管理成本的增加;

尚未建立健全面向标准规范的告警事件处理机制与流程,无法与企业的ITIL等事件管理流程及系统进行对接,无法形成面向问题事件分级处理的管理模型及支持面向运维人员的可量化KPI考核体系。

智能化统一告警管理解决方案

云智慧智能运维统一告警平台可通过restAPI 、Agent 等采集方式实现多套监控系统数据的统一接入告警平台,形成统一派单、统一运维的效果,建立更加完整的监控体系,帮助企业用户达成六个“统一”:统一管理、统一规范、统一处理、统一展现、统一通道、统一权限。

云智慧AIOps智能运维应用实战之统一告警

整合主流的开源监控工具及商用监控产品,将以上各种监控软件采集的性能指标参数通过该平台进行统一的告警规则及发送、排班设定,同时也支持直接接入并发送这些监控系统产生的告警消息;

支持手机短信、电子邮件、电话语音、企业微信、App推送等多种告警通知方式;

告警平台能帮助用户在一个统一平台上可视化查看及管理IT系统的所有告警消息,基于可配置的问题事件等级管理及与外部系统的集成接口,帮助企业用户形成标准的告警事件处理流程和考评体系。

统一告警平台围绕接入发现、设置部署、异常告警、关闭总结的闭环管理流程进行设计,帮助企业构建包含“监控、工单、自动化运维”等完整的运维支撑体系,达到设备接入可发现、无盲点,监控手段同步跟进,异常情况及时预警,故障告警完整跟踪,故障处理解决方案可归档的互联网级运维响应目标。

智能化统一告警管理典型案例

某金融公司拥有50余套核心业务监控系统,并且每个系统会独立的产生告警通知,当出现大规模故障时,运维人员同时会收到来自各个系统的大量告警通知,对正常的工作造成了极大困扰。

云智慧AIOps智能运维应用实战之统一告警

通过部署云智慧智能告警平台,利用 restAPI 、Agent 采集等方式对接各个监控系统,将各个系统的告警消息进行统一汇聚和整合,让运维人员在一个平台上接收、处理所有故障消息,配合前文提到的告警抑制和智能关联分析功能,大幅缩短了整个运维团队的平均接手时间(MTTA,Mean Time To Assistant缩写),从过去的平均25分23秒降低到了4分16秒。

自2016年云智慧推出智能运维统一告警平台以来,已经在银行、证券、保险、航空、医药、制造、新零售等数十个行业的上百家中大型客户中得到了成功部署和良好运行。在2018年7月Gartner发表的《Hype Cycle for ICT in China, 2018》中,云智慧籍此平台成为AIOps领域的Sample Vendors。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2018-12-14
云智慧AIOps智能运维应用实战之统一告警
企业IT系统构建是一个聚沙成塔的过程,伴随业务规模的不断增长,IT系统越来越多、IT架构的复杂度呈指数级增长,运维部门承受着巨大的管理压力,这就需要对离散的IT

长按扫码 阅读全文