通常情况下,业务系统出现异常,最直接、最直观反映就是关键业务指标出现异常波动。以保险行业为例,当业务系统出现异常时,系统处理保单的能力会显著下降,对应到业务指标描述,即:业务系统出现问题时,“保单量”会出现下降。
如何正确判断“保单量”出现下降呢?传统的方式就是设置一个固定的阈值,例如:定义在正常情况下,系统每分钟可以处理的保单量应该在200~600之间。当实时监控到的保单量超出上述阈值时,即认为保单量出现异常。传统监控系统的固定阈值告警,就是通过设置固定的告警阈值与真实数据进行对比产生告警信息。
这个逻辑表面看上去没有问题,但是仔细想一下,每天凌晨的时候,会有多少新的保单提交到系统中呢(假设保险公司只受理国内的业务)?显然,每天上午10点到12点之间新提交到系统中的保单量要远远多于每天凌晨提交到系统中的保单量。
以此类推,业务系统在节假日和工作日处理的保单量也存在显著的差别。如果据此逻辑进行深入分析,会发现,企业很难用预先设定的规则(阈值)来判断业务系统保单量指标的是否出现异常。
为了解决上述问题,云智慧DOCP平台的DOEM数字化运维事件管理产品采用多算法集成学习模式,并引入3种针对时序型监控指标进行异常检测的方法:动态基线、同比/环比和指标异常检测。
动态基线基于历史数据,利用智能算法进行深度学习后,对未来一段时间内的每个时间点的数值进行精准预测,以预测值作为基线,并通过比较实际值与基线的偏离度(百分比差异)来监控和告警。
动态基线适用于已知某数据指标呈周期性变化且没办法给出每个周期的准确值或者周期内的数据变化过多的场景。以保险行业业务场景为例,我们根据历史保单量的学习,识别出历史数据的趋势性和周期性的变化,预测未来一段时间保单量的变化。同时根据历史数据的分布情况,给出未来一段时间的上下限的变化情况。当待检测指标高于基线高于上限/低于下限时,即判断为出现异常。监测发现预测实际值数据频繁小于预测数据,我们有效的检测到这种异常,并追踪到事件的根源。
同/环比异常检测用于发现某个待监测指标的变化趋势是持续变好还是持续变坏。将目标监控值与历史同期数据的分布和同环比的变化情况进行对比,根据数值或百分比差异情况判断新进数据是否异常,并作出判断是否进行告警。
为了应对不对业务模式的差异化数据特点,DOEM采用无监督集成学习算法进行单/多指标异常检测,无需人工设置固定阈值和定义基线偏离度,系统根据不同的数据特点,选择不同算法去做针对性的检测,并对异常进行整体的评估,自动识别出不符合期望的数据后产生告警消息。
云智慧DOEM(Digital Operation Event Management的缩写)数字化运维事件管理产品面向技术和管理,以事件为核心,实现问题事件全生命周期的全局管控。DOEM基于大数据技术和机器学习算法,对来自于各种监控系统的告警消息与数据指标进行统一的接入与处理,支持告警事件的过滤、通知、响应、处置、定级、跟踪以及多维分析。DOEM产品基于动态基线等多种算法,能够实现事件的告警收敛、异常检测、根因分析、智能预测,帮助企业打通数据孤岛,统一运维的标准与管理规范,减少对运维的事务性干扰,提升运维的整体管理水平。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 蚂蚁集团架构大调整:CTO线变革引领技术新潮流
- 蔚来智能驾驶重大调整:组织架构重组,从"半成品"到"端到端"解决方案革新
- 滴滴致歉“臭车”事件,日产本田合并谈判引关注,新车市波澜再起
- 三星助力国内手机厂商争夺高端市场,竞争升级,谁将脱颖而出?
- 美团骑手过度疲劳工作?强制下线跑单超时者,保障骑手健康与安全
- 王自如离职风波揭开真相:董明珠批绯闻无聊,职场风波需理性对待
- 2024车市冷静观察:十大热门车型背后的真实故事
- 中国云服务市场风起云涌:阿里云、华为云、腾讯云三强争霸,市场份额七成谁主沉浮
- 微信小店“送礼物”功能全面推进:腾讯回应:逐步灰度测试中,小心谨慎不冒进
- 雷诺集团权衡日产与本田合并:利益最大化需谨慎抉择
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。