在5月13日的第四届国际智能运维(AIOps)挑战赛上,联想研究院凭借业界领先的技术能力,在660支参赛队伍中脱颖而出,夺得了大赛冠军。
自2017年以来,联想研究院企业服务云计算实验室智能运维团队一直聚焦数据中心IT运维的自动化和智能化,打造了领先的智能运维引擎。在本次比赛中,他们创新地提出了基于有监督算法构造领域知识和无监督算法多指标异常评分相结合的方式,打造了实时、准确的综合故障检测和根因定位方案,在决赛阶段持续5天的在线算法评测中,评分大幅领先所有其它参赛团队,勇夺桂冠。
除了联想研究院,其他晋级决赛的战队包括亿阳信通,北京大学,交通银行,宝兰德软件,平安科技,清华大学,以及阿里巴巴达摩院&云数据库、浙江大学、大连理工大学战队等。
运维技术支撑着IT系统的稳定运行。数据中心,或俗称的机房里,布置了大量的服务器。有的数据中心规模庞大,可能有成千上万台服务器。数据中心的规模越大,出现服务器故障的概率越高。而一台服务器启动日志就有数百万行,面对故障,需要从海量的日志中定位问题,即使有经验的专家也需要几天时间才能发现问题。
随着支撑数字世界的软硬件系统越来越庞大、越来越复杂,因系统故障问题导致企业用户流失和经济损失的案例逐渐增加。比如,2016年,全日航空由于IT故障导致多个航班被取消;2018年,澳大利亚电信公司Telstra遭遇软件问题,导致全国范围内的数百万客户无法获得4G移动服务……这样的例子比比皆是。
如何快速发现、解决这样的故障,传统的被动响应式IT运维方式越来越力不从心,迫切需要更加实时、更加智能和准确的IT系统运维。于是,智能运维(AIOps)技术应时而起,应运而生了。智能运维又称AIOps(Artificial Intelligence for Operations),是把人工智能技术应用在IT运维领域,借助机器学习、深度神经网络、因果推断分析等人工智能算法,提升系统自主分析决策能力并实现系统自治,代替人工进行故障管理决策。
聚焦金融场景的智能运维挑战赛
本届挑战赛是第一届国际互联网产业科技创新大会的重要组成部分,由中国计算机学会、国家互联网数据中心产业技术创新战略联盟、中国建设银行、中国民生银行和清华大学主办,是业界颇具影响力的智能运维大赛。
比赛以“云环境下商业银行应用系统的故障实时检测与根因定位”为主题,采用了两家大型商业银行真实的应用数据,包含实际环境中常见的故障类型,具有不同的拓扑,指标和故障分布差异巨大。
商业银行应用系统很少出现故障,但一旦出现故障,会产生重大影响。比如2018年,英国TSB银行面向新的软件平台进行了一轮大规模迁移,结果造成持续数周的重大业务中断,导致了该银行数百万用户的不满,其CEO最终引咎辞职。
另外,试想一下,如果你正想买入一只股票或基金,而金融系统突然出现故障,交易因此失败,导致蒙受重大损失……
此次比赛,就是针对金融场景下的IT系统故障检测。具体而言,每支参赛队伍需同时对两家银行的数据进行实时的故障检测,并在发生异常后的规定时间内,准确定位出引起故障的指标或日志。评测系统会从平均故障检测时间、定位精度和查全率等指标评判参赛队伍的算法效果。
联想研究院企业服务云计算实验室参赛团队(LR-AIOps)
领域知识建模和多指标快速异常检测及故障定位是联想研究院在此次大赛中获胜的核心技术能力之一,相关算法也已集成在联想XClarity数据中心管理套件和联想边缘计算平台中,正在帮助国内外数以万计的客户提升IT运维管理的体验和水平,大幅降低了业务支持成本,极大地提升了客户满意度。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )