9月25日专稿(蒋均牧)“5G新基建”加速实施,为数字经济发展注入新动能,不仅推动投资消费的快速成长,还将驱动千行百业的数字化转型升级。但凡事都有两面性,网络问题复杂化与业务质量高要求的挑战也随之而来,运维能力的演进成为电信网络能否持续发挥效能的关键因素。
在运维中引入AI,基于算法和机器学习的智能运维(AIOps)被公认为是一个行之有效的解决途径。2019年4月,华为正式发布iMaster NAIE网络AI云服务,成为网络智能化战略实施的重要里程碑,AIOps使能服务正是其中的核心组成。那么它拥有哪些核心价值,又如何破解电信网络运维痛点?在华为全联接2020的一场媒体圆桌上,华为网络人工智能(NAIE)产品部首席技术官程磊作出了精彩解读。
“引入AI并不意味着抛弃原有的规则。华为兼具电信和AI两方面视野,因此我们的AIOps服务能力是与电信作业系统、运维流程、专家经验紧密结合在一起形成的,从而更精准地定位、更有效地解决电信领域的运维问题。”他这样说道。
AIOps成电信行业智能化方向
在互联网、移动互联网以及层出不穷的APP改变世人生活、工作方式的背后,很大程度上得益于运营商们数十年来不懈努力、大力投入所兴建的连接与覆盖全球的电信网络。
随着数字经济成为经济增长的主旋律、数字转型的需求不断涌现,电信网络上承载的业务与应用越来越多,网络规模和复杂度也迅速攀升。特别是5G到来后,一些运营商甚至出现了2G/3G/4G/5G“四世同堂”的现象,带来了巨大的运维管理挑战。另一方面,OPEX的持续高涨也是运营商们不得不面对的难题,这意味着单纯降低设备成本已经不能改善其成本结构。
程磊指出,电信网络运维普遍存在被动式运维、故障解决困难以及运维系统割裂、自动化程度低等痛点。他引用Gartner的调查发现称,37%的网络故障是由于网络变更造成的,当前网络结构越来越复杂,网络的运维管理已远远超过人的能力;75%的网络问题都是被最终使用者感知和发现,并通过投诉向运营商反馈问题,客户体验和满意度很难得到保证;运维人员90%的时间都用来识别发现故障的原因。与此同时,各专业运维支撑系统功能也面临开发周期长、闭环流程自动化程度低的技术瓶颈。对此,运营商期望引入AI、大数据分析等技术,实现智能运维,做到主动维护和故障“自愈”。
Tractica/Ovum预测,到2025年,全球电信业对AI软件、硬件和服务的投资将达380亿美元,成为最大的AI应用市场。其中,网络/IT运营监控和管理将成为电信业最大的AI应用场景,2018-2025年累计投入达到183亿美元,占期间电信AI软件支出的44%。AIOps平台能力的构建,已经成为电信行业智能化演进的一大趋势和主要方向。
华为AIOps服务四大核心价值
作为近年来被通信、IT、云服务厂商们竞相追逐的热点,AIOps在电信领域的落地关键在于行业知识与AI技术的深度融合。在这方面,既拥有30余年的专业积累,又具备全栈全场景AI能力的华为无疑优势显著。
据程磊介绍,华为AIOps使能服务作为自动驾驶网络AI引擎NAIE的核心能力,基于AI平台,提供了一系列电信领域AIOps原子能力以及组合编排能力,使能网络管控析单元、智能运维解决方案等运维系统,最终帮助运营商打破原有的烟囱式建设方式,将各专业运维系统的应用与AI能力解耦,采用分层的服务化架构对接共享数据中心,集中提供AIOps能力,适配运维场景应用百花齐放的需求。
具体而言,华为AIOps使能服务拥有四大核心价值。首先是AI原子能力,它提供丰富的AIOps原子能力,覆盖运维全流程,包括预测,检测、定位、执行等多个环节。原子能力库支持流量预测、KPI异常检测、日志异常检测、CHR异常检测、异常关联分析、事件聚合、根因定位等20多类原子能力。
其次是编排与DevOps能力,使用者可零编码定制场景组合应用,实现数据源类型、处理流程、模型参数,通知方式、视图呈现等灵活配置,并主动预防潜在的网络问题。同时,可对确定的问题事件进行端到端配置,实现智能化和自动化。此外,基于NAIE AI训练平台,支持使用者的AI原子能力创新,不断扩展AIOps能力。
第三是电信领域数据对接能力,支持日志、告警、KPI 、xDR等电信领域主流运维数据,支持Kafka、数据库、文件系统、Restful等电信运维系统的主流数据对接方式。华为AIOps使能服务提供通用的数据源对接和标准化数据治理组件,通过配置项快速建立与运维系统的数据源连接,通过SDK将不同的数据类型和格式治理成标准化的AIOps原子能力输入集,用于模型训练和推理。
最后是场景组合服务能力,围绕运维全流程(发现、分析、处理)提供预制典型场景组合应用,快速接入运维流程。程磊表示,华为的AIOps能力可以通过多种形式被调用,比如作为云服务在云端由NAIE平台提供、将平台能力集成到智能运维解决方案中,抑或将AIOps特性内置到设备管控单元中。
助力打造最佳实践
在采访中,程磊还分享了一系列AIOps使能服务助力运营商、企业打造最佳实践的成功故事。
第一个案例是KPI异常检测。电信网络中,通过KPI来预测和检测网络问题是最普遍的场景,利用AI算法基于历史数据自动生成每个KPI的动态门限,可有效避免传统静态门限带来的误报和漏报。NAIE融合了电信领域的运维业务特点,提供单指标/多指标检测、异常原因关联分析、模型的自学习调优等关键能力。国内某运营商采用了核心网KPI异常检测服务以后,实现提前5小时发现故障并主动预警,降低了业务损失,保障四地市用户业务体验。
第二个案例是告警根因定位。发现异常或者故障之后的定位是运维流程中的难点,如何准确地将多维度的异常、告警等事件进行汇聚,减少故障噪声?如何准确定位到具体原因?这些工作目前主要依赖专家经验或者手工分析,而且受限于分析算力和支知识信息,效果并不好。NAIE AIOps通过AI算法,支持多类异常/告警等事件的智能故障定位,自动实现时间、拓扑和故障传播图等维度的事件汇集和根因定位,去除重复无效工单,在提升运维效率的同时也降低了运维成本。华为以此帮助某能源企业实现分钟级故障根因定位和分析,提升网络运维效率4-5倍。
经过一年左右的发展,华为AIOps使能服务目前已经30余张现网中得到了规模应用,覆盖了无线接入、核心网、数据通信等六大网络领域,管理着5万多个KPI,API调用每月高达3.3亿次,每天处理25万次告警,累计处理了187亿条日志。既懂电信、又懂AI,相信在华为AIOps四大核心能力的助力下,网络运维管理将不再成为电信行业痛点。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。