4月27日专稿(蒋均牧)数字化浪潮汹涌而至,越来越“重资产”的电信网络,如何才能轻装上阵?华为以AIOps使能服务给出了答案。
所谓AIOps,即智能运维(Artificial Intelligence for IT Operations),指的是通过大数据、人工智能技术解决IT运维问题。这个最初由Gartner 2016年提出并定义、起源于算法IT运维(Algorithmic IT Operations)的概念,在今天已经成为了一个非常火爆的话题。
在将AIOps应用于电信网络方面,华为显然有着独到的视野与优势。一方面,华为深耕ICT行业多年,对于电信业务以及网络的“规、建、维、优”有着深刻的理解和丰富的实践;另一方面,这家公司在各种数字技术上长期投入,具备有全栈全场景的人工智能能力。
华为开发者大会2021(Cloud)期间,华为NAIE AI模型与训练服务部部长杨建接受了C114等媒体的采访,就电信网络运维所面临的挑战,以及华为NAIE AIOps服务的能力、进展和成功实践作出分享。
数字经济时代,AIOps势在必行
牛津经济研究院的《数字溢出,衡量数字经济的真正影响力》报告指出,在过去三十年里,数字技术投资每增加1美元,便可撬动GDP增加20美元;数字化技术的长期投资回报是非数字化技术的6.7倍,数字经济的增速是全球GDP增速的2.5倍。传统行业可以借助“+智能”引擎,实现数字溢出最大化。
“数字化”业已成为世界范围新一轮技术革命与产业变革的焦点,全球已有50多个国家制定了数字化发展战略,我国亦发布了一系列相关政策。5G商用和新冠疫情刺激下,更是加快了生产消费线上化、经济运行数字化乃至社会治理智能化的进程。
电信网络作为“底座基石、行业动脉”,担负着将数据、算力输送到社会各个角落的职能,重要性日益彰显。与此同时,伴随网络基础设施的升级、联接对象的变化和所承载业务的骤增,网络问题复杂化与业务质量高要求成为了数字经济时代两大挑战,运维能力的演进将是电信网络能否持续发挥效能的关键因素。
Gartner调研发现,当前,60%运营商的运维系统处于割裂状态,致使新功能上线周期长;75%的问题通过用户投诉发现,运维模式被动;运维人员90%的时间都用在识别故障发生的原因上,人工积累的经验难以应对网络复杂化带来的新问题。
在这样的背景下,传统以人力为主的工具、流程、模式变得难以跟上运维转型的脚步,已经有63%的电信运营商开始投资人工智能、大数据分析等技术,实现故障“自愈”与进行主动维护。AIOps被广泛视作一项关键手段——其核心价值就在于由人工智能取代人力决策,快速给出故障处理建议,或者提前规避故障。
但在硬币的另一面,人工智能技术的应用仍面临技术门槛高、投入产出难、数据准备度低等挑战。2019年,企业人工智能实际应用率为19%,较上年仅增长了5%,远低于行业23%的预估增长。单以电信网络运维智能化本身而论,亦存在人员技能缺乏、开发周期较长等痛点亟需攻克。
华为AIOps让开发更简单,应用更高效
“我们的目标就是让网络人功智能开发更简单、应用更高效,从而支持运营商及合作伙伴快速降低门槛,更好地应对瞬息万变的市场需求。”杨建谈到。
2019年4月,华为iMaster NAIE正式对外发布,同时NAIE亦是华为自动驾驶网络(ADN)的人工智能引擎,AIOps使能服务则是其中的核心组成。基于三十余年的ICT专业积累,经过“点-线-面”的运维智能化能力拓展,华为目前已经构建起完善的AIOps框架,基本完成电信网络运维的全流程覆盖。
据介绍,华为AIOps架构包含数据管理层、原子能力层、编排层和应用层四个层面,相对应地提供四大价值能力。
首先是多场景的数据采集治理:华为AIOps预制数据采集治理能力,提供一站式的数据采集、解析、治理等基础工具链,以及智能辅助数据标注能力,从源头上提升数据质量。在数据产生上,支持通用接口采集、通信领域端管云数据采集,可与30多类网元、100多种主流设备自动对接;在数据治理上,内置10多种通信业务场景治理模板,可节省90%数据准备时间;在数据标注上,通过智能辅助,可提升10倍标注效率、降低80%标注成本。
其次是丰富的人工智能原子能力:作为最核心的竞争力,华为AIOps沉淀核心人工智能资产,采用自主研发+生态合作相结合的方式,提供数字化基础组件,不仅提高了人工智能应用开发效率、降低开发门槛,也避免了公共能力的重复开发所造成的资源浪费。当前,华为AIOps能够提供超过20种人工智能原子能力,涉及预测、检测、诊断、识别等运维全场景,支持多种类型数据,具备广泛的适用性,且开放生态合作。
第三是灵活的组合编排与DevOps能力:运维场景灵活多变,如果人工编码开发不同组网的人工智能应用将极为耗时耗力,华为AIOps提供零编码流程编排能力,针对不同场景,只需从组件库中拖拽数据及原子能力进行组合,即可完成应用场景端到端的图形化编排,并支持进行业务泛化的参数配置,大幅提升应用开发效率。同时,其编排框架提供数据可视化服务,支持轻松按需搭建可视化大屏,还集成了RPA功能,实现跨系统工作流程自动化对接。
最后是开箱即用的APP:华为AIOps针对典型运维场景,提供10多类开箱即用的APP,包括KPI异常检测与分析、IT应用健康监控分析等,支持公有云和私有云部署、云地协同,还支持合作伙伴自行开发APP和一键发布到华为人工智能应用市场上。
服务超110个现网局点,成功实践解读
经过一年多时间发展,华为AIOps使能服务赢得了众多运营商的青睐,进入到规模应用阶段。截至今年1月份,已应用于运营商网络、园区网络、数据中心和IT应用四大领域,服务110多个现网局点,管理10万多个KPI,核心API月调用次数超过4.1亿次,每天处理千万量级的告警和3T的日志。
在采访中,杨建还介绍了华为AIOps一些实践案例。以无线接入智能故障管理为例,无线网络包含无线、传输、动环多个环节,一旦出现故障,告警量大、人工派单效率低、工单准确率差;同时跨域定位难,电力等问题会导致各域都派单,依赖跨部门专家协同,效率低下。借助华为AIOps的能力,可以显著提升根因定位效率、消除重复无效派单、缩短定位定位时间和恢复时长。在某运营商的应用中,早在2019年7月就能减少10%的工单,提升监控室30%的工作效率。
核心网KPI异常检测方面,运营商普遍面临的挑战包括,核心网重复故障少、定位难、故障分析耗时较长;人工设置阈值工作量巨大,且KPI难以全面监控;静态阙值无法适配业务动态变化,存在漏报、误报。部署华为AIOps后,可基于AI/ML生成动态阈值,适应各种日常KPI监控场景;通过多指标关联分析,分钟级内给出TopN根因指标;支持智能动态阈值自动调整,指标监控对象可扩大到10万个以上。在某运营商的应用中,去年4月提前5小时识别异常并主动预警,降低业务损失,7月在DNS脚本指向配置错误的情况下第一时间上报变更异常并发送告警短信,保障5G高端用户上网体验。
数据中心硬盘异常检测方面,众所周知硬盘故障后数据修复难度高,需要投入大量人力物力,并且传统的运维模式高度依赖人工,无法提前规避硬盘硬件故障对业务造成的不良影响。华为AIOps能够从历史数据中识别硬盘不同属性的突变模式,对当前状态进行预测;结合用户反馈数据,定期执行模型自优化,持续提升预测精度。目前为止可以做到提前14天预测故障,变被动运维为主动智能运维。现已服务于全球200多家企业,累计预测硬盘超过18万块、每年识别故障盘4000余块、识别数据备份场景1000多个。
“工欲善其事,必先利其器”,选择适合自身的AIOps产品显然是电信网络运维智能化转型的重要一步。而华为NAIE AIOps凭借在ICT和人工智能两大领域的创新积累,完美契合运营商的网络现状与转型诉求;并且基于机器学习、开放生态等方式,未来还能不断迭代、常用常新,必将助力运营商的智能化之路走得更快更远。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。