在第十一届中国系统架构师大会上,来自互联网、金融、在线教育、电商等领域的100余位技术精英带来了一场最具价值的技术交流盛会。
作为一家在线教育企业,VIPKID自2013年成立至今,VIPKID的用户数量大幅增长,业务场景也产生跨越式迭代,但是VIPKID却能很好地减少公司故障的发生。VIPKID基础架构部基础平台负责人杨志强就此对VIPKID如何规避风险故障进行了分享。
VIPKID基础架构部基础平台负责人杨志强
杨志强提出,VIPKID主要采取智能化故障监控解决方案,对流量层、服务层、数据层的异常风险点进行全面数据采集和智能化监控,监控系统发出告警后会通过烽火台系统进行分发和送达,并实时发现持续的大颗粒风险,同时烽火台系统还会对告警大颗粒的风险进行筛选,对于持续的风险预警,将会升级成故障播报。此外,烽火台系统将通过分钟级故障播报、故障规则训练、智能化分析、自动化识别,产生自愈策略及自愈处理完成故障修复,并生成系统故障质量报告,通过运营周报通知所有研发同事,极大地减少了公司故障的发生。
VIPKID监控告警系统-天网系统
针对现阶段告警发现、处理、协作、跟踪问题多,效率低下、无法量化的现状,杨志强认为告警的预测性和针对性至关重要。目前,VIPKID烽火台预警播报已实现了3分钟持续风险的提前预警、电话、短信、钉钉、邮件等多端播报及高效协作处置风险。其中,风险播报中心已制定了人工播报、系统播报、研发跟进三个阶段的运营策略,大大提升了问题发现率、播报及跟进效率。
此外,杨志强还对智能化运维中的告警智能化分析及智能告警方案设计进行了补充介绍,基于VIPKID基础架构部,团队构建了整个监控告警系统的设计架构——天网系统,目前已完成包括告警计算、风险预警播报、订阅中心、质量报告、告警统计、问题归因分析在内的烽火台告警分析。杨志强表示,未来将继续通过与大数据算法团队的共同协作开发故障定位系统,“希望通过天网系统实现更加完善的智能告警设计,提升告警系统的智能化水平,为小学员的每一节课保驾护航。”
互联网在给我们带来便捷的同时,也潜藏着许多风险,VIPKID的科研团队从未放弃对科学新技术的创新与研发,尽其所能给学生们创造一个安全纯净的网络课堂。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。