在华为云上,美图以综合治理的确定性让用户实时变“美”

科技让美更简单,在美图,2.4亿月活跃用户一起变美。作为一家以“美”为内核、以人工智能为驱动的科技公司,美图打造的美图秀秀、美颜相机、Wink等移动互联网产品,深受广大用户的喜爱。

基于对影像科技的研发创新专注,美图持续领跑影像赛道,满足了用户在图片美化、拍照摄影、视频美化等影像美的需求,并产出着月均约60亿的照片和视频。在面向用户的前端,美图深入洞察前沿趋势,了解用户需求,不断探索更多“变美”的功能,迭代产品,致力于让用户“美”实时在线。不过面对用户遍及全球、产品线众多、服务发布频率高的现状,要做到业务稳如泰山并不容易,这有赖于一个稳固的大后方为业务运行提供保障。

2019年,美图全量业务搬上华为云,将业务底座升级为云原生基础设施,实现性能、弹性伸缩能力的极大提升,从而轻松应对超10亿用户量级的海量突发业务请求。美图高级技术总监王关胜指出,两年多以来,美图携手华为云联合共创积累了丰富的云上综合治理经验,并希望与行业展开技术交流,共同探索长效运维新思路。日前,华为云联创营•云上综合治理研讨班走进厦门,美图分享了云上综合治理实践,为行业企业用好云、管好云、提升云效能提供了有益借鉴。

稳定、效率、成本,做美图服务最稳的大后方

易变性、不确定性、复杂性、模糊性,“乌卡(VUCA)”一词描绘了当今世界的时代特征,亦体现在数字化转型的过程中。“我们所做的稳定性保障工作,就是在和VUCA做对抗,即在一个复杂的、不确定性的环境下,去追求确定性的结果。”美图高级运维经理石鹏道出了SRE的挑战和目标,并指出了美图SRE(Site Reliability Engineer,站点可用性工程师)的核心工作职责,在稳定性、效率和成本之间的“矛盾”中寻求平衡,从而做美图服务最稳的大后方。

很明显,保障线上服务的稳定性,建设工具/平台/基础设施提升效率,用技术手段控制、优化服务的运行成本,成为美图SRE开展工作的中心。

其中,“全生命周期覆盖”成为贯穿三大目标的一个关键词。在稳定性保障方面,从故障的预防到故障的发现、定位,再到故障的恢复与改进,SRE要做的事情就是要在建设/演练/OnCall,到应急响应,再到复盘/改进/OnCall的过程中不断迭代和优化;在效率提升方面,美图构建了Dev-X-Ops的工具体系,X意在覆盖了更长的应用生命周期的链条和场景,并打破轮子众多、工具间数据割裂、不成体系的瓶颈;在成本优化方面,从财务角度进行云服务的预算制定、成本核算、成本归集和成本优化变得越来越重要,只有完成成本管控的流程闭环,才能实现对云服务的精细化管理、客观评价和科学决策。

所以,美图的确定性运维体系构建出一个清晰的思路和路线,即从数据化到自动化、体系化,再到智能化的演变,美图SRE希望不断拓宽能力边界,进行运维生命周期的左移和上移,即更早介入保障、更关注上层业务,下层则交给华为云的一站式运维平台,实现多维度实时监控和问题的快速诊断与修复,从被动应对到主动出击,不仅用好云、管好云,更在提升云效能上做到更进一步。

3大方向、2个基础、1些探索,美图的云上综合治理实践

为此,美图围绕“3大方向、2个基础、1些探索”进行了一系列云上综合治理的实践。

首先,美图做的就是围绕稳定性、效率和成本3大核心方向梳理流程和体系、开发工具、搭建平台。在稳定性方面,美图面向用户端和服务端梳理出了全面的质量监控体系,建设了监控大盘,从而拥有一个全局视角来查看整个业务各个链路环节的状态;并附以图文告警快速感知服务整体状态、缩短故障定位时间;当然,监的目的是为了更好地控,进一步地,美图搭建了应急响应平台,把对服务的干预手段抽象为原子性的动作,并对这些动作进行编排,形成应对不同场景的保障预案。在效率提升上,得益于华为云提供的OpenAPI与一键WarRoom机制等,从而实现运维效率工具的自动化覆盖和敏捷响应,命令行&移动端工具的建设大幅降低了使用门槛,并实现随时随地处理运维信息。在成本优化方面,FinOps的探索让成本管控贯穿在服务的整个周期中,为此,美图建设了MTCC平台,并与OKR挂钩,从目标、人员、流程和工具多方面入手来进行成本的可视化、分析和优化。

其次,围绕运维元数据和团队建设,美图深化了2个基础建设。CMDB+Service Directory的构建,用统一的运维元数据串联工具系统、打破数据壁垒,从而形成统筹的能力;打造学习型组织,开展SRE-Pharos项目,推进AB岗覆盖,不断强化团队健壮性。

再者,在云上综合治理方面,美图亦进行了一些有意思的探索。例如利用机器人来自动化发布监控告警和服务巡检报告;建立SRE权威消息发布通道来树立和强化团队品牌;创建SRE官方群组来收敛固定运维支撑的渠道;构建稳定性运营平台来挖掘、分析稳定性数据,解读隐藏在数据背后的含义。

总之而言,面对人手不足的问题,在华为云的助力下通过效率工具的开发和流程梳理,美图大幅提升了治理效率;面对稳定性压力大的挑战,监控大盘、应急响应平台的建设和监控告警治理等,让美图云上综合治理的自动化水平显著提高;面对工具不称手的问题,通过建设运维元数据、借助华为云能力,提供了更易用和高效的工具;面对成本管控压力大的挑战,FinOps体系推进、借助OKR共同推进目标,构建了相对完善的成本管控系统。

数据库运维和治理,为云端确定性加码

作为存放数据的“仓库”,数据库的稳定是保障系统稳定运行的重中之重。在数据库稳定性治理方面,美图亦进行了大量探索与实践。

在研讨班上,美图DBA负责人肖维分享了美图云上数据库运维和治理实践。美图通过平台层DBA小秘书、操作平台MTDAS、云管平台实现对后端资源全生命周期的管控。同时深入建设数据库容灾系统,并且已经介入到SRE的编排系统,针对不同场景,只需要输入相关参数,系统就会自行处理工单系统,依据故障诊断系统和日志系统,并做出相应预案。此外,面对数据的持续扩张带来的容量管理难题,美图DBA建立了智能压测系统,更准确的做好云上的容量管理。 在大规模数据库集群,美图DBA搭建异常检测、异常分析和异常处理体系,为快速定位问题、解决故障、恢复业务提供基础能力。这其中,异常检测,实现对监控指标的数据变化进行快速识别;异常分析,则针对异常业务变化进行量化分析;异常处理,是通过自动扩容、SQL限流、相关预案处理等操作实现。系统之间严密的配合,保证了美图云上服务的持续稳定运行。

从组织、流程到工具,看得出,美图的云上综合治理进行了诸多前瞻性的实践,在DBA的治理中同样得到体现。从上云以来,美图尤为重视数据库稳定性治理,并设立了DBRE(数据库可靠性工程师),组成SRE团队的重要成员,并与产品一起开发解决方案,在华为云的助力下致力于相关数据库指标的可观察性。

从IT治理到云上综合治理,虽然IT的架构进行了改变,但治理的体系一脉相承,目标一致,并同样具备较高的复杂性。好在华为云提供了全流程专业服务,并有一套完善的云上治理架构支撑,这为美图不断夯实云端系统稳定性提供了保障。

虽非生于云,但长在云上的未来美图,携手华为云不断创新与能力升级,在用好云、管好云、提升云效能的基础上,精准洞察年轻用户需求,并深入探索更多“变美”功能与创新,聚焦产品、聚焦用户、聚焦服务,与华为云一起用云上综合治理的确定性让用户一直“美”下去。

当然,随着业务发展,云上综合治理没有终点,是一项复杂的工程。秉承“智者·同行·创想”的理念,华为云联创营为行业客户、伙伴打造了一个技术交流的阵地,共探云上综合治理新思路、新路径,让企业云上创新不止步。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2022-10-13
在华为云上,美图以综合治理的确定性让用户实时变“美”
科技让美更简单,在美图,2.4亿月活跃用户一起变美。作为一家以“美”为内核、以人工智能为驱动的科技公司,美图打造的美图秀秀、美颜相机、Wink等移动互联网产品,深受广大用户的喜爱。基于对影像科技的研发创新专注,美图持续领跑影像赛道,满足了用户在图片美化、拍照摄影、视频美...

长按扫码 阅读全文