云集技术学社 | 云运维有哪些注意事项?

9月28日,信服云托管云运维专家Jason在信服云《云集技术学社》系列直播课上进行了《云运维概况与注意事项》的分享,详细介绍了在云化大趋势背景下云运维分工、职责和核心点。以下是他的分享内容摘要,想要了解更多可以关注“深信服科技”公众号观看回放。

  看点一 云的演进为运维带来了哪些挑战?

随着信息技术的不断发展,云演进经历了硬件化、虚拟化、超融合和云四个历程。数据中心也从传统数据中心、虚拟化数据中心、软件定义数据中心到云化数据中心。企业对信息系统的需求定位也在不断变化,信息系统从成本驱动、成本和效率驱动、管理驱动、管理和效率驱动最后到业务创新驱动。

随着企业业务规模不断扩大,信息系统基础架构也从超融合、多资源池软件定义数据中心、私有云、同架构混合云再到现在的多云中台。信息系统和云服务复杂化的趋势越来越明显,平台的安全和运维可靠性成为了云计算的关注重点之一,对云安全和云运维的要求在不断提高。

云集技术学社

云的演进给运维带来了多重挑战:

一是管理复杂。节点数量成千上万,存储、计算、网络、PaaS、SaaS各种类型业务复杂。如何管理这么多的资源、平台和业务对运维而言是一项挑战。

二是自动化要求高。在如此大的业务规模和服务场景下,自动化程度是运维效率的关键。

三是稳定性要求高。云作为一个服务主体,直接承载不同用户业务,对稳定性要求极高。

四是变更频繁。云作为客户服务载体,需要经常根据用户所需开发云产品或新功能,由此带来频繁的升级事项。

五是排查问题难度增加。复杂的技术栈、复杂的业务场景,对于问题排查要求增加。

看点二 云化趋势下运维工作如何分层?职责边界是什么?

关于云运维,信服云对整个运维体系做了梳理,将运维分成了IDC、云平台、云资源、应用层四个层级,每一个层级都会有对应的运维人员进行维护。

应用层包括应用系统和Guest OS的运维;云资源层级运维包括日常响应和专家服务。对于信服云而言,云资源层级是用户服务目录的保障。日常响应包含了PaaS、SaaS等多项服务,专家服务包含了安全服务、DBA服务、迁移服务等。

云平台层级运维包括持续运维、IT设备安装部署、IT设备运维三部分内容;IDC运维主要是基础设施的维护,包括对供配电系统、空调与制冷系统、制冷自控系统、动环监控系统等多方面的维护,日常会对机房进行定期巡检。一般来说,T3及以上的机房都有非常完整的服务保障。

云集技术学社

看点三 如何摆脱“救火式运维”的困境?

业界对运维人员一直有个戏称是“背锅侠”,这个戏称也反映了目前运维人员面临的“救火式运维”困境。“救火式运维”困境即当事件已经发生并造成业务影响时,运维人员才能发现和着手处理。如何化被动为主动,突破困境?让主动运维、持续运维成为常态,就需要详细拆解云运维核心体系,厘清运维重点,寻求技术突破,跳出运维管理怪圈。

站在管理的角度,运维的核心主要是人员、流程、技术、数据四个方面。人员是运维操作的执行者,流程是运维操作的既定范围与边界,技术是运维的武器,数据能够更好地赋能运维。

在人员层面,任何公司做好运维的第一步是拥有一个负责运维职责的团队。运维体系组织构成主要有技术支持中心、专家支撑中心、平台运维中心和职能组。以平台运维中心为例,人员组成有IDC物理环境维护、基础设施维护、网络运维工程师、平台运维工程师和工具开发组。这些人员保障着云平台的日常运行。

在流程层面,随着云时代场景下的系统规模不断扩大、目录日趋复杂、运维管理的无序工作状态日益加剧,这对运维管理水平也提出了更高的挑战。运维管理流程建设完备程度成为了运维效率的重要决定因素。运维流程管理设计遵循国际ITIL标准,整体流程从设计、 转换、 运营等角度出发,对日常运维工作中的目录管理、可用性管理、容量管理、变更管理等等进行规范和定义。

在技术层面,包括CMDB、监控指标项及模型、告警平台这几类运维工具和运维自动化、持续运维等技术。他们推动着运维的发展,帮助运维人员从简单重复的运维问题中解放出来,让运维人员能够更快处理重要问题。

在数据层面,数据是运维很关键的部分。它包含的不只是运营的工单流程或者是事件告警,还包含了知识库、平台所有的监控数据。很多公司或者说很多运营人员并不是很重视数据,实际上,数据在发现问题、解决问题和优化方案的时候起了非常大的作用。

看点四 云运维的实际过程中有哪些注意事项?

本次直播课上,Jason根据信服云深耕云计算多年的经验,给出了四点建议:

(1)传统运维的自动化转型

企业数字化转型的前提是企业需要有IT基础信息化建设以及IT基础信息的保障。在云化的大趋势下,中小企业更应该专注自身发展和数字化转型。在运维层面,可以通过服务化采购,托管式云服务的方式将平台运维交由云服务商来做。大型企业则应加强投入,组建高质量运维团队,建立完备流程、分工职责,利用技术和工具实行主动运维,向自动化演进。

(2)落地和执行

在落地的执行阶段,应以人员为根本,流程为基线,CMDB、监控、告警为三大基石,坚定不移走自动化战略。同时给予更多资源让运维有发展的空间。

(3)数据安全

企业要敬畏生产环境,流程设计一定要规避低级错误,而且要保证数据的一致性,数据的防篡改等。

(4)拥抱风险

任何产品都会存在问题,拥抱风险。企业可以跨部门、跨体系建立一条快速解决通道以及自动化高效修复作业程序,保障运维安全。

以上就是本次直播的主要内容,还想学习云计算的更多“门道”吗?敬请锁定“深信服科技”公众号或者官网,云集技术学社还将邀请更多的专家,分享他们对云计算技术的理解和实践经验。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )