运营商资源池精细化管理能力提升研究

2021-08-31 08:05孙淳晔李红双赵秋爽钤程程
广东通信技术 2021年8期
关键词:上云利用率运维

[孙淳晔 李红双 赵秋爽 钤程程]

1 概述

随着云计算技术的成熟及推广,近年来运营商以实现资源的按需分配为直接目的进行了大量的资源池建设,有对外提供服务的公有云资源池,对内提供服务的私有云资源池,电信业进入了云时代。

资源池的建设打破了传统各业务系统烟囱式的建设模式,以追求业务敏捷性、实现统一管理及共享使用为目的,引入了虚拟化、容器、微服务、多租户等技术,搭建了标准统一的云管理平台,实现了资源的统一分配及管理。但现实中,资源池的利用率普遍偏低,2017 年Q3,中国移动集团总部的私有云利用率仅为5.12%。建设效果并未达到初衷[1]。

基于以上背景,文章针对资源池的建设及运营情况进行深入分析,从技术上和管理机制上针对性提出改进方案,实现资源池的精细化管理,充分发挥资源池的使用效果及价值。

2 现状及问题分析

早期的运营商资源池多为省独立建设模式,主要以私有云模式为主,部署本地化业务及应用,平台异构,厂家多元,历经多期建设,体量庞大。在系统的规划期、分配期、使用期、回收期等关键环节或多或少存在一些问题,缺乏科学的规划及评估体系。

(1)容量规划期,资源池建设主体单位一般采用让各需求单位直接提出物理机和虚拟机的服务器规模、性能需求。业务部门为追求业务发展的稳定性,会尽量多地申请资源,缺乏合理、科学的设备扩容原则。

(2)资源分配期,资源池只是进行了IT基础设施的池化,并没有实现资源实时动态地根据业务需求自动调整分配。需求单位无偿使用资源,在资源池的资源有限时,资源池投资主体单位在分配时一定会优先保障自身对资源的使用需求。业务使用部门从业务稳定性角度出发,会按最大资源申请。

(3)资源使用期,资源池各节点利用率差异较大,部分节点利用率低,但并没有将资源进行释放供其他节点使用,即使利用率低也没有动力将资源进行释放,造成资源池忙闲不均,资源浪费。

(4)资源回收期:资源池的后评估体系不够完善,无法衡量资源池的实际使用效果,造成资源池低利用率设备无法回收,只能等待设备达到使用年限下线。

以上各环节导致资源池投资较大,但效果不强;建设规模较大,但利用率不高,在当前云资源池大规模建设的阶段,除了使用先进的技术手段予以解决,更重要是做好前评估,制定一套合理的流程机制进行规避。

3 基于资源池全生命周期的端到端解决方案

云资源的建设及管理首先要考虑投资效益和资源分配,云服务的提供要在云资源使用共享的基础上考虑业务敏捷灵活、高效安全的运营。云资源池的建设与维护体现在其整个生命周期的各个环节上,需要从规划期进行合理的规划、在使用期进行科学的分配、在维护期进行最优的管控,如表1 所示。

表1 业务现状梳理分类

3.1 规划期

需要考虑未上云系统如何高效上云,打造未上云系统的“业务云化全景图”,系统摸排业务运行状态,促进业务上云,形成合理的云化方案。对于已上云系统根据在网利用率进行合理扩容。

如图1 所示,结合云管平台,制定标签规范,建立业务全景图。

图1 标签规范架构组成

针对即将上云的业务系统合理评估使用资源,合理高效上云。除了计算、存储,网络等基础资源,还要兼顾安全,业务连续性、性能等方面,遵循以下原则,如表2 所示。

表2 上云评估体系

上云原则:制定针对不同业务的上云策略。业务逐渐从X86 物理机迁移到虚拟机,从Scale Up 转向Scale Out,用小规格虚拟机分布式横向弹性伸缩扩展满足业务需求,集中式存储替换为分布式存储,数据库采用数据库一体机替换。

通过规划期内对上云业务系统进行全面摸排,并对需求资源进行合理的评估,能够从源头上进行把控,避免盲目大规模的建设,节省投资;同时兼顾一定的上云原则,优化了业务逻辑,提升了系统性能、稳定性及可扩展性。

3.2 使用期

使用部门根据最佳实践进行云化资源申请:将业务分类分场景(Web 型,应用型,数据库型等)做典型模型的性能测试,推荐业务系统资源申请的最优VM 规格配置,供业务系统资源申请时做参考,优先小颗粒VM 资源分配做横向扩展。

(1)制定针对不同设备的优化措施,提升资源利用率,如表3 所示。

表3 优化措施

(2)建立内部结算机制,形成成本制约。

基于降低TCO 本质,实现成本的精细化管理。建立资源池成本核算指标体系[3],并将部门/业务申请资源、成本计价进行综合,建立虚拟结算机制,将结果并纳入资源池后评估。

资源池的成本模型需要结合当前最新的集采典配模型成本、各种机房配套成本、统一的备份及管理、人力等成本,制定合理的成本定价,形成内部结算依据,如表4 所示。

表4 资源池指标体系

业务部门在申请使用资源时,需要同步考虑成本定价,资源池分配部门定期针对云资源池上的业务平台进行评估,针对有收入的平台进行投入产出比评估,针对不产生直接收入的平台进行利用率评估,制定资源回收、下线标准,对评估良好的平台提升资源分配优先级。将评估结果纳入资源池后评估体系。

使用期为需求单位最重要的一个时期,使用单位需根据业务忙闲特性通过技术手段对不同类别的资源进行优化提升,从而真正实现了资源池的弹性伸缩,提高了资源利用率;同时从管理机制上进行了内部成本约束,形成考核体系,督促使用单位自发进行资源调优。

3.3 维护期

实现业务流程的全贯通。根据需求进行组织适配调整,做到建设流程的闭环;引入专业化、智能化的运维工具实现智能运维。

(1)针对资源池成立虚拟工作组,覆盖一线、二线、三线等多类人员,全流程运维打通,避免规划不知维护情况,维护不知规划两张皮情况出现,如图2 所示。

图2 虚拟组织架构

(2)规范化云运维流程,云运维活动多级细化,分层展示活动频次、人员技能要求、活动工作量、交付模式和自动化程度,并根据业界标杆制定自动化提升方向。

(3)针对资源使用趋势,引入AI 智能预测容量变化,提前预警。云管平台定期生成报表,抽象统计成:vCPU、Mem,预测未来周期(3 个月、半年、一年),提前做好资源储备。

(4)随着业务的资源池云化部署,设备规模愈加庞大,且应用逐步向容器化和微服务化方向演进,导致系统复杂度越来越高,需要引入自动化、专业化的运维工具,实现智能运维。

维护期作为系统上线后的关键阶段,期间会暴露各种问题,对整个系统的稳定运行至关重要,通过建立闭环流程,能够实现运维阶段至规划阶段的反哺支撑,形成良性循环;同时引入一些智能工具也能在海量的资源运维过程中降低运维复杂度,释放运维人员压力。

4 结束语

随着云技术的发展和云服务的丰富,传统粗放式的管理将被精细化的方式取代,精细化是一个持续更新、不断迭代的过程。本文抛砖引玉,从多角度、多阶段提出资源池全生命周期端到端优化解决方法,不仅需要通过技术手段实现,更多的是通过流程制度的建立,将资源池的精细化管理彻底重视起来,最终目的是实现公司节能减排、降本增效。

猜你喜欢
上云利用率运维
高速公路视频上云架构及视频智能分析
高速公路视频上云工程建设浅析
2019年全国煤炭开采和洗选业产能利用率为70.6%
运维技术研发决策中ITSS运维成熟度模型应用初探
自然资源应用系统“上云”研究与探讨
化肥利用率稳步增长
风电运维困局
企业上云成数字化转型必经之路
浅议如何提高涉烟信息的利用率
杂乱无章的光伏运维 百亿市场如何成长