关于数据中心基础设施运维的一些思考

2020-01-20 05:32舒亮
今日自动化 2020年8期
关键词:措施探究数据中心基础设施

舒亮

[摘    要 ]我国数据中心历经多年的发展历程,建设规模持续拓展,特别是在大数据、人工智能等高新技术快速发展的背景下,数据中心新一轮的发展已经拉开了帷幕。为确保数据中心能安全、高效率运作,就应加大对动力、空调等基础设施的运维管理。文章首先浅谈数据中心基础设施运维管理的现实状况,其次解读加强运维管理的现实意义,最后较为详细地探究不同阶段中运维管理、控制的具体措施,以供同行参考借鉴。

[关键词]数据中心;基础设施;运维现状;措施探究

[中图分类号]TP308 [文献标志码]A [文章编号]2095–6487(2020)08–0–03

Some Thoughts on the Operation and Maintenance of Data Center Infrastructure

Shu Liang

[Abstract]My country's data center has experienced many years of development, and the construction scale has a trend of continuous expansion. Especially in the context of the rapid development of high-tech such as big data and artificial intelligence, a new round of development of data centers has begun. In order to ensure the safe and efficient operation of data centers, the operation and maintenance management of infrastructure such as power and air conditioning should be increased. Firstly, talk about the actual situation of data center infrastructure operation and maintenance management, secondly, explain the practical significance of strengthening operation and maintenance management, and finally explore the specific measures of operation and maintenance management and control in different stages in more detail for reference by peers.

[Keywords]data center; infrastructure; operation and maintenance status; investigation of measures

當下,移动互联网业务已经普及到社会多个领域中,视频、电商等在全网内均可洞察到应用踪迹,数据量有暴增态势,数据中心的数目与规模也相应扩增,有资料记载2016—2019年中国数据中心市场维持着20.0%~30.0%的增长率。且数据中心建设表现出大型化、模块划分精细化趋势,这也预示着成本有所提高且对基础设施建设、运行、维护管理情况表现出更大的依赖性。

1 数据中心基础设施运维管理现状

数据中心基础关联到供配电、空调、消防、安防以及弱电监控等诸多子系统,不同子系统之间构建了紧凑的相关性、互为作用与影响。可见,复杂性是该系统的典型特征之一,针对其开展的运维管理工作,可以将其看成是一个多目标优化的决策流程,只要能保证子系统综合运行状态抵达最优化水平,那么数据中心运行阶段高可靠性方能得到更大保障。在运维实践中,可以将风险管理有关理论及技术工具用于其中进行定性分析,主要有依照前期拟定好落实的基础设施高危设备巡视、检查清单与有关运维器具功能,按照季度对各机房进行一次和“体格检查”相似的巡检活动,针对当场采获到的设备运转信息与故障记录情况作出容量管控等解读专研,借此方式感知到哪些设备存有“患病”的表征,尽早和设备厂商取得联系进行调换与养护;针对现场排查出的安全隐患,依照其严重性对其进行分级、分类,制定风险登记薄与改进计划,及时作出闭环式处置,借此方式增强通信网络运行过程的安稳性。

2 基础设施运维管理的必要性

(1)进一步量化设备的运维指标,拓展巡视检查的深度性,整体提升设备运行过程的安稳性、可靠性。

(2)尽早探查到安全隐患,降低故障发生的风险。

(3)提升竣工验收工作质效,减轻前期工程项目滞留的缺陷对后期运维安全形成的不良影响。

(4)加大对外包运维团队的监管力度,整体提升他们的运维管理能力与工作力度。

(5)形成数据中心运维统一化规范,为广大客户群体提供标准化运维服务,提高他们的满意度。

(6)采用统计的巡检清单和运维指标,循序渐进提高运维综合水平与部署能力。

3 数据中心基础设施运维管理措施

3.1 规划设计

在规划设计实施阶段,运维管理工作的侧重点是严把“方案审核”关卡,等同于参照数据中心的所属等级、国标和行业规定、客户主观需求、地方政府机关下达政策体制等,整体测评基础设施运转过程安稳性、低成本性、通用性、可拓展性以及效益产出等,合理调度各类资源,最大限度地提升其有效利用率,力争做到科技高端、节能有效、成本科学化。

但是工作实践中,受多种因素的影响,很可能造成数据中心无法较好地满足部分业务运维工作实施时提出的要求,故而需对其作出整改,降低标准要求是最无奈之举。故而在设计阶段应对以下几点问题予以一定重视。

3.1.1 加大需求管理力度

部分设计人员可能依照主观臆断去设定数据中心的功能指标,过度追求指标的高可用性、低能耗性,而在具体操作环节并没有严格按照现行规程作出充分论证,造成设计方案中部分内容和配置实况、项目综合规划存在较大差异。由此滋生出一些负面后果,若屡次整改设计方案,则会导致部分资金浪费、工期延长,降低已投运机房的利用率,削弱了规划工作的效能。故而,于需求管理阶段应认真落实如下几点工作:①明确业务持续发展与用户特殊要求;面对扩容项目时,需明确现网资源的容量状况及投入状态;②把控持续改进的需求,针对一些业务或者用户需求模糊化情况,理应留置后期完善整改的空间;③牢牢掌控设备技术改革和发展需求,密切关注业内与技术发展动态,尽早使用可执行度较高的新科技、设备及方案等,在具体应用前均要组织专职人员屡次论证并进行试验检测,取得确切的结论后再做规模化应用的决策。

3.1.2 科学规划设计的次序

既往部分数据中心的建设方主管未能关注设计先后次序的规划情况,很可能是在确定好结构以后,再规划、部署机电系统安装活动,以致数据中心规划部署阶段遇到诸多阻力。如有结构设计状态不符合机电系统场地实际布设要求,这是造成机房空间配置欠缺合理性的主要原因之一,不同机房之间分区不科学,管路、线缆距离控制力度不全面或者不到位,不仅会增加资金投入量、不利于系统安稳运转,也增加后期运维工作难度系数。

合理的规划设计次序可以做出如下表述。

①结合业务现实运行以及客户主管需求等,准确设定数据中心规划的级别、规模、容量值等。

②落实各类型机电、制冷系统方案及机架规划任务。最后,参照如上方案内容规划建筑结构、规模及管线安装方案等,使数据中心建筑结构和机电安装方案两者契合度得到更大保障。

3.1.3 尽量提升系统架构的设计水平

可以把数据中心基础设施看成是一个结构样态复杂、内部配置的不同构造相互关联的系统,任一方面存在缺陷均可能会降低整个磁通的可靠性[3]。鉴于以上情况,设计人员要主动确立大局观,特别是在供电、制冷系统方面进行全面规划。如针对数据中心配置的备用柴油发电机系统,并且要求机组与并机带有自动化功能,还要分析从市电断离后至备用系统完成供电的所有逻辑设计,比如启停信号产出和传送、机组并行与输出油机调换逻辑、测算蓄电池后备时长等。

3.1.4 完善系统的可操作性、修复性水平

任何设备投运阶段发生故障在所难免,运维阶段应指派专人落实常规巡检维修、故障应急处置、设备检查与维修、报废更替等工作事宜。故而,在规划设计过程中应重点分析机房建设空间;设备巡检、维护操作空间,设备选型环节其可维护性;设备更换过程中需要投用的备件类型或者搬运渠道,系统智能化抵达的高度,减少手工辅助操作环节等。

3.1.5 鼓励运维人员主动参与规划设计工作

该种措施实施的益处如下。

(1)弥补设计人员在运维管理经验方面存在的疏漏,减少或规避设计缺陷。

(2)尽量维持规划设计和运维目标两者的统一性。

(3)能较全面地分析运维期间对设计提出的要求。

3.2 工程实施

工程实施等同于把设计预想由图纸转变成生产力并予以充分落实,该阶段工作的侧重点是严格把控“入网验收”关卡。

在工程随工环节推进阶段,针对设备类工程项目而言,重点是针对各类到货设备、辅助性材料逐一进行确认,并加大对管路的施工工艺执行阶段的监管力度。如针对空调铜管焊接,相关人员需要做好、做实氮气保护工作,在焊接结束后吹洗、保压试验检测活动应及时跟进。针对空调用各类水管,一定要严格依照设计要求做好防腐处理、承压试验。

在待调试设备施工与测验工作整体结束后方可进行通电调试,要求各种标识完整、内容精确,以最严谨的态度开展通电调试。落实该项工作后便能测试性能及验证功能,严格依照现行有关国家、行业、企业标准及具体设计要求,从设备与系统层面上分别进行测验。针对调试、检测阶段发现的问题,尽早形成消缺清单,逐个解除。

入网交维可以被视为由工程建设转进运维阶段的标识。在落实设备交接任务的基础上,还需做好以下几方面的交接。

(1)形成完整的调试、检测报告,缺陷消除工作落实状况。

(2)全部系统、设备相匹配的说明书、技术性材料。

(3)和项目相关的合同、技术规范文书。

(4)设备的售后、保修状况以及具体联络人。

3.3 运行维护

从宏观层面上分析,预防性管理是运维阶段的核心工作内容,重点要从以下2个方面:①实施前置式容量管理,加大对用电行为的管理与控制。统一容量预警管理和现实用电需求、上下电管理,力争整体把供电、供冷系统的容量均控制在理想范畴中。②推行常态化的隐患排查整治措施。具体是采用日常巡检、预防性维护、专项检查等方法去辨识隐患风险,参照隐患对业务的影响范畴、隐患整治阶段滋生出的次生风险状况,对风险作出综合性测评,编制最后的隐患整治方案,并规范化的实施整治措施,力争将故障问题扼杀于萌芽状态中。

3.4 应急保障

应急预案是应急保障目标实现的前提条件,科学预测数据中心基础设施投用阶段可能出现的各种状况,解读成因以后,系统化的制定应急保障预案,如果面对的是大型数据中心,还需要对供电保障方案的级别作出规划。

4 结束语

数据中心基础设施运维管理是业内人员不断探究的共性课题之一,本文以此为出发点展开论述,希望能不断排除故障隐患,将其发生率降至最低。本文阐述运维管理方法与措施,相关人员在实践中可以有选择性的借鉴,并不断总结方法经验,在运维与管理方面做出创新,促进运维工作智能化、安全、高效率推進过程。

参考文献

[1] 于刘.大型数据中心基础设施智能化及自动化研究[J].数字通信世界,2020,17(9):81-82.

[2] 张雷.黑龙江省副省长程志明调研5G、数据中心新型基础设施建设[J].通信管理与技术,2020,31(4):1-2.

[3] 王景艳,刘洋.基于铁路主数据中心云化基础设施的灾备关键技术研究[J].铁路计算机应用,2020,29(7):11-15.

[4] 梁丽雯.数据中心和云需求激增,引爆IT基础设施万亿级市场[J].金融科技时代,2020,28(6):94.

[5] 全玉荣.数据中心基础设施施工进度管理的分析和探讨[J].科技经济导刊,2020,28(15):53,52.

[6] 郝峻.数据中心基础设施智能运维探讨[J].电信技术,2019(11):51-55.

[7] 田军,陈文婷,罗志刚.智能化平台在数据中心基础设施运维管理中的应用[J].现代建筑电气,2015(9):12-17.

[8] 毛文杰.数据中心基础设施运维风险管理技术[J].电信工程技术与标准化,2017,30(6):67-71.

[9] 郝峻.数据中心基础设施智能运维探讨[J].电信技术,2019(11):51-55.

[10] 肖正炜.智能化平台在数据中心基础设施运维管理中的应用[J].今日自动化,2019(2):44-45.

猜你喜欢
措施探究数据中心基础设施
关于间接蒸发冷机组在数据中心中应用的节能分析
公募基础设施REITs与股票的比较
基础设施投资项目
前7个月国内充电基础设施增加12.2万台
2018年数据中心支出创新高
新政府会计准则规范公共基础设施处理
2017第十届中国数据中心大会榜单
企业后勤管理工作信息化建设的措施探索