关于如何做好相关论文范文资料 跟如何做好基础设施运维的安全防范和检查工作有关在职开题报告范文

本文关于如何做好论文范文,可以做为相关论文参考文献,与写作提纲思路参考。

如何做好基础设施运维的安全防范和检查工作

随着云计算、大数据和互联网应用的快速发展,企业级数据中心的设施投入和建设规模不断扩大,数据中心基础设施的运行与维护的难度及工作量也随之加大.同时,对数据中心基础设施的运维水平提出了更高的要求,基础设施的安全、稳定运行显得日益重要.在大型的数据中心内部,如何有效地进行安全防范和检查工作,是众多数据中心运维工作者面临的一大难题.本文拟从以下八个方面进行阐述.

一、建立完备的资源管理系统

首先,面对数量庞大的基础设施设备,必须要辅以相对应的台账管理.因此,建立一套完备的设备资源管理系统必不可少.

需要定义好各类设备的相关信息字段以便甄别,如设备物理位置、电源信息及上下游供电设备、品牌型号、相关合同及维保信息、设备配置信息、网络信息以及系统和应用信息等.在设备情况发生变化时,要及时在资源管理系统中进行更新, 如图1 所示.

其次,由于资源管理系统是所有设备的基础信息保障,需要定期(如季度、半年度)对系统中所录入的设备信息进行现场核实确认,检查内容包括:设备信息录入完整性; 新设备到货审批流程及按需到货执行情况; 计算机资源管理系统维护的及时性; 设备调拨情况; 库存积压情况;合同/ 订单签署、报送和归档及时性等.

通过对计算机资源管理系统的定期检查,做到账实相符,确保设备信息的准确性,避免出现设备闲置浪费或未及时进行资源动态调整的情况.

二、遵循行业规范

各行各业都有相应的规范,比如国际标准或国家标准,数据中心的安全、良好运行基于严格的标准和规范的基础之上.

数据中心基础设施中,动力系统不但承担着保障IT设备电力供应和电能质量的任务,还要保障空调设备、机房照明、应急照明、消防和监控等其他设备的用电问题,是基础设施中最为重要的子系统,动力系统的标准规范的建立尤为重要.

同时,IT 设备在运行过程中会产生大量的热,数据中心暖通系统的任务就是消除这些热量,营造一个适合IT 设备运行的稳定环境,包括温度、湿度和洁净度三方面.虽然暖通系统不直接作用于数据中心的产出,但却是数据中心产出的重要保障.如果暖通系统不能正常工作,数据中心在短短几分钟内可能就会陷入瘫痪,所以对暖通系统的标准规范建立工作也是非常重要的.

除了动力系统和暖通系统之外,消防系统也是数据中心的重中之重.数据中心如果发生火灾,不仅会毁坏计算机设备,中止正常的系统运行,甚至危及工作人员的生命.对于消防系统的标准规范建立主要包括检查报警系统、灭火系统和排烟系统是否能够在早期发现火灾隐患,准确及时报警,在火灾发生后如何快速灭火,并将有害气体排出.

另外,数据中心时常会有大型IT 设备的入场和出场工作,需要建立相应的运输标准和运输通道,且通道周围要有明显标识.若有吊装需求,也需有相应的吊装标准并确保人身及设备安全.

三、做好日常监控与性能容量管理

数据中心内的设备类型及品牌众多,如何做好有效监控,在第一时间发现并解决问题是日常工作重点之一.一般来说,不同品牌的设备都会自带一套监控系统,各个监控系统的画面纷繁复杂,可能对监控的时效性、准确性造成干扰.因此,数据中心自身需要建立一套集成化的监控系统(以下简称“集中监控系统”)用于对基础设施设备进行集中监控,不同品牌的设备可以通过SNMP 协议的方式将硬件日志等信息上送至集中监控系统进行呈现,便于监控用户或硬件维护者的统一管理,如图2 所示.

为了保证集中监控系统能够正常运行,保障数据中心的运行稳定,需要定期对集中监控系统进行检查,检查内容包括:硬件日志是否统一上送至集中监控平台;设备故障情况是否都及时跟踪和得到解决;若出现影响生产的紧急情况,是否以恢复生产的原则在第一时间进行处理,并报告上级主管人员;监控日志是否有纸质或电子归档记录;是否具备完善的监控手册并定期更新等.

只有做好了基础设施设备的监控管理,才能更好地服务于大型数据中心的日常运行管理,提升数据中心硬件设备的高可用性.在监控系统的基础上,数据中心基础设施系统和设备的运维管理者可以分析各种告警数据报表、历史数据报表和参数曲线,结合月度或者季度的阶段性汇总报表,了解设备的运行工况,设置合理的性能容量阈值.特别是对于电力设施的性能容量管理,必须要实时、精准,一旦电力超标可能引发断电、火灾等重大事故,轻则造成设备损坏和经济损失,重则造成人身事故.

通过有效利用性能容量的分析结果,运维管理者可以对数据中心基础设施设备的运行方案进行优化、调整,确保数据中心的能耗指标合理.

四、建立7×24 小时值班制度

为了更好地满足对外业务的开展,大型数据中心通常都是7×24 小时运行.为了保障数据中心安全稳定地运行,需要相对应地建立一套完善的7×24 小时值班制度.为了便于统一管理,数据中心可以建立企业级总控中心(Enterprise Control Center,ECC), 如图3 所示值班人员集中在ECC 办公,对监控发现的问题及时进行沟通、处理.就基础设施系统和设备而言,主要对整个数据中心的电力供配电系统、空调制冷系统、温湿度环境和IT 设备运行工况等实施监控,保障数据中心的正常运转.

日常值班人员应对数据中心监控系统发出的各种基础设施硬件告警、邮件告警、集中监控系统告警和声光告警(若有条件)等立即做出反应.对于一般性告警,可以记录下来,做进一步观察,必要时在业务低谷或无业务时段实施变更维修.对于紧急告警,如涉及设备出现严重故障甚至宕机的情况,应通知相关维护人员立即处理.除了在ECC 履行监控运维职责外,值班人员还应在几个固定时段(24 小时内)进入机房对基础设施设备进行巡视.巡视主要包括“一听二嗅三看”.听设备有无异常声响.嗅机房环境或设备有无异常气味.看机房环境有无漏水、冒烟等现象,设备有无故障灯提示.

若在巡视期间看到设备有故障灯提示,值班人员需要对相应的问题进行现场处理.由于每个故障都有处理的时限,因此要求值班人员熟知机房的所有设备位置,以便迅速对故障点进行定位.

对于类似动力供电或空调制冷等基础设施的巡视,还需做到人员持证上岗、安全操作.巡视人员需持有高低压操作上岗证,在巡视期间穿戴电工服和绝缘鞋,操作期间要注意“禁止合闸”、安全带等安全区域标志,对三相不平衡等数据进行有效记录.同时,巡视要做到双人复核、双人保护,因为人身安全始终是第一原则,只有做到人员安全才能进一步做到设施安全.

五、健康检查与预防性维护管理

一般来说,基础设施系统和设备出现故障都是以变更的方式进行维修和修复,以保障设备的正常运行.如果引入健康检查和预防性维护管理机制,可以及时排除安全隐患,防止重大安全事故的发生.运维管理者应根据数据中心内基础设施设备实际情况,并结合供应商合同条款合理制定预防性维护计划,监督、管理供应商共同严格执行,确保数据中心基础设施设备运行良好并尽量延长设备使用寿命.

预防性维护作为数据中心运维的高级维护手段,自身应有例行的常规巡检、维护操作、健康检查和定期的对系统功能和性能指标的测试.这些维护可以是简单的人工维护操作,也可以是自动化检查.

动力、空调制冷等设备维护保养和健康检查,主要采用人工操作的方式,包括高低压配电柜检查;列头柜及变压器检查;UPS 设备及蓄电池容量检查;柴油发电机组检查;冷水机组、冷却塔检查;水循环、水处理设备及水泵系统检查;新风机组检查;精密空调检查等.IT 设备的维护保养和健康检查,可以采用自动化检查工作,包括系统日志检查;设备运行工况及微码版本检查;网络连接情况检查;报错信息及设备使用情况检查等,如图4 所示.

综上所述,所有基础设施设备都应列有详细的设备维护保养计划,具体到每天做什么,对哪些设备做什么具体的维护保养,维护周期以月为单位,周期循环.同样,每个机房模块内的基础设施设备也应有明确的健康检查计划,具体到每次健康检查哪些部件、收集哪些数据,包括健康检查后所发现问题的修复.健康检查的周期也应该以月为单位,必要时可以在一些重大、关键的时期增加健康检查的频次,以加强设备的维护管理,做好预防性维护,保障设备稳定、可靠地运行.

六、应急管理

为了保障数据中心基础设施系统和设备的安全稳定运行,一套健全的应急管理体系不可或缺,如图5 所示.基础设施系统的运维管理者应定期(建议每季度)对数据中心基础设施系统和设备进行风险评估,根据评估结果制定合理的应急预案和演练计划,并将演练计划上报通过审批后按计划组织相关各方进行演练.应急预案的制定需要具有完备性,以减少故障历时为根本原则.应急演练的目的是提高大家对应急情况的处理能力,演练应包含各种故障情况,比如断电、设备故障和网络中断等.应急演练主要是模拟真实应急状况发生,参与应急演练的人员应该依据现有的应急预案切实地应对当时的情况.为了达到演练的实际效果,每次演练前都需要认真准备演练计划、演练方案和应急预案等资料,事后及时进行总结,并且在演练结束后的三个工作日内提交相关的应急演练报告以归档.

只有把应急管理机制做细、做全,才能在突发事件来临时,临危不乱,从容应对,提升整个数据中心基础设施系统的应急能力.

七、终端安全管理

大型数据中心基础设施设备众多,部分设备搭载了不同的操作系统,如Windows、SUSE Linux 和AIX 等,因此有必要进行统一的终端安全管理.终端安全管理可以由基础设施设备的运维负责人落实,主要包括终端的漏洞扫描、防病毒和补丁的检查管理、终端的配置管理(如配置信息的完整性、准确性和录入的及时性)、非授权软件、互联网安全和信息防泄漏等工作,做好设备的终端安全管理,才能更好地保障数据中心的安全运行.

八、重大生产事件案例再回顾与培训

随着国内外数据中心建设步伐的的加快,生产故障事件也时有发生.俗话说,他山之石可以攻玉.数据中心基础设施系统的运维管理者应该不断总结自身和借鉴同业的经验教训,定期进行回顾和培训教育,避免今后发生同样的错误.图6 为某数据中心案例分布情况.

首先,从制度上规范运维操作流程,可以参照行业内最佳管理实践或标准建立相应的管理制度和流程.其次,从思想上和技术上避免人为的误操作.有了健全的制度流程,还应加强运维人员的流程培训及管理的力度,在流程执行的质量上实施监督机制.通过定期的重大生产案例的回顾和培训,敲响警钟,让运维人员时刻绷紧安全运维这根弦.

综上所述,数据中心基础设施运维部门的主要职责就是保障基础设施的安全稳定运行.著名的“海恩法则”指出:每一起严重事故的背后,必然有29 起轻微事故和300 起未遂先兆以及1000 起事故隐患.当一起重大事故发生后,我们在处理事故本身的同时,还要及时对同类问题的“事故征兆”和“事故苗头”进行排查处理,以防止类似问题的重复发生,及时排除再次发生重大事故的隐患,把问题遏制在萌芽状态.由此可见,“海恩法则”强调了两个重点:一是事故的发生是量的积累的结果;二是再好的技术、再完美的规章,在实际操作层面也无法取代人自身的素质和责任心.因此,作为数据中心运维者,日常除了要做好对基础设备系统和设备的日常维护和管理工作,制定维护作业计划,做好例行测试和维护工作,落实定期巡视,及时排除故障和隐患,保证基础设施系统和设备的正常、稳定运行.同时,严格执行数据中心运维管理制度,发生重大故障和突发事件,要迅速处理并上报,第一时间恢复生产.事后积极分析事故原因,吸取教训,制定防范措施并加以培训落实.定期收集基础设备系统和设备的运行数据,分析系统及设备的运行状况,提出改善建议.

数据中心基础设施运维人心中应始终牢记“生产运维无小事”的准则.作为数据中心基础设施运维团队人员,只有持续不断地改进、完善运维工作,才能更好地保障数据中心基础设施的运维安全.

如何做好论文范文结:

适合如何做好论文写作的大学硕士及相关本科毕业论文,相关如何做好开题报告范文和学术职称论文参考文献下载。