数据中心宕机事故频发 运维很重要

大型数据中心运维管理“智”关重要

从这些数据中可以看出,如何保障数据中心IT基础设施运维管理的可靠和安全,已经成为数据中心运营管理者最为关注也是最棘手的问题。在看来,高品质的数据中心运维管理“智”关重要。

复杂多变的市场环境,快速发展的业务,促使数据中心管理者对IT运维管理提出更高需求,传统的“重建设,轻管理”的IT思维禁锢着数据中心IT系统的价值发挥和潜力发掘。

在后信息时代,管理服务的价值愈发凸显,激发着数据中心管理者对于如何提升管理质量和效率的思考和探索。

宁波是国内最早提出建设智慧城市并启动实施的城市之一。近年来,宁波依托发达的临港产业、制造业基地和外向型经济等优势,为智慧城市建设提供了广阔的发展空间。A数据中心是宁波市规模较大的数据中心,总建筑面积超过8000平方米,拥有逾1000台机柜,参照五星级机房标准进行建设。该数据中心承担着华东地区多个行业多家重量级企业的IT系统入驻、应用和管理维护。

对于如此规模的数据中心,需要一套完整、规范、切合需求的运维管理体系和一支具备丰富运维管理经验和极强的运维管理能力的运维管理团队协助其实现高效运维管理。

整合先进的数据中心运维管理经验和技术,将IT运维管理流程与A数据中心的需求和发展进行科学匹配,建立了一套完善的运维服务管理体系,按照ITSS科学的方法论实现“人员、流程、技术、资源”四大要素的整合,将规划、运维及管理以规范化的IT运维管理方式贯穿整个运维管理过程,制定了专业而全面的维护流程、制度、预案以确保优质的服务水平。

运用科学的管理思路,为该用户解决IT基础设施的管理难题。为保证电源无间断故障产生,采用部署两路市电常供、柴油发电备用的安全方案,双管齐下保证电源环境常年无间断。通过对各种应用系统采用“事前监控预警、事后及时响应”的备战策略,一方面通过先进的监控预警平台,防患于未然,大大降低故障产生率;另一方面对已发生的故障快速响应,积极“灭火”,最大程度地降低了故障损失。

在服务团队及A数据中心管理团队的通力配合下,该数据中心建立了完善的IT系统维护流程、规范的操作制度、详尽的应急预案,并定期进行多种类别的应急演练,保障业务开通和故障处理及时率达99%以上,电源供电可用率99.99%。通过建立安全运维机制,实现7×24电信级集中监控以及7×24小时现场维护值守,对数据中心的网络、动力、环境、消防等系统进行集中监控和预警,现场值守人员进行日常巡检和维护作业,并进行现场处置。其中,现场维护按专业分为IT维护组和动力维护组,并设置动力支持、网络支持、客户服务经理、资源管理和质量分析等支持岗位。相应岗位人员具备专业资格和多年维护工作经验。

数据中心运维管理工作是一项长期的、具有累积效应的工作。以稳健、可靠的服务在历次考核中获得优秀成绩。而随着该数据中心的用户进一步增加、IT设备更加复杂多样,的运维服务管理能力也将面临更高的考验。


vnsc威尼斯城官方网站 1


从这些数据中可以看出,如何保障数据中心IT基础设施运维管理的可靠和安全,已经成为数据中心运营…

上个月,北京亦庄某数据中心柴油机起火事故再次为数据中心运维管理敲响了警钟!

1、空调与机房错层设计,可以有效防止漏水。

大型数据中心的运维

什么叫数据中心?维基百科给出的定义是“数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置”。在云大行其道的今天,随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心变得越来越复杂。大型数据中心往往是由很多功能不一的单元系统组成,其运维工作需要具备方方面面的知识,包括硬件、网络、服务器、存储、安全以及业务上的东西,需要一体化联动地去做好运维工作。

vnsc威尼斯城官方网站 2

当一个数据中心的规模非常大,其面临的技术挑战和问题也会比较多,很多在小环境小体系下不是问题的问题在这样的规模下也就凸显出来了,所以要做好大型数据中心的运维工作,对整个数据中心方方面面涉及到的技术体系都要花费较长时间来进行系统学习,只有对这个数据中心整体非常了解,才能有针对性地制定一些运维方案,自己结合特定需求进行开发一些监控运维软件,对整个数据中心进行高效管理与监控,提升整个数据中心的运行效率、减少故障的发生,从而将运维工作不断推向新的高度。

一个大型的数据中心内部往往都包含了很多小系统,运维工作都是围绕着这些具体的应用系统展开的,具体的可以分为基础运维管理、日常业务运维、网络、服务器、存储、安全六大部分,本文就来说一说一般大型的数据中心应该具备的哪些运维方法和能力。

首先从数据中心的基础运维管理方面来说,则主要有硬件配置管理、可维护性优化、监控、报警处理、自动化运维、断网,断电、机房容灾等运维工作。硬件配置管理包含机柜里每台服务器的型号和硬件配置,并清楚是哪些业务系统在使用这些服务器。即便是虚拟化运行环境,也需要知道这些虚机都在哪些物理机组成的资源池中流动。数据中心物理机和虚机数量都很庞大,使用自动化运维是非常有必要的。自动化运维不仅能提升运维的工作效率,还可以减少人为的参与,同时让数据中心自己管理自己,释放人力。并对数据中心可能发生的故障还做好监控与报警处理,以便能够在故障发生的第一时间知晓问题,往往一次大的故障都是从开始的一点小故障逐渐扩展最终引发整个大系统的崩溃的,所以在出现一些小的异常时一定要及时消除,而这些异常就要靠完善的监控和报警系统来检测。

从数据中心的日常业务运维方面考虑,则主要有日常检查、应用变更、软硬件升级、突发故障等。具体来说:1、日常检查:“千里之堤,溃于蚁穴”。任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查工作枯燥,但也很重要,可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。检查服务器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,看业务运行是否正常。还有对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。空调漏水、设备漏电都会对数据中心正常稳定运行产生危害,千万不可大意。2、应用变更:数据中心承载的业务不会是一成不变的,随着业务的多样化和不断发展,经常要对业务进行调整,包括服务器和网络的设置。因此要对服务器和网络设备操作很熟悉,主要需要掌握Linux服务器命令和网络协议。要根据应用的需要,及时准确做出变更。3、软硬件升级:数据中心的设备一般运行周期是五年,不断地有设备需要逐渐淘汰进行更换,也有一些设备因为存在软件缺陷需要升级,因此软硬件升级也是维护工作的一部分。软硬件升级时需要做好回退机制,以防升级出现问题时无法回退,业务长时间无法恢复。当接手数据中心维护工作就会发现,怎么会有那么多的升级,几乎每个月都要有升级操作,熬夜升级工作成了维护人员的家常便饭。4、突发故障:没有任何一个数据中心是不出故障的,在数据中心运行的过程中都会出现这样那样的问题。对于突发故障,高水平的维护人员可以静下心来冷静分析故障的触发原因,迅速找到解决的方法,如果在短时间内找不到解决方法,也可以通过切换到备用设备上先恢复业务,再进行分析。这时拥有高水平的维护人员对于一个数据中心至关重要,在关键时刻就能派上用场。虽然这些工作看起来有些平常,但千万别小看它们。数据中心日常维护工作实际上非常重要,关乎着整个数据中心业务的正常运行。只有重视数据中心的维护工作,才能给数据中心一个平安。

从数据中心网络方面考虑,则主要有网络硬件设备、ACL、OSPF、LACP、VIP、协议分析、流量、负载均衡、二三四七层情况、网络监控、万兆板卡、核心交换等。网络是数据中心的重要组成部分,是一切工作运行的基本保证,没有网络数据中心就无法运转起来,所以保证网络稳定是数据中心运维工作中的重中之重。这里不仅要关注网络的硬件问题,还要关注SDN软件定义的网络。一般传统IT架构中的网络,根据业务需求部署上线以后,如果业务需求发生变动,重新修改相应网络设备(路由器、交换机、防火墙)上的配置是一件非常繁琐的事情。而在当今互联网/移动互联网瞬息万变的业务环境下,网络的高稳定与高性能还不足以满足业务需求,灵活性和敏捷性反而更为关键。SDN所做的事是将网络设备上的控制权分离出来,由集中的控制器管理,无须依赖底层网络设备(路由器、交换机、防火墙),屏蔽了来自底层网络设备的差异,而控制权是完全开放的,用户可以自定义任何想实现的网络路由和传输规则策略,从而更加灵活和智能。进行SDN改造后,无需对网络中每个节点的路由器反复进行配置,网络中的设备本身就是自动化连通的。只需要在使用时定义好简单的网络规则即可。如果你不喜欢路由器自身内置的协议,还可以通过编程的方式对其进行修改,以实现更好的数据交换性能。比如百度自研交换机,可以直接支持SDN的远程配置与管理特性,从而实现上线全自动配置。未来,自研交换机还会更进一步和服务器自动化上线结合,提升服务器交付和管理效率。网络可以说是包罗万象,涉及太多的设备和协议、软件层技术,所以也需要不断地学习,加深对网络技术的理解,这样才能做好网络运维工作。

从数据中心服务器方面考虑,则主要有文件系统、内核参数调优、各种硬盘驱动、内核版本、Kernel
panic等。Linux系统不仅在服务器,在网络操作系统也占据着主流地位,掌握Linux系统的使用才能更好地处理服务器和网络设备的运维工作,Linux是运维工作的一项基本技能。除了熟悉Linux系统的操作,还要对服务器的运行状态和内核运行状态进行监控与管理,减少服务器故障的发生。一般大型的数据中心都包含有成千上万台的服务器,几乎每天都会有服务器出现各种各样的问题,只有对服务器有深入理解才能很好地消除问题。为了防止服务器故障引发业务中断,所以一般在服务器上都要部署虚拟化技术或者集群技术,当一台服务器物理硬件故障时,业务可以平滑切换到其它服务器上,业务不会受到任何影响。这些虚拟化技术增加了运维的难度,也需要对虚拟化技术进行不断深入学习。另外数据中心服务器的定制化也是很有意义的一件事。云计算需要大规模部署,因此需要服务器具有更高的部署密度、节能而且易于管理,但对于每个节点的计算能力要求并不十分苛刻。而厂商生产的普通意义上的服务器由于要适应多种应用,则更多兼顾性能、扩展性,忽略了成本和能耗。而如果是专门为云定制的服务器,会针对云的特点进行优化设计,从而更加符合用户的需要。对于企业来说,它带来的好处显而易见,试想一下,即使每台定制化服务器节省的电力有限(4电源改2电源),但对于大规模部署的数据中心来说,长此以往,成本的节约也是显而易见的。比如Google所拥有的服务器都是自己设计,采用定制化托盘,内建电池做备用电源,相比传统服务器成本和耗电都要低得多,这也为Google节省了大笔的电力开支。

从数据中心存储方面考虑,架构更加多样和复杂化。在云计算、虚拟化、大数据等相关技术进入数据中心后,存储已经发生了巨大的改变,块存储、文件存储、对象存储支撑起多种数据类型的读取;集中式存储已经不再是数据中心的主流存储架构,海量数据的存储访问,需要扩展性、伸缩性极强的分布式存储架构来实现。在大规模系统支撑上,分布式文件系统、分布式对象存储等技术,为存储的各种应用提供了高度可伸缩、可扩展和极大的弹性支撑和强大的数据访问性能,并且因为这些分布式技术对标准化硬件的支持,使得大规模数据中心存储得以低成本的建设和运维。当然分布式存储不是要取代现有的盘阵,而是为了应付高速成长的数据量与带宽而产生的新形态存储系统。另外就是软件定义存储,它代表了一种趋势,即存储架构中软件和硬件的分离,也就是数据层和控制层的分离。对于数据中心用户而言,通过软件来实现对存储资源的管理和调度,实现存储资源的虚拟化
、抽象化、自动化,能够完整的实现数据中心存储系统的部署、管理、监控、调整等多个要求,使得存储系统具备灵活、自由和高可用等特点。企业及互联网数据以每年50%的速率在增长,新增数据中结构化数据总量有限,多数为非结构化、半结构化数据,数据中心存储架构随着业务发展也需要极强的弹性适应能力,低成本、海量扩展、高并发性能是面向大型云数据中心运营存储架构的基本技术属性。如何进行数量庞大且杂乱无章的数据存储与深度应用处理,并迅速提取有价值的信息,形成商业决策将成为各类型企业生存基础,也是今后存储以及围绕存储架构不断衍生的业务发展方向。

最后从数据中心安全方面来考虑,安全就是若干个小项:攻击保护、升级备份、抓BUG/找BUG、脚本工具、数据安全、服务巡检等项目,其中每一项拿出来其实都包含很多的内容。比如说到攻击与保护,这个主要指的是防止外来的异常入侵者对数据中心发起的恶意和无意攻击,恶意攻击就是有人故意的使用各种攻击方法,进入到数据中心内部,将重要的数据窃取或者破坏,达到其不可告人的目的。也有的是无意的攻击,因为整个数据中心是要与外界保持互联互通的,运行是动态的,变化的,不可避免会有一些异常流量攻击数据中心,有时甚至来自于数据中心内部,比如某些服务器中毒,或者硬件故障,构造出了环路,异常流量等网络故障,这些都会影响到数据中心的运行,所以如何做好数据中心的攻击与保护是一个很大的题目,这并不是在数据中心里部署几台安全设备就能解决的,需要对整个数据中心进行全面的统一规划,并有针对性地部署一些安全防护措施,而且随着各种黑客技术的提升,安全防护措施也要不断提升,这是一个不断学习与完善的过程,只要数据中心还在运行,这个完善就不会停止。为了方便运维,也要做好一些执行脚本,以便在出现突发事件时,能够快速处理问题。比如一个数据中心的业务出现异常,为了快速恢复业务,需要将路由进行调整,将流量全部引到其它的数据中心,这就需要在核心路由器上进行调整,这时有个现成的脚本就可以自动执行,达到快速切换的目的。数据中心还应该准备很多其它工作的脚本,以便紧急的时候快速使用。

通过以上的分析您一定很惊讶,原来数据中心运维包含这么多内容,大大小小数十项,而且每一项包含的内容说起来都不那么简单,也涉及很多的技术知识。通常数据中心是一个公司、企业或政府部门的信息处理中心,几乎所有的业务都要经由数据中心才能完成,所以数据中心对于一个企业或政府部门至关重要。而一个数据中心能否稳定和高效运行,运维是真正的关键。只有将这些方方面面的运维工作做好做细做到位,数据中心才能长期稳定。

什么叫数据中心?维基百科给出的定义是数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设…

vnsc威尼斯城官方网站,近日,某IDC服务商机房宕机直接导致某商业银行业务中断,据了解,此次宕机事故的原因是:机房内电力负载过高,造成配电柜开关跳闸,供电中断,空调停止运行,生产机房温度升高导致的设备宕机。

人云亦“云”的时代,数据中心作为重要基础设施发挥着必不可缺的重要作用,而随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心的运维难度也“更上一层楼”。尤其是当面临“突发事故”,更是考验一个数据中心的运维能力。

2、机房蓄电池的使用环境温度非常重要,25度是最佳值。

其实,类似的事件不是第一次发生了,之前中国信息通信研究院的专家就针对数据中心机房故障的原因作出过总结,专家们表示,数据中心机房故障多发的原因关键还是在运维管理上,所谓“三分技术,七分管理”,数据中心的故障大多来自人祸

数据中心在国内突飞猛进只有十多年的时间,却已从只有UPS、空调和IT设备的普通机房时代,进入到囊括互联网、大数据、AI、云服务等全方位服务、动辄拥有数万机柜,自然冷、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用的新时代。这样一来,运维管理面临更大的挑战。

3、要注意电池的生产批次,讲究其一致性,不同批次的产品性能会有略微差异。所以在采购蓄电池时,可以每组同批次的多买2节电池,放入系统中作为电池组的热备份,当今后某节电池出现问题时,可以及时顶上。

结合事件原因及之前案例,我们不难分析,导致此次事故的很大一部分原因也是“运维管理不到位”。

首先,规模超大带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,需要更多的运维人员分布在不同的责任区,增加了管理的难度和成本。其次,电压等级提高,安全风险增加。以往运维人员接触的是低压,现在供电设备、发电机、冷机都是高压供电,维护安全要求提升。此外,规模集中,导致风险集中,事故影响更大。例如之前亚马逊的数据中心事故,导致了全球大面积的服务和应用中断,损失惨重,因此运维管理的压力超前。

vnsc威尼斯城官方网站 3

首先,在建设数据中心之前没有对负载做出充分的预估,导致电闸配置不能满足负载的需要;

为了保障新时代数据中心的安全,在实际运维过程中,运营商不仅需要对数据中心里面的温湿度、电能、水流及风量等进行全面实时的监控,以期发现潜在问题,通过预警机制及相应的流程做到防患于未然,还要科学运用这些数据来为应急措施及节能措施提供可靠的指导依据。

4、要建CMDB,如果没有建立CMDB库,那么一定要建立一本简单的台帐,EXECL表就可以。

其次,在发生事故之后,应急处置能力不足,导致不能及时的解决突发事件;

其实,采用智能化的管理手段,可以轻松满足这些需要。以电源管理为例,领先的智能电源管理解决方案供应商力登提供了一整套以智能PDU为核心的机柜内部微环境和供配电监控管理以及整个数据中心平台管理方案:通过智能PDU进行实时远程电源监控,能够对相关参数包括对电流、电压、功率(单位:kVA、kW)和能耗达到±1%计费级准确度,甚至可以单独对每个电源插座的上述相关参数进行监控。除了高效、可靠地分配电源之外,新的iPDU还凭借更多计算和存储功能,可支持新的应用并收集和分析IT设备的用电数据、数据中心内可用电源容量以及机柜环境健康状况;并且提供更多的传感功能与基础架构数据收集点(特别是独特的力登电子门锁)。此外,还能通过Power
IQ电能管理软件对设备所处微环境的温度、湿度、气压等状况进行监控,更重要的是这些计量后的数据会被收集整理,从而为管理者提供决策参考。

5、数据中心没有突发事件,所有事件的发生都应做到预案化。所以要不断的去完善应急预案,要通过头脑风暴去设计不同的应急场景。应急管理工作永远都是在不停的丰富和优化。

另外,机房制冷方面仅依赖空调制冷,没有设置高温应急措施,导致机房持续高温。

vnsc威尼斯城官方网站 4

6、强调日常工作中预案管理的重要性。

频繁的数据中心故障和宕机事故表明,某些数据中心在一味满足客户个性化需求的同时,忽略了自身运维管理能力的提升,导致数据中心可靠性降低,从而发生此类事件。

7、应急演练不要总安排在工作日白天,因为白天往往是人力资源最完整的时候,我们演练的一个重要目的是要提高基础值班人员的响应速度和处理能力,这个初始速度非常重要,很多灾难如果响应及时,处理得当,完全可以减轻损失。

在运维过程中,数据中心其实面临着诸多的挑战:

8、设备采购谈判时一定要谈好今后的维保,至少3年。

比如数据中心的运营费用,这就要求在建立数据中心之前,进行预算和规划;又比如能源成本上升,这可以通过使用新技术缓解,例如虚拟化和云主机托管,可以大大降低能源成本;再比如维护和冷却要求,数据中心设施和组件需要在适合的温度下全天不间断的工作,这需要完善的冷却系统,以保持所需的温度。

9、空调系统如果采用全水冷的方式,那么一定要考虑水压问题,也一定要确保所在区域不会计划性停水。

除此以外,数据中心还面临着沟通融合、基础设施要求、缺乏资源、服务器效率、数据中心安全、网络阻塞等挑战。但是,数据中心最不愿意见到的事情莫过于断电,这将会给运维人员带来很多的麻烦。近来,不少公司因为数据中心的电力中断而备受困扰,比如美国达美航空公司数据中心的电力中断,造成高达1.5亿美元的经济损失,又比如美国“超级碗”赛场断电,耽误赛事日程。

10、为保证供水压力,可以考虑单独铺设水管。

那么,是什么原因导致断电呢?操作员的误操作、停电,也有可能是服务器负载过重,从而导致系统崩溃。

11、ATS要放在母联的下面……

虽然数据中心断电是非常严重的问题,但是我们还是希望有相关的解决方案。在这里,我们需要确定几个问题。

12、PS并机, 4台并机比较可靠,超过4台可靠性就会下降。

跟随数据中心的变化,电力系统进行升级

13、UPS放电时间要有控制,建议不要超过其剩余容量的30%。

可以说数据中心的不同阶段,对电力需求也在不停的变化,比如增加服务器或者交换机都有可能对电力产生巨大的需求,所以及时掌握数据中心在这一时间段对电力的需求,变得十分重要。

14、UPS间要放备用工具箱,发电机间要有应急照明,主要设备旁要张贴应急处理手册和故障恢复流程。

此外,还需要对数据中心的供电进行合理的评估,以免数据中心超载,供电不足造成停电的状况。

15、
UPS中的逆变与旁路要求同步,同步频率范围要依据负载来定,要以最小范围来调。

知道所有互连设备和系统的一切情况

16、 UPS调试时,旁路与逆变的转换要多转几次。

对于数据中心运营至关重要的是,需要电力链记录在一起,从进入建筑物的电力,再通过UPS、PDU/提供给所有的机架设备。这意味着数据中心运营需要知道哪些与电力相关的设备,以及设备各自的相互依赖关系。这可以让数据中心运营了解某些设备故障或脱机维护时的潜在影响。此外,还应该了解每个电源链设备的状态。

17、 隔离变压器的作用之一可以使0地电压降低,对设备提供保护。

可以通过采用数据中心基础架构管理(DCIM)实现对电源管理。DCIM使数据中心运营能够以最高的效率运行数据中心,同时允许所有相关人员改进整体运营情况,并识别漏洞,从而保持电源链的安全。部署的DCIM还可以让数据中心运营全面了解自己的产品,通过共享实时数据和易于理解的图表,消除IT和设施之间的通信孤岛。

18、UPS输出切换到旁路的时候,要注意同步灯有没有亮,同步灯亮就不能强行切换,否则会造成输出断电。

确保电源系统没有受到攻击或威胁

19、3相不平衡会导致0地电压变大,所以基础设施管理人员一定要严格把握,不能随便乱加负载。(三相不平衡会导致中线电流变大,当大于相线电流时,就会加大零地电压)

数据中心是通过网络进行连接,当然除了基架中包含的终端和访问点之外,很多渠道可能会成为破坏数据中心的途径,所以保护这些渠道免受破坏,成为数据中心建设需要考虑的问题。

20、先算出电流再选择线缆。

在这里,网络攻击成为一种可能性,很多黑客可能不直接破坏供电系统,而是通过网络进入到数据中心,以达到破坏数据中心供电的目的。此外,我们不应该只防止通过网络手段对数据中心进行破坏的黑客,还应该防止内部人员的破坏,有些工作人员因为自身经验不足,一个小小的错误,有可能导致数据中心供电的中断。

21、 电池放电到欠压告警,可以估算出电池的实际可支撑时间。

所以,为了防止通过以上手段进行破坏的行为,建立运维文档和流程控制变得十分重要。在这里,采用更多的硬件不是防止灾难性停电的最佳选择,不妨采用软件层面的管理,来的更加稳妥一些。

22、
电池接线,要注意铜和铅不要直接接确,不然会互相腐蚀,增加电阻,影响电池的放电电压。

不妨多模拟故障安全测试,做好完整的灾难恢复计划

23、UPS至少每半年要检修一次,要关注UPS风扇,电离和电容都要重点关注。

数据中心在运营过程中,难免会出一些故障,所谓有备而无患,在真正出bug的状况下,之前遇到过或者曾经模拟了出错的场景,才更有经验去应对故障。在这里,我们建议在不影响业务环境的情况下对数据中心进行断电测试,使用虚拟的开关设备,将允许数据中心运营商可以应对最坏的情况,并对其进行恢复。

24、STS要求2路供电的相位和频率范围一致,如果来自不同的变电站,可能存在相位、频率不一致的情况,极端情况下,会造成未端STS无法自动切换。

数据中心工作人员总是假设他们的电源供应链和电源备份系统是万无一失的,但是如果没有故障安全测试,会认为面临什么样的结果?电源故障模拟使数据中心运营商可能找到缺乏冗余的设施,并发现单点故障。但是,这需要文档进行记录。因此,数据中心运营商在灾难性的电源故障之前,建立断电测试机制并记录其恢复过程。

25、
空调外机要做好标识,尤其是风冷外机,要与内机一一对应,以提高故障判断和处理的效率。

数据中心建设应该实时监控操作

26、要重视监控数据的分析,风机、压缩机的运行电流数据可以预判设备的健康情况。

对数据中心进行实时监控操作,是以防万一的做法,所以数据中心运营商必须知道设备都被放在哪里,以及使用了多少电能。虽然对于不断增加基础架构的数据中心来说,这很困难,也有可能对电池容量和电源分配产生巨大的影响,但是注意所有移动部件的唯一方法就是单一视图,这种整体视图具有实时监控和警报的功能,使数据中心运营商能够减轻风险,并进行更改以避免灾难发生。

27、机房内的温度检测可以同时放在冷通道和热通道,但监控应以回风温度为准,所以温度探测仪要放在回风通道的上方。

写在最后

28、 空调的加热装置不能随意关闭,系统的自带功能不要人为随意干预。

数据中心一旦断电,造成的经济损失不可估量,不妨从上述的这些方法做起,对数据中心每个环节进行防护,这样才能更好地对数据中心进行运维。

29、 空调选型时,要选同尺寸内功率最大的。

ServiceHot ITSOM 平台

30、 空调外机清洗要注意安全使用高压水枪,不能从侧面冲洗。

持续免费试用中>>>

31、制冷剂、机油不同品牌不能混用,否则易造成压缩机故障。

www.itsmcn.com

32、每台空调内机的支路一定要装阀门,利于检修,给水的阀门一定要做好标识。

33、
制冷剂发生泄漏,不要第一时间去抢修,要让其散发完整,以减少对人体的损害。

34、冷池的顶板起落最好要带有阻泥,防止突然降落对人身造成伤害。

35、
发电机启动时要注意空调的瞬时启动电流,其会导致发电机启动失败,最好设置延时,软启动。

36、UPS、消防要做到只监不控,否则风险太大。

37、以后可以考虑引入智能列头柜。

38、储能、储油类系统(如电池、柴油发电机)要当心其二次、三次灾害,七氟丙烷是一次性灭火,而不是持续性灭火,遇上电池火灾,效果不一定很好。

39、柴油发电机灭火,可以考虑高压油雾灭火系统。

排风、通风或抽风系统的用电不要接入机房内的配电系统,要独立,防止机房起火停电后,因排烟、抽风不能用而延缓系统修复速度。

【编辑推荐】

相关文章