云总括对服务器运转的挑衅

云计算在企业运营中的基本工作原理是将计算分布在大量分布式计算机中,从而使企业数据中心的运行和互联网更为相似。通过云计算的运维管理,企业不仅能够实现对IT资源的统一,根据用户的需求提供可量化的存储服务与计算,而且还能有效将资源切换到实际需要的应用中,提高了IT资源的利用率,降低了系统的成本。因而加强对云计算运维管理的要点和改进方式的研究,从而使云计算在企业运营中能发挥出更大的效力,在当前有着重要的现实意义。

云计算:拼的是运维

云计算的技术难点

到今天,云计算的工业实现已经不太难了。现在有开源软件KVM和Xen,这两个东西基本把虚拟化搞定;而OpenStack则把管理、控制系统搞定,也很成熟。PaaS也有相应的开源,比如OpenShift,而Java里也有N多的中间件框架和技术。另外分布式文件系统GFS/TFS,分布式计算系统Hadoop/Hbase等等,分布式的东西都不神秘了。技术的实现在以前可能是问题,现在不是了。

对于云计算工程方面,现在最难的是运维。管100台、1万台还是100万台机器,那是完全不同的。机器少你可以用人管理,机器多是不可能靠人的。运维系统不属于功能性的东西,用户看不见,所以这是被大家严重低估的东西。只要你做大了,就必然要在运维系统上做文章。数据中心/云计算拼的就是运维能力。

为什么我说运维比较复杂,原因有这么几个。

一方面,云计算要用廉价设备取代那些昂贵的解决方案。所谓互联网的文化就是屌丝文化,屌丝就是便宜,互联网就是要用便宜的东西搭建出高质量的东西,硬件和资源一定不会走高端路线——比如EMC、IBM小型机、SGI超级计算机等等,你如果用它去搭建云计算,成本太贵。用廉价的解决方案代替昂贵的解决方案是整个计算机发展史中到今天唯一不变的事情。所以如果你要让夏利车跑出奔驰车的感觉,你需要自己动手做很多事,搭建一个智能的系统。用廉价的东西做出高质量的东西,运维好廉价的设备其实是云计算工程里最大的挑战。

另一方面,因为你机器多了,然后你用的又不是昂贵的硬件,所以故障就变成了常态,硬盘、主板、网络天天坏。所以,没什么好想的,运维就必须要跟上。云计算的目标是在故障成为常态的情况下保证高可用——也就是我们所说的,你服务的可用性是3个9、4个9还是5个9。

最后,这一大堆机器和设备都放在一起,你的安全就是一个挑战,一方面是Security,另一方面是Safety,保证数十台数百台的设备的安全还好说,但是对于数万数十万台的设计,就没有那么简单了。

面对这样的难题,人是无法搞得定的,你只能依靠技术来管理和运维整个平台。比如必须有监控系统。这跟操作系统一样,对资源的管理,对网络流量、CPU利用率、进程、内存等等的状态肯定要全部收集的。收集整个集群各种节点的状态,是必然每个云计算都有的,都是大同小异的。

然后,你还要找到可用性更好的节点,这需要有一些故障自检的功能。比如阿里云就遇到过磁盘用到一定时候就会莫名其妙的不稳定,有些磁盘的I/O会变慢。变慢的原因有可是硬盘不行了,于是硬盘控制器可能因为CRC校验出错需要要多读几次,这就好比TCP的包传过来,数据出错了,需要重新传。在这种硬盘处理半死不活的状态时,你肯定是需要一个自动检测或自动发现的程序去监控这种事情,当这个磁盘可能不行了,标记成坏磁盘,别用它,到别的磁盘上读复本去。我们要有故障自动检测、预测的措施,才能驱动故障,而不是被动响应故障,用户体验才会好。换句话说,我们需要自动化的、主动的运维。

为了数据的高可用性,你只能使用数据冗余,写多份到不同的节点——工业界标准写三份是安全。然而,你做了冗余,又有数据一致性问题。为了解决冗余带来的一致性问题,才有了paxos的投票玩法,大家投票这个能不能改,于是你就需要一个强大的控制系统来控制这些东西。

另外,公有云人来人往,里面的资源和服务今天用明天不用,有分配有释放,有冻结,你还要搞一个资源管理系统来管理这些资源的生命状态。还有权限管理,就像AWS的IAM一样,如果没有像AWS的IAM权限管理系统,AWS可能会不会像今天这样有很多大的公司来用。企业级的云平台,你需要有企业级的运维和管理能力。

云计算的门槛

为啥云计算有这么多开源的东西,却不是人人都能做?

vnsc威尼斯城官方网站,一方面,这就跟盖楼一样。盖楼的技术没什么难的(当然,盖高楼是很难的),但是你没地你怎么盖?我觉得云计算也一样,带宽的价格贵得就像土地的价格。其实云计算跟房地产一样,要占地、占机房、占带宽。如果能把中国所有的机房、机柜、带宽资源都买了,你就不用做云计算了,卖土地就够了——因为这些是有限的。最简单的例子,IP地址是有限的。你有带宽、有机房,但是如果你没有IP,这就不好玩了。尤其是你要提供CDN服务,这个就更明显,因为有多少物理节点直接决定你的CDN服务质量。

另一方面,正如前面所说的,运维是件很难的事,运维这个事并不是一般人能搞的事。没有足够的场景、经验和时间,这种能力很难出现。

从用户的角度来说呢,云计算是一种服务,你需要对用户企业内的解决方案要有很好的了解,这样才能提高很好的服务。能提供“好服务”的通常都是把自己真正当成用户公司。

卖汽车也是卖服务。造出汽车来,并不代表你搞定这个事了。如果没有公路、没有加油站、没有4s店、没有交通管理、规则等等,你要么用不了,要么就是乱七八糟。不能只让用户在那看着你的汽车好牛啊,但是用户不知道怎么用。所以说,云计算最终旁边必须要有一套服务设施,而这套服务设施也是今天被人低估的。

云计算有两个东西我觉得是被人低估的,一个是运维,一个是那堆服务。做服务的需要有生态环境,有人帮你做。所以做云计算要落地并不简单。

总之,云计算是需要吃自己的狗食才能吃出来的,绝不是像手机上的Apps一样,你想一想、试一试就能搞出来的,你首先需要让自己有这样的场景,有这样的经历,你才可能会有这样的经验和能力。

还是那句话,云就是服务,只要提供了好的服务,无论公有还是私有都是会有价值的。

云计算的技术难点
到今天,云计算的工业实现已经不太难了。现在有开源软件KVM和Xen,这两个东西基本把虚拟化搞定…

引入了云计算之后,运维的重点将不仅仅是原来管理的设备运行正常,网络畅通,还将关注资源的主动供给、自动配置、可持续性、可追踪的实时配置管理。

随着遗传育种和饲料营养配方技术的不断改进,肉鸡饲养水平也在不断提高,结合实际工作经验,关于肉鸡前期饲养管理提出新的观点:
1、做好雏鸡早期饲喂工作,使雏鸡第一周就获得均匀良好的发育。
雏鸡1日龄起,在保证成活率的基础上还要抓整齐度的工作,雏鸡第一周体重和均匀度非常重要,必须达标,否则会影响出栏体重,所以入舍后仔细挑出采食不好或状态不佳的,包括个头较小的鸡,可单独饲喂,给
予精心照顾,这项工作没有明显的时间要求。
2、改变以往雏鸡入舍先饮水一段时间后再给料的方法,变为雏鸡到达前水料全部加好,尤其是从引进罗斯308时,根据专家的建议对前期管理工作提出了水料同时给的要求,但
是到目前为止仍有一些养殖场不敢做,总是认为“应该先给雏鸡喝水后再给料,担心造成严重脱水”,从这几年的实践来看,这完全是一种旧观念,工作中我们发现将饲料、饮水摆好,雏鸡会根据需求自己选择,如
果脱水比较严重的话会抢水喝,会在喝水后才去吃料,反之如果没有脱水,喝水就不是很积极,在料槽前来回跑
3、改变以往按照鸡只数量分配饮水器的做法,相应多增加饮水器数量,让雏鸡刚入舍后在栏内很方便找到水,最好是入舍时先把真空饮水器放在砖上,防止雏鸡因长途运输造成脱水后的“洗澡”,从第二遍加水,再
摆在网上逐渐将鸡只引向自动饮水设备,在可能的情况下,便于雏鸡早日使用自动饮水设备,从第五天起每天挪出四分之一的饮水器,千万记得不能在入舍时就直接使用自动饮水设备。
4、如果雏鸡到达的第一天内,不使用料盘,而是使用干净的塑料布铺在网上或铺干净的硬一些的纸,在上面撒料供雏鸡采食,其效果远远比单独使用料盘要好,尤其是在极端天气情况下,雏鸡经过长途运输后,状
态不好时,这种采食方法效果更好,理论上这种方式容易出现粪便污染以及浪费饲料等问题,但实际上通过良好的管理都是能够克服的。

随着遗传育种和饲料营养配方技术的不断改进,肉鸡饲养水平也在不断提高,结合实际工作经验,关于肉鸡前期饲养管理提出新的观点:
1、做好雏鸡早期饲喂工作,使雏鸡第一周就获得均匀良好的发育。
雏鸡1日龄起,在保证成活率的基础上还要抓整齐度的工作,雏鸡第一周体重和均匀度非常重要,必须达标,否则会影响出栏体重,所以入舍后仔细挑出采食不好或状态不佳的,包括个头较小的鸡,可单独饲喂,给
予精心照顾,这项工作没有明显的时间要求。
2、改变以往雏鸡入舍先饮水一段时间后再给料的方法,变为雏鸡到达前水料全部加好,尤其是从引进罗斯308时,根据专家的建议对前期管理工作提出了水料同时给的要求,但
是到目前为止仍有一些养殖场不敢做,总是认为“应该先给雏鸡喝水后再给料,担心造成严重脱水”,从这几年的实践来看,这完全是一种旧观念,工作中我们发现将饲料、饮水摆好,雏鸡会根据需求自己选择,如
果脱水比较严重的话会抢水喝,会在喝水后才去吃料,反之如果没有脱水,喝水就不是很积极,在料槽前来回跑
3、改变以往按照鸡只数量分配饮水器的做法,相应多增加饮水器数量,让雏鸡刚入舍后在栏内很方便找到水,最好是入舍时先把真空饮水器放在砖上,防止雏鸡因长途运输造成脱水后的“洗澡”,从第二遍加水,再
摆在网上逐渐将鸡只引向自动饮水设备,在可能的情况下,便于雏鸡早日使用自动饮水设备,从第五天起每天挪出四分之一的饮水器,千万记得不能在入舍时就直接使用自动饮水设备。
4、如果雏鸡到达的第一天内,不使用料盘,而是使用干净的塑料布铺在网上或铺干净的硬一些的纸,在上面撒料供雏鸡采食,其效果远远比单独使用料盘要好,尤其是在极端天气情况下,雏鸡经过长途运输后,状
态不好时,这种采食方法效果更好,理论上这种方式容易出现粪便污染以及浪费饲料等问题,但实际上通过良好的管理都是能够克服的。

一、云计算的概念及特征

在传统的运维管理中,为了保证可靠性和伸缩性,不仅需要在部署阶段进行支持,而且还需要随时监视应用的运行状态,判断是否存在节点失效或者负载过高等情况,一旦发生异常,管理员根据事先制定好的工作流程来启动备用的服务器,运行相应的管理脚本来对新的服务器进行配置和初始化等。而在云计算环境中运维人员一部分负责物理设备运转,一部分负责应用相关的监控和管理。运维人员定位系统故障不再只是依靠传统的网管手段,需要更深入地通过云计算管理平台以及虚拟设备管理平台,来分析系统的运行效率和故障原因。

1、云计算的概念

在云计算环境中,虚拟机虚拟镜像磁盘文件把基本操作系统、客户需要使用的应用及运行应用所需的中间件等组件一并打包在内,免去了传统环境下为用户进行复杂安装配置的过程,做到开箱即用,实际上成为了企业的虚拟资产。这和传统环境下需要保留主机运行环境,保存安装软件不同,虚拟机镜像文件随时加载意味着新的虚拟设备可以在需要时快速进入生产状态,特别是一些测试开发环境的准备,可以通过原始的虚拟镜像快速恢复到用户所需要的状态。

云计算(cloud
computing)是一种通过Internet以服务的方式提供动态可伸缩的虚拟化资源的计算模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源(资源主要包括网络、服务器、应用软件、存储及服务等)共享池,这些资源能够被快速提供,用户可根据个人或团体的需要对云计算的资源进行租赁。继个人计算机变革、互联网变革之后,云计算也被看作是第三次的rr浪潮,是中国战略性新兴产业的重要组成部分,它不仅实现了信息时代商业模式上的创新,而且也为人们生产和生活带来了根本性的改变,必将成为当前全社会所关注的焦点。

在云计算实践之前,数据中心的绝大多数应用服务都部署在物理机上,随着物理设备逐渐老化,性能逐渐下降,所运行的应用软件的稳定性和可靠性都受到了极大的影响。要把服务迁移到新的系统上会面临很大的风险:一方面是因为开发人员的流动性,当需要迁移服务时,难以找到原开发团队的相关人员;另一方面是软件对新运行环境的兼容性问题,软件所依赖的特定接口或者函数库在新的系统里并不一定兼容。引入云计算技术以后,人们采用新的虚拟化的辅助技术(P2V)能够把应用服务与操作系统一起从物理服务器上迁移到虚拟环境中,管理员不再需要触及与系统紧密整合的应用的相关代码,大大提高了系统迁移的可行性和成功率。迁移后的服务器,不仅可在一个统一的界面中进行管理,而且借助虚拟机化管理软件,在这些服务器因故障停机时,可以自动切换到网络中其他可替代的虚拟服务器中,从而达到不中断业务的目的。

2、云计算的特征

(1)多元化的应用服务

云计算可将大量计算资源在一个公共资源池中集中。并通过租用的方式以实现计算资源的共享,所提供的资源网络即被成为云。云计算不仅能够使用户对资源能随时获取与存储,并按需使用,而且利用其庞大的计算机群以及数据挖掘技术,为用户反馈出准确、详尽的结果,确保了用户服务的多元化与高效性。

(2)高可扩展性

当前主流的云计算平台均根据SPI架构,在各层集成功能各异的软硬件设备与中间件软件。大量中间件软件和设备提供针对该平台的通用接口,允许用户添加本层的扩展设备。部分云与云之间提供对应接口,允许用户在不同云之间进行数据迁移。类似功能更大程度上满足了用户需求,并对计算资源实现了有效集成。

(3)服务的安全性

云计算中的分布式数据中心,可将云端的用户信息备份到地理上相互隔离的数据库主机中,甚至用户自己也无法判断信息的确切备份地点。该特点不仅仅提供了数据恢复的依据,也使得网络病毒和网络黑客的攻击失去目的性而变成徒劳,大大提高系统服务的安全性与容灾能力。

(4)使用的便捷性

云计算管理软件将整合的计算资源根据应用访问的具体隋况进行动态调整,包括增大或减少资源的要求。因此云计算对于在非恒定需求的应用,如对需求波动很大、阶段性需求等,具有非常好的应用效果。

二、云计算运维管理的要点

云计算在运维管理中其所涵盖的范围非常广泛,其中主要包括了对环境管理、网络管理、软件管理、设备管理、日常操作管理、用户密码管理以及员工管理等多个方面。要良好实现以上的管理目标,则应着重从云计算运维管理中的运行监控、安全性管理和自动化处理这三个要点出发。

1、运行监控云计算的运维管理应从数据中心的日常监控人手,对日常维护管理、事件管理、变更管理以及应急预案管理等进行全方位的日常监控,以提前发现问题并消除隐患。通过对云计算良好的运行监控,从而实现对各个系统服务的统一管理,以及对各服务操作系统应用程序信息的统一收集,并实现对各层面信息的综合分析、归纳和总结。而且通过有效的运行监控,在系统出现问题时能及时的向系统管理员预警,从而提前解决问题,有效避免了因系统故障而导致企业蒙受经济和信誉上的损失。

2、IT规范化主要是指通过对企业IT的规范化,从而有效实现对企业IT资产的管理,包括了对企业重要文件资料的跟踪与审计、对可能出现泄密或病毒蔓延的介质与设备进行有效控制、对客户端安全分级管理、恢复性操作以及非法软件的禁用等等。通过实现IT规范化,有效解决了因云服务所引发的安全问题,并且强化了服务中运营管理与安全技术保障,增强了企业和用户对使用云服务的信心。

3、自动化处理随着当前IT建设的不断深入,以及云计算能力和规模的扩大,云计算运维管理的难度与复杂度也日益增加,如果只是依靠人工的运维管理将无法满足当前企业的发展需求。这些新特性都对IT管理的自动化能力提出了更高的要求,企业需要更高程度自动化处理来以此实现运维管理的专业化、流程化与标准化。自动化管理已然成为了当前云计算运维管理的一个必然发展趋势。

三、对当前云计算运维管理的改进研究

为促进当前云计算运维管理的优化与改进,应从打造一体化的的运维管理模式,并将业务导向放在首位,从而有效实现完善、成熟的IT运维服务体系的构建。

1、一体化的管理模式一体化是指云计算的数据中心运维管理,是数据中心生命周期中最后一个也是历时最长的一个阶段,从前期应用架构设计、软硬件资源配置评估、应用服务性能瓶颈评估到安全防护和系统优化等工作,都需运维人员全程参与。因此在对云计算运维管理的改进中,应从日常监控、周期巡检、服务受理、故障处理、平台维护、配置管理、安全管理等方面着手,利用自动化运维工具,实现对物理资源、虚拟资源的统一管理,提供资源管理、统计、监控、调度、服务管控等端到端的综合管理能力,从而实现对云数据中心统一、便捷、高效、智能的一体化运维管理。

2、将业务导向放在首位运行维护服务能力的四个关键要素分别是:人员、资源、技术和过程。每个要素通过关键指标反映运行维护服务的条件和能力。将业务导向放在首位,就是对人员、资源、技术和过程这四个关键要素的提升。从而有效实现云计算运维管理的改进。首先,应通过现代化与自动化的运维工具完成系统预备、配置管理以及监控报警等功能,降低故障发生率,提升故障发生后的响应处理效率,实现企业业务的快速恢复;其次,应做好在运维管理中新业务的快速部署、系统容量的平滑扩容以及资源分配等各个方面的业务项目,从而保证服务达到相应的等级标准,并能根据业务目标形成IrI’服务的管理目标;最后,还应当通过改进运行维护服务能力与管理过程中的不足,以持续提升运行维护服务能力。

四、总结

云计算为现代化的运维管理体系带来了新的理念,将传统运维工作中的大量重复性、简单的手工工作通过软件实现,从而使运维人员能有更多精力、条件投人到整个服务的生命周期当中。我们应当加强对云计算运维管理的要点以及相应改进方面措施的研究与探讨,以此不断提高IT运维质量,实现高效的运维管理。

相关文章