威尼斯网址开户网站新形势下IT运维管理的变革

“随着企业数据中心规模的加大,传统的IT运维系统将越来越难以适应云计算趋势下的管理需求。”H3C无线及软件产品部部长郑志松讲到。

变革运维 运营商网络运维转型进行时(1)

流量经营时代,建立以用户感知为中心的网络运维体系已经成为全球运营商的诉求。

威尼斯网址开户网站 1

“中国联通正在推动从以网络为中心到以业务质量和用户感知为中心的转型。”中国联通网络分公司运行维护部副总经理崔荣春在公开演讲中表示。

无独有偶。据记者了解,中国电信和中国移动都将建立用户感知为中心的运维体系作为2014年的一项重点工作,有序展开。反观国外,沃达丰、德国电信等知名运营商早在前两年就开始注重提升用户感知,进入流量经营时代。

在运维体系的变革中,加快形成集中化网络维护管理和属地化维护支撑相结合的运维模式,实现集中监控成为运营商的另外一个主要目标。

在这两个目标的牵引下,运营商网络运维转型的大幕已经拉开。

运维体系亟待转型

过去10年,电信业成本下降主要依赖设备的成本降低,而随着摩尔定律的逐渐失效,近几年网络设备中与摩尔定律相关的部分已经低于30%,依赖设备成本下降已经不可持续。与此同时,运营商的OPEX比重越来越大。

“这种背景下,电信业传统的网络运维模式已经无法适应技术发展潮流。”中国联通研究院王光全向记者表示:“因此,运营商的运维体系亟待转型。”

事实上,运营商面临的挑战不仅这些。

LTE时代,为了提供更高的带宽,单个基站的覆盖越小。为了满足用户的覆盖需求,运营商部署的基站越来越多,越来越密集。网元数量几倍乃至几十倍的增量为运营商的运维工作带来了巨大的挑战。

LTE时代带来的不仅仅是网络架构的变化,更是业务形态的变化。2G/3G时代,运营商提供的业务以语音、短信和低带宽数据业务为主,到了4G时代,业务更等同于互联网业务。互联网业务复杂多样化,而且更新速度非常快。

“4G业务的互联网化特征对传统的维护方式提出的第一个挑战就是故障定位困难。”贵州移动网络部工程师、网络运行分析专家刚周伟在接受《通信产业报》(网)采访时表示,传统电信业务运营商全程管控,业务故障点定位简单,但互联网业务由于运营商无法全程管控,业务质量难以保证。同时互联网网络庞大而复杂,导致影响业务和感知的故障点增多,难以迅速响应和处理。

除此之外,维护标准无法统一和维护制度更新较慢都将成为运营商开展4G业务维护的挑战。

崔荣春表示,面对网络及业务、内部和外部对运维工作带来的新挑战,全球主流运营商都在探索集中化维护和贴近用户感知的运维转型。

例如,德国运营商T-Mobile借助终端侧CEM工具,进行用户感知侦测和反馈:一是,通过网络状况测试,了解网络的时延、速率等情况;二是,开展业务与服务感知反馈评价,使得用户可以主动对业务和服务类体验进行评价;三是,对用户感知和满意度进行问卷调查。

与此同时,国内运营商运维转型的步伐也在加快。

面对LTE时代的挑战,四川联通2013年提出“大运维”战略,构建集中化的大运维系统,降低运维成本并提升用户感知。“四川联通的大运维平台化战略,以实现‘降低运维成本、以用户感知与用户需要为使命’为目标,为用户提供更优质的服务。”四川联通副总经理廖建文在接受《通信产业报》(网)采访时表示。

而石家庄联通运行维护部以“夯实基础管理”为目标,重点聚焦网络质量提升、客户感知提升和基层管理提升三个领域,实现运维管理转型。来自石家庄联通的运维人员向记者表示,运行维护部一方面完善综合网管功能,实现统一故障集中管控;另一方面强化网络数据分析和移动网基础数据的稽查和评估。

网络KPI落伍了

运营商传统的运维体系以网络为中心而建立,讲究各种网络KPI参数。

以中国移动2013年网络KPI指标构成举例说明。网络运行质量10分,包含GSM网络语音4分、TD网络覆盖率3分和TD手机用户下载速率3分;客户满意度25分,包含整体客户满意度8分、重点客户群体满意度和客户感知要素满意度12分和端到端网络质量客户满意度5分;手机流量分流比例4分,扣减分则不超过10分。

威尼斯网址开户网站 ,为了交出一份漂亮的网络KPI答卷,运维人员唯KPI至上,针对网络不停地进行调整、优化和改良,一些地市的KPI可能达到6个9乃至7个9。一旦达不到达不到这个级别,排名非常靠后。例如一个地市运营商的语音质量97.59%,对比全国排名仅仅位列第27名。

而有趣的现象是,在6个9的KPI分值看似繁华的背后是用户的频繁投诉,数据网络的卡顿或者连接不上。如此一来,用户体验的日益下降,而运营商收到的投诉电话也日益增多。

为什么会出现这种现象呢?中兴通讯服务业务部副总经理周勇向记者进行了阐释:随着数据业务的爆发性增长,网络的KPI度量已经无法真正反映出用户使用网络的体验。其实运营商也非常困惑,如何得到用户体验的真实数据。这就要求运营商重新审视用户体验,其由什么要素构成,围绕这些要素重新搭建一个以用户感知为中心的运维评价体系。

目前,北京电信已经改变了传统的网络KPI模式。从用户的角度出发,从单纯优化网络KPI指标向优化网络速率和时延转变,从而更贴近用户的实际体验。

不过需要清醒的认识到,从以网络为中心向以业务质量和用户感知为中心转变,不可能一蹴而就。

在崔荣春看来,以业务质量和用户感知为中心的运维体系建立是一个系统工程。需要在组织与流程优化、评估体系优化、支撑系统完善、人员结构优化等方面协同推进才能真正落地,并以此推动集约化维护体系和端到端服务体系的建立。

运营商网络运维转型进行时(1)
流量经营时代,建立以用户感知为中心的网络运维体系已经成为全球运营商的诉求。
中国联通正在…

Ganglia是个很不错的工具,它的安装配置过程简单,采集的指标丰富,而且支持自定义,像Hadoop、HBase都对Ganglia进行了扩展。

威尼斯网址开户网站 2

威尼斯网址开户网站 3

威尼斯网址开户网站 4

在做系统设计和实现时必须充分考虑各种可能出错的情况(如数据延迟、丢数据、脏数据、网络断开等等)。

2016第八届中国汽车蓝皮书论坛于5月7日在北京举行。以“下一步”为主题的本届论坛,主要探讨在汽车产业发展过程中,主机厂、供应商、经销商,都面临并经历着巨变,但这是怎样的巨变?它还有未来吗?

2016第八届中国汽车蓝皮书论坛于5月7日在北京举行。以“下一步”为主题的本届论坛,主要探讨在汽车产业发展过程中,主机厂、供应商、经销商,都面临并经历着巨变,但这是怎样的巨变?它还有未来吗?

华三通信技术有限公司产品部总监 郑志松

稳定性与准确性折中:建议不要在实时计算中过于追求计算结果的准确性,为了保证系统的稳定运行,可以牺牲一定的准确性,保证应用能够“活下去”更重要。

在汽车业随着科技进步或者说互联网时代到来发生剧烈变革之际,中国经济已经进入数十年高速发展之后的新常态,这样的常态,中国汽车产业的下一步将如何发展,本届论坛现场嘉宾将会予以探讨。

在汽车业随着科技进步或者说互联网时代到来发生剧烈变革之际,中国经济已经进入数十年高速发展之后的新常态,这样的常态,中国汽车产业的下一步将如何发展,本届论坛现场嘉宾将会予以探讨。

很多企业,尤其是中小企业的IT管理人员对这个论调可能还存有疑问,因为他们每天工作所面向的对象还都是类似交换机、路由器、服务器等IT基础设施,但是对于大型企业的IT部门人员来说,这方面的体会他们可能早就已经感知到了。

登录到问题机器上,也可使用top、free、sar、iostat、nmon等常用命令进一步查看、确认系统资源使用情况、问题之处。

云度新能源汽车股份有限公司总经理刘心文就新能源汽车发展过程中可能引发新一轮产能过剩;骗补;资本;
追求政绩,造成整个行业亚健康状态;地方保护等存在的问题做了深度剖析。

云度新能源汽车股份有限公司总经理刘心文就新能源汽车发展过程中可能引发新一轮产能过剩;骗补;资本;追求政绩,造成整个行业亚健康状态;地方保护等存在的问题做了深度剖析。

云计算变革下的企业IT运维管理演进

同时,通过查看集群上的日志(包括集群级别、业务级别),确认是否有异常日志及对应的原因。

以下为发言实录:

以下为发言实录:

云计算的大势犹如奔腾咆哮的江水滚滚而来,势不可挡。当企业各个业务对于IT的需求日益强烈,数据中心不断地集约整合,云计算时代的数据中心,甚至企业私有云的雏形开始形成的时候,越来越多的IT管理者感受到了新型数据中心给他们带来的运维挑战。

strace、jvm工具等方式追踪工作进程,从问题现场寻找原因。

首先感谢蓝皮书论坛给我这个机会,在这里跟大家来分享和做一个交流。

首先感谢蓝皮书论坛给我这个机会,在这里跟大家来分享和做一个交流。

郑志松提到:“今天的IT建设,云计算、虚拟化、资源池化,都是现在IT建设的新特点,用户的整个应用也发生了一些变化,……在当今整个“云”时代的环境下,所有的资源都‘池化’,这种情况之下,如果整个IT基础的三要素不能进行协同工作的话,是无法把整个后台的IT作为资源的。唯一可以解决的是,用户的计算资源迁移的时候能触动网络资源进行相应的更新、变化。”

系统的自动安装 kickstart cobbler

各位做了这么多年新能源汽车,看看新能源汽车在现在的情况下行业出现了什么样的情况。

各位做了这么多年新能源汽车,看看新能源汽车在现在的情况下行业出现了什么样的情况。

虚拟化技术给企业带来了更便利的IT资源应用,同时也对IT管理人员的工作提出了更高的要求。这主要是因为以往的IT运维管理面向的是具体、单一的IT设备,但虚拟化技术应用后,IT管理人员所要管理的对象变得更抽象,当虚拟机发生了迁移,运维人员会发现自己所面对的网络从原本的静态结构转变成了时刻会发生变化的动态结构。在这样的变化下,从虚拟机到虚拟网络,这些新加入的元素成为了运维人员的一道难题,而这道难题却恰恰是传统的面向基础IT管理的运维系统难以解决的。

1.     
服务器型号的区分,为以后的统一化和标准化作硬件上的准备,很多人忽视这一点,其实如果这一点做得好会使后面的运维工作轻松很多,根据应用我们主要把服务器分为3中,cpu密集型,主要用于大量计算应用,比如p2p;内存密集型,用于cache类应用,比如squid,varnish缓存服务器;磁盘密集型,用于大存储类应用,比如视频存储服务器,Hadoop日志存储集群。

新能源汽车真正起步,从2010年、2011年开始,2014、2015年进入一个爆发性增长的阶段,在这个阶段整体的发展主流是非常好的。为什么说政策红利下新能源汽车的现状呢?刚才两位老师都重点谈了新能源汽车的补贴政策,怎么补,按什么政策补,拿什么方案。实际上没有补贴,新能源汽车在现在的情况看,包括过去未来几年,是没法活下去的,政策的引导非常重要。我们国家拿出全世界最大的一个鼓励政策、一块最大的蛋糕来刺激新能源汽车的成长,从这一点来讲是正能量,发挥了非常大的作用,也带来了这几年这么红火的一个市场,这么欣欣向荣的一个市场,这么一个百家争鸣、百花齐放,各种技术流派都在成长、都在进步。不论是上游的供应链,还是主机厂,还是后市场,都是一个蓬勃兴旺的景象。所以,总体上是向好。电动汽车很巧妙地替代了传统的发动机和变速箱,因为我们做传统车,在发动机上面做了三十年下来,我们的水平跟国外的差距还是很大,但是电动汽车我们很巧妙地避开了这一点,让我们跟国际的水平能够更加接近一些。这是第一。第二,大众创业、万众创新的局面也已经在政府、在克强总理多次的鼓励下,这个局面已经呈现出来了。这种新的营销模式,五花八门的营销模式都有,有很多确实非常有创新,当然也有负面,各种新能源技术都呈现出来。这是主流。

新能源汽车真正起步,从2010年、2011年开始,2014、2015年进入一个爆发性增长的阶段,在这个阶段整体的发展主流是非常好的。为什么说政策红利下新能源汽车的现状呢?刚才两位老师都重点谈了新能源汽车的补贴政策,怎么补,按什么政策补,拿什么方案。实际上没有补贴,新能源汽车在现在的情况看,包括过去未来几年,是没法活下去的,政策的引导非常重要。我们国家拿出全世界最大的一个鼓励政策、一块最大的蛋糕来刺激新能源汽车的成长,从这一点来讲是正能量,发挥了非常大的作用,也带来了这几年这么红火的一个市场,这么欣欣向荣的一个市场,这么一个百家争鸣、百花齐放,各种技术流派都在成长、都在进步。不论是上游的供应链,还是主机厂,还是后市场,都是一个蓬勃兴旺的景象。所以,总体上是向好。电动汽车很巧妙地替代了传统的发动机和变速箱,因为我们做传统车,在发动机上面做了三十年下来,我们的水平跟国外的差距还是很大,但是电动汽车我们很巧妙地避开了这一点,让我们跟国际的水平能够更加接近一些。这是第一。第二,大众创业、万众创新的局面也已经在政府、在克强总理多次的鼓励下,这个局面已经呈现出来了。这种新的营销模式,五花八门的营销模式都有,有很多确实非常有创新,当然也有负面,各种新能源技术都呈现出来。这是主流。

在郑志松看来,上面这些问题是IT建设及管理方式“进化”过程中,一个新阶段的表现。从下图中可以看出传统的IT管理模式和云时代下的IT管理模式的不同特点。

2.      系统的的自动安装,主要有kickstart和cobbler

我们再看看在主流下面存在的一些乱象也好或者一些不规范也好,确实存在一些问题,大家来看一看。

我们再看看在主流下面存在的一些乱象也好或者一些不规范也好,确实存在一些问题,大家来看一看。

威尼斯网址开户网站 5

3.      统一的yum源和定制化的rpm包,
并集成至yum源站,为后续的环境初始化做软件上的准备

1,可能引发新一轮产能过剩。因为现在新能源汽车一窝蜂地上,上的项目非常多,各地政府、各个企业,不管做过的、没做过的,都在上。按照我们国家开放的新能源纯电动汽车的准入新的新的政策,对产能、工艺是有要求的,车身的侧翻能力、焊装能力、总装能力包括电池的组装能力,这样一些产能要求,大家都上来了以后,传统企业产能的利用率相当低,真正能达到60%、70%,70%、80%以上都算不错,大量的产能是闲置的。这些产能闲置的情况下,又要求增加新的产能,所以未来我是有这个担忧,未来新一轮的产能过剩可能还会加剧。

1,可能引发新一轮产能过剩。因为现在新能源汽车一窝蜂地上,上的项目非常多,各地政府、各个企业,不管做过的、没做过的,都在上。按照我们国家开放的新能源纯电动汽车的准入新的新的政策,对产能、工艺是有要求的,车身的侧翻能力、焊装能力、总装能力包括电池的组装能力,这样一些产能要求,大家都上来了以后,传统企业产能的利用率相当低,真正能达到60%、70%,70%、80%以上都算不错,大量的产能是闲置的。这些产能闲置的情况下,又要求增加新的产能,所以未来我是有这个担忧,未来新一轮的产能过剩可能还会加剧。

IT建设及管理方式的变迁

4.      构建专属于自己的内网DNS

2,骗补。国家也在调查,五花八门的骗补都在发生,钻政策的空子或者打擦边球,有些无视法律在做一些比较丑陋的事情。

2,骗补。国家也在调查,五花八门的骗补都在发生,钻政策的空子或者打擦边球,有些无视法律在做一些比较丑陋的事情。

可以看出,IT运维管理的进化是随着企业信息化发展的步伐而迈进的,这样的进化过程是整体信息化的发展所推动的必然结果。

5.     
标准化的统一的命名方式(标准化基础),便于使用puppet管理,并且减少操作的错误,如果每个机器的hostname都为localhost,那将是一个多么可怕的事。。。在我们的生产环境中主要使用下面这种命名方式

3,资本。这两年新能源汽车互联网
的概念刺激了资本市场,所有的资本的目光都聚焦到这一块,很多企业通过这个进行资本的运作,本事非常大,我没有这个本事,但是我非常羡慕,我们有很多资本,有些是很盲目的,只看到一个光环,但是不了解造车的本质。

3,资本。这两年新能源汽车互联网的概念刺激了资本市场,所有的资本的目光都聚焦到这一块,很多企业通过这个进行资本的运作,本事非常大,我没有这个本事,但是我非常羡慕,我们有很多资本,有些是很盲目的,只看到一个光环,但是不了解造车的本质。

IT运维管理变革中要解决的问题

机房-主业务-应用程序-IP后两位-公司域名,这样一眼就可以看出是哪台服务器,应用于什么业务,报警也可以直接定位。

4,追求政绩,造成整个行业亚健康状态。发展是硬道理,发展也是对的,而且也取得了成果,但是里面存在很多问题,很多企业根本就不健康。前不久我去一两个企业看,他们也在卖电动车,很多是粗制滥造的,但是他们的产品也照样通过各种形式能够上市销售,能够拿到补贴,也没有技术,非常简陋的生产线,谈不上研发,没有验证的过程,交给用户,非常可怕。这种企业不在少数。

4,追求政绩,造成整个行业亚健康状态。发展是硬道理,发展也是对的,而且也取得了成果,但是里面存在很多问题,很多企业根本就不健康。前不久我去一两个企业看,他们也在卖电动车,很多是粗制滥造的,但是他们的产品也照样通过各种形式能够上市销售,能够拿到补贴,也没有技术,非常简陋的生产线,谈不上研发,没有验证的过程,交给用户,非常可怕。这种企业不在少数。

H3C业务软件产品经理李林介绍到,云时代在IT管理方面的挑战是多样的,“首先是基础平台的改变,以前是各个部门去管理部门的事,在建设时也都是分开的。到了云计算时代就会出现融合的观念——所有的资源都通过底层融合或者是虚拟化的技术进行统一建设。这首先带来的就是虚拟化的问题。服务器虚拟之后会产生很多虚拟机,就会产生网络兼容的问题。传统的服务器资源和网络端口是一对一对应的,这样管理起来就非常的便捷,管理员可以很方便地看到服务器的性能和网络性能。那么在云时代,服务器与网络设备在虚拟化之后从原来的一对一变成一对多,而且虚拟机会经常的发生迁移,位置不固定,如何查找、定位虚拟机,就是管理上带来的问题。”

6.自动化的配置管理和环境部署工具:puppet,puppet的模块编写要尽量减少模块直接的耦合度,并使用class继承的方式来减少运维的工作量,定制化的facter变量会使软件的配置环境更加灵活,由于puppet暂时不支持群集,所以在实际应用中需要部署多套,根据经验,1500台左右的server时puppet会出现性能问题。

5,行业很躁动,躁动带来的是技术的粗糙,大家没有认真做技术,没有沉下心来好好做技术,去追求多少销量,拿到多少补贴,取得一份功名,功利心太重了。

这只是IT运维管理进化过程中需要面对的挑战之一。对于IT运维人员来说,对于分散的资源进行统一的管理是基本要求。无论IT运维系统如何发展进化,这个基本要求都不会发生变化。在谈到这个问题的时候,李林表示:“要做到统一管理,除了传统的将网络、安全、应用系统、存储等设备和资源进行统一管理之外,在云计算时代还需要将虚拟化资源放在一起综合考虑。另外,在云计算时代,大家获取信息、数据、服务都变得非常方便,对IT管理系统也有一定的要求,比如怎样在信息更加通畅的前提下考虑系统的安全性等等……,”对此,李林总结了云时代IT运维管理系统的四个要素:“一、需要融合云计算各个基础资源的管理。二、要有自动化方案的保障。三、在传统的安全领域,在运营的角度认证方面要有加强。四、需要有更开放的体系和架构。”

7.      强大有效的监控系统,在生产环境中我们使用了zabbix proxy+zabbix
master的群集结构,zabbix可以实现有效的系统和应用级别的监控,应用监控同时也使用了ppmon来实现多点监控。

6,地方保护,或多或少都有地方保护。

为此,H3C在新推出的iMC数据中心管理2.0解决方案中进行了大量的工作,包括与一些虚拟化服务厂商进行配合等等。其实很多虚拟化服务厂商都有自己的管理端,为什么H3C还要做这样的事呢?H3C的解释是:在这些基础的管理之上,iMC数据中心管理2.0还完成了许多创造性的工作。

选择zabbix有一个最大的好处,就是监控数据是存放在数据库中的,这样就可以利用数据库中的数据做很多操作,比如可以分析一段时间内服务器的各个性能指标,查看服务器的资源利用率,可以对数据进行聚合操作,从而分析全网的指标,比如总的流量,总的http
code分布情况。

这是我最心痛也是最担忧的,新能源汽车的市场现在是一个非常不成熟的市场,技术不成熟、市场不成熟,人也不成熟。在这个上面消费者不成熟。在这样的情况下,加上政府的地方保护,北京是北京的一块市场,上海是上海的一块市场,山东是山东的一块市场,广东是广东的一块市场,一个企业没法像传统车一样,我的产品在一个政策下去玩。作为一个汽车制造商,它要去销售新能源汽车,它要五花八门地想尽一切办法,绞尽脑汁去研究各类市场的特征,然后去制定不同的商务政策,包括一些关系。所以,这个市场是割裂开的。谁占了主场优势,谁就占了大便宜。没有主场优势,肯定做不过那些有主场优势的。所以,这个市场是一个割裂开的,靠一些说不清道不白的营销来做。

例如当用户的虚拟服务器搬迁之后,iMC
DCM2.0能够通过一些拓扑计算方法计算出来这些服务器之前在哪里,迁到哪里去,之前采取什么策略,之后怎样进行策略跟随。同时,iMC
DCM2.0可以针对原本抽象的虚拟机、虚拟网络,生成一个实时的、可变化的现实物理拓扑图,更重要的是,运维人员在开通虚拟机或者关闭虚拟机,调整相关的虚拟网络的时候,可以很方便的在同一界面内联动进行,大大减少了运维过程中的失误概率,同时提升了运维效率。

8.      日志收集服务器群集 和qos分析系统,构建
有效的日志收集系统可以有效地对用户的访问数据进行整合和分析,可以快速的分析qos,对应重要的节点我们采用本地分析并导入mongodb,最后导入zabbix的方式,非重要节点则直接将日志打包压缩,通过ftp上传至hadoop数据仓库集群中。

我给政策提几个建议。最近因为查骗补,补贴政策有一些变化,一些技术的要求和条件,包括对电池的一些要求,又增加了一些门槛。实际上做车很辛苦,做新能源汽车更辛苦,如果认认真真去做是最辛苦的,比如开发一个电池包,它需要一两年时间,政策一变很难掉头。如果经常变,会导致对这些企业真正伤害,而粗制滥造倒是船小好掉头,能很快变过来,真正认真做的反而受到很大伤害。所以,呼吁政策能够持续、稳定,不合理的可以做一些适当的调整,千万不要出现颠覆性的变化,这是第一个呼吁。

此外,在虚拟机发生迁移时的网络策略跟随方面,传统意义上没有很好的解决方法,因为在虚拟化工作中,服务器一定是先于网络进行了虚拟化,当虚拟机产生了以后,虚拟网络才会随之产生。这时候一个物理的交换端口可能产生多对的端口信息,正是因为这个问题,它在迁移的时候会发生故障或者是准确性和时时性欠缺。而iMC
DCM2.0可以实现在虚拟机里把网络打上一定的标签,从而进行逻辑的划分,这样就重新实现服务器端口与交换端口一对一的关系,虚拟机迁移时的策略跟随就变得非常的方便。

9.     
构建冗余的结构,消除单点,在生成环境中对于一些重要节点都采用keepalived-ha的方案来提高冗余度。对于resin,php等应用服务器则在前端使用nginx做反向代理,同时nginx使用keepalived-ha

第二,我们一定要准备好,不能完全依赖补贴,将来补贴没有的情况下,建议以车养车,传统车的市场、燃油车的市场,将来可能会逐步逐步地被新能源汽车去逐步逐步地侵蚀,我们不说完全替代,局部领域会一步一步增加新能源汽车,传统车会逐步减少。传统车的排放,油耗、对环境的污染等等,这些现在都有标准了,也有要求,包括企业平均油耗的要求。到2020年以后怎么办?是不是可以学学美国,用碳排放指标来刺激、来养新能源汽车,这个其实行业里边很多都有这样的共识,只是政策我希望能够早点去研究,早点能够有一个好的政策,能够很长时间持续地支持新能源汽车的发展,是一个健康的政策。

变革不等于替代

10.  自动化的代码分发系统,主要是controltier +
svn的使用,可以方便快速地部署代码。

第三,准入政策更多鼓励研发,对新进入的企业,应该更多鼓励研发的投入,鼓励在核心竞争力的培育上面去辅助,还是轻资产。如果有能力去整合一些存量的资产资源,打个比方,某个企业的生产线只有20%、30%的产能,一条生产线基本上浪费,有的都不生产,就停产,如果我有本事整合这个资源,干吗一定要让我投入重资产去建?应该考虑一些这样的因素,能够改善,去引导新的企业投入。

可能很多人会产生一个疑问,既然运维系统发生了进化,那么我们经常提到的ITSM、BSM这些概念是不是就自然被替代了呢?并不是这样的。从本质上说,IT运维系统面向云计算的计划并没有脱离ITSM等理念,仔细分析,我们会发现,针对虚拟化技术的功能演变,实际上只是ITSM系统中对于配置管理、变更管理等流程下的功能增强,因为ITSM本身不是一个运维系统,它只是一套科学的方法论,所以在这样的方法论之下,产生了新形势下的功能演变。实际上,综观信息化发展的这些年,这样的演变对于我们这些企业级IT人员来讲,已经不是什么新鲜的话题。物竞天择,适者生存,究竟这样的进化还会有什么样的发展,我们只要去关注并且尝试就可以了。
 

任务实例并行化:可以并行化的直接采用多shard,多进程/多线程的方式;复杂的任务则可以考虑先进行拆解,然后进行并行化。

未来的出行方式。

华三…

不同类型的任务:CPU密集型考虑利用多核,将CPU尽可能跑满;内存密集型则考虑选择合适的数据结构、数据在内存中压缩(压缩算法的选择)、数据持久化等。

在一个城市里边,这是一个A城市,这是一个B城市,有一个卫星城市。应该讲对于纯电动而言,在城市里的交通是比较合适的。在200公里以内,在城市里跑已经足够了。今天上午有一个统计,基本上大概就在50公里以内,在一个城市里跑。到了周边城郊或者卫星城市,200公里以内能够满足要求,未来就是地铁加上电动汽车,到B城市如果超过400公里,就是地铁加电动车,这样的出行方式是非常绿色的出行。

缓存Cache:选择将频繁使用、访问时间开销大的环节做成Cache;通过Cache减少网络/磁盘的访问开销;合理控制Cache的大小;避免Cache带来的性能颠簸,等等。

我们公司做的是有城市版,也有城际版,乘积版最多300公里,我们认为是够了。

1)安装、部署过程要尽可能自动化。

云度新能源这是一个新公司,由福建省福汽集团、NYM、莆田市政府国投组建的一个新能源汽车公司,利用福建省一带一路,加上国家的七大新兴产业,加上中国制造2015,三大战略机遇,建了这样一个新公司,因为福建的新能源汽车发展还是相对比较落后一些。

将集群搭建的步骤脚本化,可以做到批量部署多个节点、快速上线/下线一个节点。集群的节点多,或者不断有节点上下线的话,都能省出不少的时间。

我们已经开发了两款车,第三款会是一个轻量化的全新的电动汽车,铝合金加上复合材料、碳纤维,会在2017年上市两款车,2018年上市一款车,后面基本上每年都会有一款车。

2)搭建并充分利用好集群的监控系统。

首先,最重要的是集群自带的监控系统。例如,HBase的Master、Region
Server监控页面;Hadoop的JobTracker/TaskTracker、NameNode/DataNode监控页面;Storm的Storm
UI监控页面,等等。这类监控侧重集群上的作业、资源等,而且包含的信息很全,包括作业运行的异常日志等,这对于排查、定位问题是非常及时有效的。

其次,既然是集群,就需要有一个统一的监控地址负责收集、展示各个节点的工作状态,集群既不能太闲,也不能负载过高。因此,我们需要对集群内各节点的CPU、内存、磁盘、网络等进行监控。Ganglia是个很不错的工具,它的安装配置过程简单,采集的指标丰富,而且支持自定义,像Hadoop、HBase都对Ganglia进行了扩展。

3)为集群内节点添加必要的运维脚本。

删除过期的、无用的日志文件,否则磁盘占满会导致节点不工作甚至发生故障,如Storm集群的Supervisor进程日志、Nimbus进程日志,Hadoop集群的各个进程日志。

为集群上的守护进程添加开机自启动脚本,尽可能避免宕机重启后的人工干预。例如,CDH已经为Hadoop、Hive、HBase等添加了启动脚本,rpm安装后进程可在机器重启后自启动。

同时监控集群上的守护进程是否存在,不存在则直接重启。这种方式只适用于无状态的进程,像Storm的Nimbus、Supervisor进程,Zookeeper进程等,都应该加上这样的监控脚本,确保服务进程终止后可以尽快被重启恢复。例如,通过设置crontab每分钟检查一次。

4)根据业务特点添加应用层的监控和告警。

对于业务层的计算任务,可以监控每天产出数据的大小和时间,如果出现异常情况(如数据文件的大小骤变,计算结果产出延迟等)则进行报警。

对于实时计算的应用,最重要的是数据处理是否出现明显延迟(分钟延迟、秒级延迟等),基于此,可以定义一系列的规则,触发不同级别的报警,以便第一时间发现并解决问题。

5)使多个用户能够共享集群的计算和存储资源。

使用集群的Quota限制不同用户的资源配额,例如Hadoop就提供了这一机制;但是,Storm和HBase目前并没有发现有什么方式可以限制。

通过多用户队列的方式对集群的资源进行限制与隔离。例如Hadoop为了解决多用户争用计算资源的情况,使用Capacity
Scheduler或Fair
Scheduler的方式,对不同用户提交的作业进行排队,可以直接部署应用,也可以根据业务需求对其进行定制后使用,很方便。

对于Storm集群,其计算资源也是按照Slots划分的,因此可以考虑在Storm之上加上一层资源控制模块,记录每个用户最大可占用的Slots数、当前已占有的Slots数等,从而实现用户的资源配额(不过目前Storm无论从集群规模还是内部使用用户来看,都还不算多,这一需求并不是特别迫切)。

另外,不同用户对集群的访问控制权限十分必要。比如,是否可以提交作业、删除作业,查看集群各类资源等,这是保证集群安全运行的一道基本保障。

6)实时计算应用要想办法应对流量峰值压力。

真实压测:例如为了应对双11当天流量压力,模拟平时3~5倍流量进行压测,提前发现解决问题,保证系统稳定性。

运维开关:通过加上运维开关,避免流量峰值时刻对系统带来的冲击,例如,通过ZooKeeper对实时计算应用加上开关,在线调整处理速度,允许一定时间的延迟,将流量平滑处理掉。

容错机制:实时计算的场景随流量的变化而变化,可能遇到各种突发情况,为此在做系统设计和实现时必须充分考虑各种可能出错的情况(如数据延迟、丢数据、脏数据、网络断开等等)。

稳定性与准确性折中:建议不要在实时计算中过于追求计算结果的准确性,为了保证系统的稳定运行,可以牺牲一定的准确性,保证应用能够“活下去”更重要。

7)多种方式追踪、定位、解决集群中的问题。

借助于集群的监控系统,定位问题所在的具体机器。登录到问题机器上,也可使用top、free、sar、iostat、nmon等常用命令进一步查看、确认系统资源使用情况、问题之处。

同时,通过查看集群上的日志(包括集群级别、业务级别),确认是否有异常日志及对应的原因。

另外,也可通过strace、jvm工具等方式追踪工作进程,从问题现场寻找原因。

8)集群运行任务的一些调优思路。

综合考虑系统资源负载:结合集群监控,从各个节点上任务实例的运行情况(CPU、内存、磁盘、网络),定位系统瓶颈后再做优化,尽可能使得每个节点的系统资源得到最大利用,尤其是CPU和内存。

任务实例并行化:可以并行化的直接采用多shard,多进程/多线程的方式;复杂的任务则可以考虑先进行拆解,然后进行并行化。

不同类型的任务:CPU密集型考虑利用多核,将CPU尽可能跑满;内存密集型则考虑选择合适的数据结构、数据在内存中压缩(压缩算法的选择)、数据持久化等。

缓存Cache:选择将频繁使用、访问时间开销大的环节做成Cache;通过Cache减少网络/磁盘的访问开销;合理控制Cache的大小;避免Cache带来的性能颠簸,等等。

相关文章