聚焦业务运营 红米执手运转商业运输维转型

变革运维 运营商网络运维转型进行时(1)

流量经营时代,建立以用户感知为中心的网络运维体系已经成为全球运营商的诉求。

图片 1

“中国联通正在推动从以网络为中心到以业务质量和用户感知为中心的转型。”中国联通网络分公司运行维护部副总经理崔荣春在公开演讲中表示。

无独有偶。据记者了解,中国电信和中国移动都将建立用户感知为中心的运维体系作为2014年的一项重点工作,有序展开。反观国外,沃达丰、德国电信等知名运营商早在前两年就开始注重提升用户感知,进入流量经营时代。

在运维体系的变革中,加快形成集中化网络维护管理和属地化维护支撑相结合的运维模式,实现集中监控成为运营商的另外一个主要目标。

在这两个目标的牵引下,运营商网络运维转型的大幕已经拉开。

运维体系亟待转型

过去10年,电信业成本下降主要依赖设备的成本降低,而随着摩尔定律的逐渐失效,近几年网络设备中与摩尔定律相关的部分已经低于30%,依赖设备成本下降已经不可持续。与此同时,运营商的OPEX比重越来越大。

“这种背景下,电信业传统的网络运维模式已经无法适应技术发展潮流。”中国联通研究院王光全向记者表示:“因此,运营商的运维体系亟待转型。”

事实上,运营商面临的挑战不仅这些。

LTE时代,为了提供更高的带宽,单个基站的覆盖越小。为了满足用户的覆盖需求,运营商部署的基站越来越多,越来越密集。网元数量几倍乃至几十倍的增量为运营商的运维工作带来了巨大的挑战。

LTE时代带来的不仅仅是网络架构的变化,更是业务形态的变化。2G/3G时代,运营商提供的业务以语音、短信和低带宽数据业务为主,到了4G时代,业务更等同于互联网业务。互联网业务复杂多样化,而且更新速度非常快。

“4G业务的互联网化特征对传统的维护方式提出的第一个挑战就是故障定位困难。”贵州移动网络部工程师、网络运行分析专家刚周伟在接受《通信产业报》(网)采访时表示,传统电信业务运营商全程管控,业务故障点定位简单,但互联网业务由于运营商无法全程管控,业务质量难以保证。同时互联网网络庞大而复杂,导致影响业务和感知的故障点增多,难以迅速响应和处理。

除此之外,维护标准无法统一和维护制度更新较慢都将成为运营商开展4G业务维护的挑战。

崔荣春表示,面对网络及业务、内部和外部对运维工作带来的新挑战,全球主流运营商都在探索集中化维护和贴近用户感知的运维转型。

例如,德国运营商T-Mobile借助终端侧CEM工具,进行用户感知侦测和反馈:一是,通过网络状况测试,了解网络的时延、速率等情况;二是,开展业务与服务感知反馈评价,使得用户可以主动对业务和服务类体验进行评价;三是,对用户感知和满意度进行问卷调查。

与此同时,国内运营商运维转型的步伐也在加快。

面对LTE时代的挑战,四川联通2013年提出“大运维”战略,构建集中化的大运维系统,降低运维成本并提升用户感知。“四川联通的大运维平台化战略,以实现‘降低运维成本、以用户感知与用户需要为使命’为目标,为用户提供更优质的服务。”四川联通副总经理廖建文在接受《通信产业报》(网)采访时表示。

而石家庄联通运行维护部以“夯实基础管理”为目标,重点聚焦网络质量提升、客户感知提升和基层管理提升三个领域,实现运维管理转型。来自石家庄联通的运维人员向记者表示,运行维护部一方面完善综合网管功能,实现统一故障集中管控;另一方面强化网络数据分析和移动网基础数据的稽查和评估。

网络KPI落伍了

运营商传统的运维体系以网络为中心而建立,讲究各种网络KPI参数。

以中国移动2013年网络KPI指标构成举例说明。网络运行质量10分,包含GSM网络语音4分、TD网络覆盖率3分和TD手机用户下载速率3分;客户满意度25分,包含整体客户满意度8分、重点客户群体满意度和客户感知要素满意度12分和端到端网络质量客户满意度5分;手机流量分流比例4分,扣减分则不超过10分。

为了交出一份漂亮的网络KPI答卷,运维人员唯KPI至上,针对网络不停地进行调整、优化和改良,一些地市的KPI可能达到6个9乃至7个9。一旦达不到达不到这个级别,排名非常靠后。例如一个地市运营商的语音质量97.59%,对比全国排名仅仅位列第27名。

而有趣的现象是,在6个9的KPI分值看似繁华的背后是用户的频繁投诉,数据网络的卡顿或者连接不上。如此一来,用户体验的日益下降,而运营商收到的投诉电话也日益增多。

为什么会出现这种现象呢?中兴通讯服务业务部副总经理周勇向记者进行了阐释:随着数据业务的爆发性增长,网络的KPI度量已经无法真正反映出用户使用网络的体验。其实运营商也非常困惑,如何得到用户体验的真实数据。这就要求运营商重新审视用户体验,其由什么要素构成,围绕这些要素重新搭建一个以用户感知为中心的运维评价体系。

目前,北京电信已经改变了传统的网络KPI模式。从用户的角度出发,从单纯优化网络KPI指标向优化网络速率和时延转变,从而更贴近用户的实际体验。

不过需要清醒的认识到,从以网络为中心向以业务质量和用户感知为中心转变,不可能一蹴而就。

在崔荣春看来,以业务质量和用户感知为中心的运维体系建立是一个系统工程。需要在组织与流程优化、评估体系优化、支撑系统完善、人员结构优化等方面协同推进才能真正落地,并以此推动集约化维护体系和端到端服务体系的建立。

运营商网络运维转型进行时(1)
流量经营时代,建立以用户感知为中心的网络运维体系已经成为全球运营商的诉求。
中国联通正在…

4G技术的成熟为数据时代的语音通话、网页浏览、流媒体、网络社交等热点业务的发展提供了更为便利的通道,但同时也为传统的运维模式带来了更大挑战。

当前,电信运营商面临着向虚拟化、5G、物联网等网络转型及重构的压力,同时也急需提升效率、优化成本,为此纷纷走上了数据化、标准化、自动化和智能化道路。

电信运营商面临越来越严峻的挑战,在OTT的冲击下,不但传统话音与短彩信业务无法避免日趋下滑的命运,运营商所尝试的诸多创新应用由于与OTT相比相形见绌,成功希望也是渺茫。运营商的未来将越来越依赖基础网络服务,“流量经营”、“带宽经营”成为了运营商的新追求。然而面对用户端移动化、服务端云化、数据海量化的大势,为实现网络的可持续经营,网络本身必须转型和变革,否则作为运营商根基的网络经营也将危及四伏。今天不但要将互联网思维贯穿于市场营销,也要将互联网思维渗透到网络发展。利用SDN/NFV技术手段和云服务方式来提升网络服务能力和降低网络成本将成为新形势下网络转型和变革的主导方向。

一方面,终端消费群体对于新技术下的网络体验寄予厚望;另一方面,复杂的网络环境使得业务问题的发现和定位变得难以掌控,同时由于缺乏对业务质量和用户感知等数据的分析手段,运营商在制定经营策略的时候也感到举步维艰。

为了帮助运营商更快更好地推进数字化转型,中兴通讯引入大数据和AI算法,通过服务创新与技术变革,推出了价值驱动的数字化运维解决方案。“以价值为导向,中兴通讯可以提供多领域的决策支撑,帮助运营商在网络运维中激发网络价值,促进TCO最优和ROI最大化。”中兴通讯服务产品市场总经理杨兆江在接受飞象网记者采访时表示。

作者介绍:宋磊毕业于武汉大学,09年加入百度,现任百度网络与服务器运维团队技术经理。

近年来,SDN/NFV引起了产业链各方的高度重视。对于学术研究机构,SDN大大便利了各种创新技术思路和方案的验证,加快了科技成果试验和转化的速度;对于设备供应商,SDN/NFV打破了以往大企业对通信设备市场的垄断,可打造类比IT产业的开放生态链,给创新型的小企业提供更多的商机;对于运营商,现阶段可利用SDN提升运维效率,加快业务部署速度,长远看SDN可成为实现运营转型的重要手段,打造“轻资产+重创新”的新型运营模式。

电信运营商虽坐拥基础管道之便,却遭遇OTT企业与智能终端厂商的双重挤压,面临着“被管道化”以及主营业务“增量不增收”的尴尬局面。运维转型已成为大势所趋。

诸多痛点困扰运营商前进步伐

精彩看点

总体来看SDN/NFV还处于技术应用的起步阶段,在运营商网络中规模推广应用还面临多方面的挑战。一是运营与人才方面的挑战,SDN/NFV对电信运营体制有很大的影响,运营商现有的运营体制和人力资源还难以适应SDN/NFV网络运营要求;二是组网与技术方面的挑战,包括:现有网络基础设施如何向SDN/NFV演进或如何与SDN/NFV协同,大网中SDN控制器的组网问题,SDN控制器的安全问题,IT硬件设备的性能问题等等;三是标准与互通方面的挑战,包括:SDN南向接口的标准化、适用性及功能性能问题,北向接口的标准化和基于API的能力开放问题,多厂商环境下的统一控制问题,NFV中的MANO标准化及其与OSS/BSS关系问题等等。

面对这样的业界难题,中兴通讯提出要建立“以用户体验为中心”的运维理念,为运营商实现业务运维,体验运维和价值运维,并构建与之相关的工具平台、业务模型、流程组织优化建议等。

如今运营商的网络面临诸多痛点,杨兆江认为可以归纳为三个方面。

  1. 网络工程师在业务需求不断变化和网络规模急剧增长下都会遇到哪些挑战?技能短板、各方的认可度、成就感和成长空间,这些是否能与你产生共鸣。
  2. 百度网络运维这些年的变革和方法论转换,从应急抢险、到局部优化,数据测量,再到能力建设,你的网络目前处于哪个阶段?能否从这里得到一些经验和帮助
  3. NetDevOps是网络工程师职业发展的新方向,企业内部如何培养网工DevOps的能力,除了技能学习,还应该有管理方法和团队协作模式的变化。

可以预见,随着SDN/NFV的兴起,一个全兴的网络时代即将到来,传统运营商唯有顺应潮流、自我革新才能赢得更多的发展空间。网络运营的核心竞争力将越来越多地体现为网络“软”实力,基于SDN/NFV的网络转型步伐必须加快。

数据为桥,丈量虚拟情感

一是网络形态复杂,多数属于软硬件垂直一体化的的封闭架构。传统网络由大量功能单一的专用网络节点和碎片化、昂贵的专用硬件构成,不同的网元为满足不同业务、接入方式、质量、安全等需求,引入了大量各不相同的控制协议,而且还绑定于特定转发协议,代码直接写入硬件,形成了控制转发一体化的封闭架构。这种架构导致设备日益臃肿,扩展性受限、功耗很大,性能的提升空间也很小。

网络工程师的价值

如今的电信市场正在陷入一个困境,为什么运营商网络的各项性能指标良好,但是用户的投诉却越来越频繁?

二是基础设施和业务具有严重的烟囱效应。每一种新业务、新功能、新性能,都需要开发新协议和新设备,于是设备种类和数量越来越多,加上各部门上下分割,形成了大批独立封闭的网络和业务烟囱群。这就导致系统建设和运维成本高,资源利用率低、难以共享,网络和业务也难以协同和融合。“运营商无法像互联网企业一样快速调整业务和应用,在很大程度上要归因于这种现状。”杨兆江说。

图片 2

究其根源,诸如“最大管理网元数”、“网络告警压缩率”,“网络性能数据采集能力”等传统KPI已远不能衡量现有数据业务的质量和用户体验了。

三是CAPEX和OPEX问题。运营商的网络中充斥着大量来自不同厂家、不同种类的设备,这些设备通常需要分别进行采购、设计、集成、IOT、部署配置、维护运行、升级改造,随之而来的是居高不下的CAPEX和OPEX。

伴随近些年互联网的蓬勃发展,百度的产品线日益丰富。业务上从搜索变现一枝独秀到现在
O2O、互联网金融、公有云服务崛起。但是所有业务对基础设施的稳定运行、随需而变的要求没有变化。这也是网络运维团队工作的核心目标,提供稳定优质的网络基础设施,同时高效的满足业务需求,保持业务的正常运行。

如果运营商不想沦为OTT企业和智能终端厂商的业务承载管道,就必须走近网络用户,从用户体验的角度衡量业务质量,才有可能发现运维/运营价值增长点。

“要解决上述问题,就需要通过网络重构实现软硬件解耦,打破业务壁垒,同时通过对运维的数字化改造来匹配新的网络架构,有效提升投资收益比。”杨兆江说。

图片 3

中兴通讯业务运维管理服务,依托丰富的项目经验,搭建基于用户体验的端到端性能评估体系,将用户体验转化为应用层、业务层和用户层中各项可测量、可量化的指标模型。

解决之道在于数字化运维

任何一个团队的成长都是从平凡一步步鲜血淋漓的走向卓越,百度网络运维团队也不例外。在追求稳定和高效的过程中不断遇到挑战。技术方面的挑战主要来自于业务需求的不断变化和规模的增长:

基于该指标体系,运营商不仅能实时掌握微信、CSFB、视频下载等热点业务质量的变化趋势,还可以对VIP和VAP(VeryAnnoying/AngryPerson)用户发起主动关怀,提升用户满意度,减少用户离网率。

近年来虚拟化、5G、物联网等关键技术正在逐渐引入电信网络,不但导致网络转型及重构,还使得网络运维也正面临着不可避免的转型。过去以人员技能和经验为主的传统运维模式已经不再适应新的形势,比如靠人工来定位分析云化分层解耦架构下的故障、根因追溯很困难,现有的响应式运维模式也存在效率低、客户体验差等问题。对此,中兴通讯推出了数字化运维解决方案。

业务需求的不断变化推动技术发展和规模发展,百度的业务形态很长时间以来都是类似搜索、贴吧等页面展现类服务。随着百度云、百度钱包这些新形态服务的发展,连带推动了一大波网络技术的迭代,这是一个各种技术不断出现又消失,逐渐趋于稳定的收敛过程,在这个过程里工程师需要投入大量精力去了解新技术并进一步判断技术的发展方向。

业务运维管理提升“质”感

杨兆江告诉记者,中兴通讯的数字化运维解决方案可以帮助运营商从传统网络向虚拟化、云化网络转型,从标准化向自动化,数字化转型。该方案充分运用AI技术和大数据平台,能够在随需而变的网络环境下,实时协调关键节点,实现在各类网络场景和网络切片下的跨域资源整合、数据深度挖掘、动态阈值调整、异常检测、数据可视化、RCA分析、智能调度、动态资源调度等,帮助运营商实现网络转型趋势下的快速平滑过渡和敏捷适配。

随着网络规模不断增长,变更和监控也变得更加困难。特别是架构和策略复杂的情况下,人工决策风险难以控制,考虑不周的变更会对整个网络造成影响。规模增长的同时,网络监控也在逐步失效。传统基于SNMP、SYSLOG的监控可以测量到一部分网络特征比如流量和协议状态,但是对于全网时延、丢包这些重要的网络特征无法监控,从而忽略了这些业务有感问题的监控。

中兴通讯业务运维管理服务能够为运营商带来怎样的运维新体验呢?

“我们将机器学习算法与基于大数据的运维数据仓库整合,接入不同业务系统、监控系统、管理系统的海量数据,并运用算法进行实时深度分析、学习和预测,向运营商提供运营决策支撑,帮助运营商在最大限度地降低成本、提高效率。”杨兆江告诉记者。

与此同时,网络工程师的个人发展也遇到了的挑战:

首先,有了端到端的指标评估体系,运营商就能以用户感知、业务质量的变化为驱动,主动提升运维行为的准确性。通过标准化的关键动作、输入物、输出物定义,精准定位现有运维模式存在的问题。同时,集约化运维流程,中兴通讯遵循从“优先级、自动化、提升空间”等科学维度定义的流程设计法则,对运营商现网流程进行整合和优化,从而构建出最为匹配的服务内容。业务影响与网络资源间的关联关系被打通,运维故障的定位和分析越来越智能化。

新特色展现的优势

  1. 技能存在短板,好想法落地困难。经常能遇到网络工程师有好想法,但是在项目落地的过程中只能依赖外部开发团队,排期和项目完成度较难控制,甚至因自己不具备
    coding
    能力,在前期的数据分析阶段项目就夭折。网络工程师coding能力的不足成了项目落地中的一个困难。
  2. 认可与理解,每天报警不断,家人不满意。故障处理速度慢,业务不满意。网络故障业务先感知,自己不满意。必须跳出救火式运维的套路,提高网络运维的能力和效率,让大家都满意,从而得到更多的认可和理解。
  3. 成就感和成长空间,项目无法快速落地,工作成绩不被认可,每天疲于奔命没有成就感,成长空间有限。如何突破个人的瓶颈?

同时,中兴通讯业务运维管理服务聚焦运营商当前最为关注的网络NPS管理,从用户近期网络体验的真实调研结果出发,主动去发现和解决影响用户体验的业务质量问题,为运营商提升用户忠诚度,增加市场收益。

业界有不少厂商都在发展数字化运维方案,中兴通讯的特色和优势是什么?杨兆江表示,中兴通讯建立了一个决策支撑中心,能够帮助运营商纵观全局,建立跨网建、网规、网优、一线、NOC、SOC等多个业务域,跨核心网、无线、承载等多个网络域的业务/成本/价值全景图。借助这个全景图,运营商可以从中可找到整个网络全生命周期里的可优化因素和最佳切入点,并对全局的资源调度做出决策支撑。

改变的最重要一步是根据实际情况建立合适的方法论,调整工作重心。下面给大家介绍百度网络运维这些年的变革和方法论转换。

中兴通讯业务运维管理服务不仅使用户体验、业务质量和用户忠诚度的管理变得可视、可控,还能提供价值网格管理、用户行为分析、终端综合分析等精准营销策略,帮助运营商识别潜在价值区域、价值用户的利润增长点,实现价值创造。

在系统层面,中兴通讯还建立了运维专属的数据仓库,基于网络基础数据和业务数据的深度分析,实现价值量化和可视化管理,并且深度协同各业务平台,以策略反馈的形式实现资源协同。

应急抢险

助力运维转型

据记者了解,目前中兴通讯正与多家运营商围绕数字化运维进行联合创新验证及应用。包括在混合网络的运维场景下,引入AI学习生成诊断规则库,通过使用RCA告警管理模块,实时获取故障及告警信息。当告警产生后,规则引擎会自动调用规则进行根因分析及故障诊断,同时关联工单系统下发维护需求。运维结束后,运维的有效性会反向修正、强化现有规则系统,进行自学习和自优化。与传统RCA分析相比,智能RCA分析在规则提取效率、闭环验证、持续优化等方面的优势更为突出,可以帮助运营商加速实现全网运维的自动化和智能化。

图片 4

“以用户体验为中心”的运维转型,是互联网时代的重大变革。运营商在这场变革中被赋予了新的使命:站在用户真实感知的角度去发现网络,管理网络和经营网络。

和绝大部分公司一样,百度网络运维团队早期最主要的工作是应急抢险。当年的网络是一个用商用设备组成的STP+VLAN大二层,除了有一些商用负载均衡设备外,同时还有一些服务器直接接入到公网。

中兴通讯业务运维管理服务,为运营商提供跨“网络层-业务层-用户层”的评估体系,业务质量和用户感知管理,经营分析支撑等一站式服务,助力运营商轻松实现运维转型,在互联网时代再创佳绩。

大二层带来的最明显的问题是广播风暴,08年某数据中心有4000多台服务器,在这个网络里面常态有1Gbps的单播泛洪流量,时不时还会有广播风暴。网络监控用MRTG做流量图、用正则表达式匹配SYSLOG做告警,工程师则拿着手机随时等着收报警短信。

局部优化

图片 5

第二个阶段开始做一些局部优化。此时网络架构由大二层改为三层,网关终结在TOR上,网络设备仍然是商用黑盒设备,开始自研负载均衡器等网络组件。网络运维团队在这个阶段的主要工作是联合开发团队做监控和自动化定制,同时在网络架构上做一些深度优化。

告警根因定位系统是当时的标志性项目。百度线上每天有几百万条原始日志告警,通过决策树推理聚合同一事件的日志,可以将告警收敛到几百个事件,今年的目标是告警量控制在每天100条以内。

另外一个例子是做OSPF路由优化。当时全网运行OSPF,在优化之前核心交换机上维护了6万条LSA,路由震荡频发,一次收敛需要1到2分钟。当时做了大量分析,花了几个月时间对全网OSPF整体进行了优化,包括协议定时器的调整、各种路由汇总等,做完之后核心交换机LSA减少80%以上,接入层交换机路由条目减少90%,路由收敛时间降低一半且故障不再频发。这里可以跟大家分享一下我们的经验,如果用OSPF来做组网,服务器规模没超过15万台前可以通过各种优化手段维持网络稳定运行。超过15万台后就需要从架构和路由上进一步优化了。

数据测量

图片 6

第三个阶段我们在做数据测量,也是最近这一两年我们的核心工作,此时的网络里运行有大量的自研交换机和NFV,DCI网络也有了一定的规模。右下角这张图简单描述了数据中心网络的结构,包括数据中心核心、集群核心等。大家可以看到整个网络里面,链路的数量非常多,如何知道每一条链路质量是什么样的,几乎是不可能的任务。再看上面那张图,黑色的大点可以认为是三个核心节点,其他小的是分布在不同城市的数据中心。每个节点到数据中心之间实际有几十条物理链路互联,两个数据中心间路径有上万种组合。在这种规模的网络中人工快速定位某条链路丢包几乎不可能,但这又是必须要做的事情。

面对了很多因规模问题造成的困难后,我们提出一个解决问题的思路,测量-优化-评价。

首先想办法测量你需要的数据,比如网络丢包率、时延抖动。拿到数据以后去做网络架构或测量方法的优化,同时建立评价体系去看是否已经优化的足够好。不断的重复测量、优化、评价这个过程,直到数据满足业务要求。

图片 7

举一个具体的例子,某数据中心出口有两条链路,主用的一条是时延较低,另外一条平时备份。从图里可以看到网络正常时延大概是在23毫秒左右,在故障的瞬间时延飙升,绿色曲线是网络中默认QoS等级的服务,故障更早影响到了这个队列。恢复期间也发生过几次链路切换,时延有抖动。当每一次抖动都是可以具体量化的时候,就可以轻松判断出来故障对业务有什么样的影响,乃至不同服务等级的业务能感知到什么现象。

网络质量监控的例子是我们内部协作的一种方法,即运维团队不直接开发,和开发团队一起协作达成目标。在网络质量监控项目中,网络工程师翻阅大量业界和学界的论文进行调研,向开发团队提出需求、给出测量方法、指导网络部署方案。开发工程师则聚焦在怎样去实现这种高并发的测量,如何用合适的算法计算具体哪些物理链路有影响,以及如何将最终结果呈现出来。最后这套监控系统除了能呈现整体丢包率和时延外,还可以通过端到端的测量,从数十万种链路组合中直接定位到发生丢包的是哪一条链路后节点。

能力建设

图片 8

2016年我们关注的方向叫网络能力建设,为了进一步提高运维能力,缩短网络能力落地周期,运维团队开始转向DevOps。网络最基本的能力是路由转发,除此以外DIFFSERV、流量调度、快速故障恢复是等能力。这些能力之前或者缺失或者分散在不同系统里,现在我们来填补空白同时整合能力。网络工程师要做的是去开发与业务逻辑强相关的内容,比如怎样做流量调度,怎么去做故障切换等。像ODL框架在线上应用的性能问题、容灾能力等问题则由开发团队去解决。

图片 9

谈到NetDevOps就有必要提下SDN。我们所理解的SDN是指在数据基础上根据策略执行动作,从而干预网络。

首先先看左边的图,两个数据中心间通信,常态下路由协议会帮你计算出来他们之间的访问路径,但当带宽突然少了四分之三,网络严重拥塞时应该怎么办?

我们的解决方案是网络工程师自己开发BGP控制器,
通过干预BGP属性和路由,在整个核心网的范围内疏导流量。开发控制器本身并不算非常复杂,更有挑战的是落地过程中遇到的大量需要网络工程师处理的细节,比如如何发现流量拥塞出现,如何选取调度路径,网络架构在非稳态下是否会造成调度失效,各个核心节点下发路由的顺序应该如何,哪些流量可以做调度,调度引入的时延增长是否会影响业务等等。这些细节需要网络工程师一点一点的去分析琢磨。

另一个是即将落地的项目,网络集群自动故障隔离。右图是一个CLOS网络,spine-leaf中间的连线可以多达上万条。这个项目的目标是当监控发现一组spine出现异常时,可以自动隔离故障区域。技术实现方面基于ODL整合监控和策略执行动作。这里有个特别的地方,是把现场操作工程师作为SDN的一个组件插入到流程里面,包括自动下发工单,提供清晰的操作指引和自动验证能力,反馈操作结论到流程等。这样争取在网络工程师不介入的情况下,做到故障自动隔离和恢复。

图片 10

DevOps知易行难,转型从铺垫到落地,花了大概1年半时间。

以前百度网络工程师主要来自银行、运营商和互联网企业,这些工程师有丰富的网络设计运维经验;校招的学生很多还没毕业就拿到了CCIE证书,了解网络协议和设备。但是这个团队里没有人是非常擅长coding的。为了进一步提高运维能力,缩短网络能力落地周期,在这种背景下我们开始了DevOps转型。配合转型,从管理策略到团队协作模式都需要做出相应调整。

  • 首先管理策略上要发生变化,明确告诉大家除了深度了解路由协议和网络架构设计外,转向DevOps是职业发展的一个好的方向。
  • 第二个是成员转型意愿非常强烈。尤其是入职一年两年左右的同学,因为招到的人本身素质非常好,都是来自于重点高校计算机或通信专业,本身有一定
    coding 基础,进一步提升
    coding能力并不是非常困难的事情。这样经过一年的培养和锻炼,我们终于有了一些能coding
    的CCIE!
  • 第三个难点是理清和其他团队的关系。特别是运维平台研发团队,要分清哪些是网络工程师应该做的,哪些是适合研发团队做的。网络工程师擅长的领域在设备、协议和业务逻辑,但涉及到平台级开发、算法优化等方面时,需要研发团队来一起实现。以前的合作模式是网络运维工程师提需求,现在的合作模式是网络运维和开发团队是一个联合开发团队。
  • 第四个是教练式辅导。让网络工程师写程序在起步阶段最难,我们聘请了资深的研发工程师对网络工程师从设计思想、实现方案到开发规范全方位辅导,大幅降低学习成本。

总结

图片 11

这些年百度网络运维思路和方法论上不断进行着变革,应急抢险、局部优化、数据测量、能力建设,这四个阶段也是方法论的不断转变的过程。在这个过程中,我们看到网络工程师的工作重心在不断调整,工作成绩和个人价值在也在不断提高。期待通过DevOps和自动化释放更多网络工程师的能量,在技术和个人成长方面取得突破,对业务发展提供更多帮助。希望百度的经验对大家有所帮助,期待与各位更多的交流。

【编辑推荐】

相关文章