ITBA运转大数目建设方案

随着UMTS/LTE等业务的迅猛发展,IP
RAN已经成为分组承载的主流技术选择。同时,分组化网络的运维给运营商带来巨大的挑战。网络运维需要提供基于图形化操作模式,并具备全面高效的管理能力。华为基于网络IP化需求,提供端到端可视化的U2000融合运维解决方案,全面支撑网络设计、网络部署、业务发放、日常监控等端到端环节,实现智能高效、简易运维。

现状

随着运维精细化要求的日益提升,企事业单位需要积累更多的能力辅助智能化运维场景和策略,实现更多管理途径的扩展。异构化环境的复杂化,导致企事业单位用户对数据分析的要求越来越高。借助海量的运维数据优化改进当前工作方法,建立在大数据分析基础上的智能化运维时代已经来临。

摘要

现在 SaaS
的发展势头已经无法抵挡,只要持有企业信用卡,任何人都可以顺利部署
SaaS
工具,并借助
API,在短短几分钟内连接其他重要应用。并且开发者掌握了许多自动化快捷处理方式——比如说
Application
Insight
应用部署和 Mobile
Insight
移动应用测试——这极大地节省了推出新应用程序的时间。然而,很多管理应用程序和基础设施的旧方法以及无法跟上
SaaS 发展的步伐。

图片 1 

•小公司/ 创业团队< 500台服务器规模

勤智ITBA将大数据技术与运维管理系统无缝结合,对运维过程中产生的大量数据进行关联挖掘、周期预测、行为学习、规律分析等,为用户提供更加精确且符合企业业务的解决方案,提前定位和预知各类故障,从而进行趋势预测、业务分析和多角度评估。

力控科技基于工业物联云平台的智慧维保管理系统,可以助力泛能网及公用工程运维单位进行互联网+产业升级,提供运营优化、预测性维护、设备智能化升级等系统运维服务。

因此,企业转而采用各种专业监管工具——比如
Nagios

Zabbix

Solarwinds
和 AWS
CloudWatch
——
旨在获取对堆栈不同层次的深刻认识。遗憾的是,这些工具难以实现交互的工作方式。各种监管工具的告警便层出不穷,数量之大,几乎让你分不清信号和噪音。

一、网络设计,自动智能

开源方案:Zabbix、Nagios、Cacti…

传统的运维,通过各类运维工具或网管软件来实现日常管理,数据格式各不相同,告警内容及规则各异。勤智ITBA运维大数据能够将各个独立分散的系统进行整合,并提供标准接口。运维整合,体现在数据的采集、分析、汇总、处理、总结、预案等几个层面。

平台将分散的业务场景通过工业云集中统一管理,同时赋能传统设备物联网化,助力企业上云,完成企业数字化和智能化的转型。

如何在噪音中准确寻获信号?

对于运维团队来说,只是单纯的获取告警其实是远远不够的,因为我们得到了太多的告警。事实上,源源不断的告警只会培养运维团队无视告警的能力(无法否认这是事实!)。当噪音很大时,你容易将不常见的信号也当成噪音。这可不是好事。

因此,运维团队需要智能的整体解决方案和可操作数据的解决方案,这样不仅能自动处理超出人工可处理范围的任务,还能在收到可操作告警后知道该如何处理。

图片 2

2016运维团队所需解决方案的5个关键因素

为实现以上功能,结合告警平台的已上线的功能,以国外的 BigPanda 和国内的
OneAlert 为例,整合了运维团队需要的解决方案应该包括的 5 个关键因素

  1. 时间。运维团队需要掌握实时动态。比起容易过时的快照,运维团队需要轻松地掌握实时动态。但是,快照的优势在于能够让你比较今天和昨天甚至是前一周的数据,OneAlert
    最多可提供 1 年的存储数据服务。

  2. 告警等级。如果你识别不了哪一个告警是最重要的,你就不知道轻重缓急。一般分为严重、警告、提醒三个等级。

  3. 告警类型。针对告警目标和内容的关联度及事后影响,了解告警发出的真正原因,从而确定告警类型。

  4. 自动化和集成。当我们无法解决告警的时候(可能是不擅长处理该类问题,还可能是没有时间处理!),我们可以在集成的工单系统中提交工单,对一些简单的可自动化处理的问题,可以直接自动化处理,如重启服务器等。OneAlert
    非常重视相关模块的开发。

  5. 剖析大蓝图。今天的 IT
    基础设施并不存在任何孤岛。一个应用的告警是其他应用出现问题的信号。运维团队需要了解每一个
    IT 难题怎样串联在一起,又是如何相互影响的。剖析大蓝图必不可少。

综合以上 5 个因素,可以总结出提高运维团队维稳效率的 2
个关键因素:时间洞察力和补救时间。

二者之中,时间洞察力更为重要,这个过程耗时越长,企业宕机时间的成本就越高,生产力损失就越大。你有足够的信心去洞察吗?你知道如何才能解决问题吗?原有的监控工具忽略了补救时间的重要性。但是,请记住,如果我们无法衡量它,我们就无法改善它。因此,不断改进是运维团队紧跟时代步伐的唯一方式。

OneAlert
是北京蓝海讯通科技有限公司旗下产品,中国首个
SaaS
模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问
OneAlert
官网 。

本文转自 OneAPM
官方博客

华为的运维解决方案支撑自动、智能的网络规划和设计,通过Unistar
CFG工具,能自动生成BoQ, 然后,可以把BOQ信息导入到Unistar
Designer可视化工具里面,自动进行IP地址分配和拖拽式拓扑设计,输出规划设计表单。

云服务提供商:监控宝、oneAlert等

勤智运维以“让运维更智能,让业务更高效”为理念,在业界率先提出基于运维大数据的智能化解决方案,通过OneCenter平台中的ITBA运维大数据分析系统,帮助运维人员预防故障发生和快速解决故障,也可为运维决策提供预测依据。

方案概述

通过Unistar
Designer设计工具,网络的拓扑设计效率可以提高到以前24倍,网络的IP设计效率能提高到以前的3倍。

•BAT级别> 10万台服务器

ITBA运维大数据的价值

力控智慧运维解决方案依托力控工业云生态体系,基于力控工业云实现数据治理和智慧服务的结合,平台从“设备监控、维保服务、优化运营”等环节来提升相关设备的全生命周期管理和相关服务能力。

最后,把规划设计表单导入到U2000,并在U2000选择定义好的模板,定义网络的一些基本参数,例如,特定的路由协议,通过U2000的LCT组件,就能智能地生成每一个设备的基础配置脚本。

投入大量的人力,内部自研,与业务严重耦合没法作为产品推出

01、作为统一运维监控的工具,可以采集各家数据,将非标准数据变为标准数据。

其中,力控工业物联网关完成设备数据采集并通过物联协议将数据上传到工业物联云平台中。平台提供Paas层服务,可独立部署在云环境,完成从物联数据的采集、处理、
存储、分析、应用等多个层面。顶层处理工业多样化的海量数据并形成可视化分析,通过AI+来完成智能工厂的调度与现场级的智能优化。

有了智能的规划设计工具,设计人员不再需要高超的IP技术,同时自动化的计算将设计人员从繁重的专业劳动中解脱出来,采用基于仿真界面拖拽的方式,即可实现,而且更加高效准确。

•中间阶层

02、提炼系统运行过程中产生的数据,进行数据检索,做日志分析。

设计目标

二、网络部署,即插即用

无从可选

03、对数据进行深度挖掘和智能分析,从海量离散的数据中提取和分析各类客户关注的指标和内容。

通过工业物联网和云平台的智能服务强调数据驱动,在此场景下,人、产品、系统、资产和机器之间建立实时的、多角度的通讯和数据共享。

即插即用直接决定着建设工期的长短,也决定着运营商能否抢占业务发展先机。做好规划设计后,在华为U2000的支撑下,设备可以即插即用,平均每台的部署时间缩短为5分钟。当需要增加新接入节点的时候,只需要普通工程人员携带设备到站点,安装设备,连接光纤,加电,运维中心即可管理该设备,并实现基础配置自动下发。整个过程只需要进一次站,为高质量快速交付提供了保障,有效降低设备开局进站成本。传统命令行方式,每部署一个站,需要平均30分钟以上,耗人耗时。

 

ITBA运维大数据解决方案

借助物联网,企业持续感知客户的需求,在传统的产品之外衍生出新的产品和服务模式,开辟全新的增长空间,推动业务增长,制造业的运营模式和竞争力会被重新定义。

移动基站插花式部署,导致接入网变动频繁,华为U2000运维方案2分钟可完成一个站点业务的调整,是MSTP网络调整效率的4倍。

早期,选用Zabbix

ITBA运维大数据分析系统内部整合了Hadoop、Speak、Kafka、MongoDB、Solr、Flume等多种大数据架构技术,提供多种类型数据接口的采集方式,实现多平台/多业务的监控、流程等运维工具的数据整合和统一管理。同时,提供对于其他业务平台的数据展现、数据统计、告警分析和业务分析功能,可以将多个系统在门户内进行统一登录展现;也可以与其他系统对接,从第三方系统登录至运维系统平台。

通过企业数据智能化的驱动,企业会持续优化生产流程,提高运营效率。

三、业务发放,可视简单

•Zabbix是一款开源的企业级监控系统

图片 3

系统架构

移动承载时代,快速发放业务,就意味着能够快速盈利,同时,还要考虑传送背景的维护人员的转型压力。华为提供业界最高效的解决方案,可进行全可视化、可管理的业务部署,可以在3分钟完成一个节点的业务部署,比传统命令行方式,效率提高到5倍。网管生成的业务路径和状态,可以清晰的展示出来,所见即所得,直观高效。

•对其进行二次开发、封装、调优…

运维大数据平台架构

图片 4

四、主动监控,实时全面

•为什么选择Zabbix

OneCenter 运维大数据-应用方案

功能特点

通过主动监控,U2000可以列出整个网络最繁忙的链路,以及链路的占用比例,运营商可以根据链路的繁忙情况,提前考虑下一步网络规划。

•Cacti

图片 5

1、 全国性综合调度,基于“一张图” 的管理驾驶舱

通过主动监控,U2000还可以分区域,监控网络KPI指标,当网络KPI指标出现劣化趋势的时候,运营商可以提前发现,并解决问题,帮助客户有效监控网络质量情况。

•Collectd

运维大数据应用方案

全域生产动态可视化,基于全维度数据实时在线监测,包括运行参数、环境参数、过程参数、能耗能数、状态信息进行分类展示,运营情况一目了然。

五、故障定位,快速高效

•RRDtool

OneCenter 智能健康评估-评估指标

图片 6

U2000基于对业务的深刻理解,提供告警相关性分析功能,可以过滤85%到90%的无效告警,直接定位故障,提高故障定位的效率;同时,U2000还可以基于可视化路径快速定位故障,通过输入源宿地址,自动发现业务路径,一键操作,即可快速定界故障。为减少客户损失,快速排障做出了极大的贡献。华为运维解决方案平均10分钟完成一个故障定位,也远快于传统命令行的1个小时每故障定位。

•Nagios

图片 7

2、 维保实时在线管理、降低运营难度

总体上来说,U2000网管系统从设计思路上屏蔽了IP的复杂性,以直观图形化操作方式,继承SDH维护经验,提供一致的操作体验,在维护全生命周期中,能实现远程调测免进站、即时发现质量劣化
、快速定位故障、简化的调整流程
、E2E可视开通、批量模板化配置等操作,是运维人员不可缺少的维护利器。

•openTSDB

OneCenter智能健康评估-智能健康评估对象

现场故障处理情况在线跟踪管理,促进现场人员更好执行岗位职责,降低人员工作难度,提升设施安全水平,处理结果自动生成档案记录,便于管理人员进行分析与评估。

RAN已经成为分组承载的主流技术选择。同时,分组化网络的运维给运营商带来巨大的挑战。网络运维需要…

 

图片 8

图片 9

Zabbix实践思路

智能监控评估对象

3、 远程设备管理与预测性维护

•测试ZabbixNode

系统提供多种数据接入方式,除传统的数据接口方式接入外,还提供文件批量导入、网络端口同步、数据库脚本抓取、Kafka通道监听等多种便捷的接入方式,也可录入告警数据、性能数据、日志数据、工单数据等不规则格式的动态数据,以实现运维数据的海量存储和集中化检索分析。

从设备接入、运行监控、资产管理、数据可视、能耗优化、设备数据预知分析等环节对远程设备进行全生命周期的管理与运维。

•Zabbix代码优化

OneCenter 智能分析挖掘-相关性挖掘

基于物联网获取的设备运行特征信号,通过工艺大数据技术构建设备故障的自动诊断算法与模型,自动诊断设备故障情况,实现快速的设备故障定位。

•使用模式优化

1、相关性挖掘

图片 10

•独立部署多套Zabbix,通过API整合

基于运维健康评估结果,深层次挖掘引起问题发生的设备及指标之间的内部潜在关系,寻找问题根源及解决方案,以防止故障再次发生。

4、 实时监测及告警管理,提升运维安全保障能力

 

指标故障关联性分析(同时发生概率)

对设备状态,参数数据进行预警报警配置,对多参数报警植入算法,系统实时监测设备数据变化、诊断分析,对超过设定的预警和报警阀值的设备或参数实时产生报警信息,支持按需订阅报警,通过邮件、手机短信等信通知相关责任人,也可根据报警信息触发相应业务工单,及时通知相关维护人员。综合提升与保障设备安全。

Zabbix遇到的问题

指标运行相关性分析(运行趋势正负相关性)

5、 数据有效挖掘,能耗统计分析

•随着公司业务规模的快速发展

故障根源分析、故障影响分析

对总能耗、分项能耗按日、周、月、年、任意时间段的能耗统计、同比、环比、趋势预测;对各区域能耗总量按各时间段的占比、排名统计;对分项能耗占比、排名统计对重点设备排名分析。

•用户“使用效率”低下,学习成本很高

2、周期性挖掘

6、 巡检维护在线管理,延长设施使用寿命

•不具备水平扩展能力,无法支撑业务需求

基于相关性分析结果,深层次排查引起问题相关性指标的潜在发生规律,预测未来可能出现的问题时间范围及解决建议,以便提前做好预防措施。如寻找指标高峰区间、故障发生频率的等差数列。

基于设施全面数据的实时监测,设施异常及故障历史情况全面掌握;根据历史数据及设定条件,维修保养工作流自动生成与定时提醒;维修保养过程执行在线跟踪、记录与评估。实现计划性维修及预测性保养,消除大面积盲目定期大修与保养的大量无效人工,效果更加保障,延长设施寿命。

•告警策略的维护、变更代价太大,导致运维人员深陷其中,无法自拔

图片 11

7、 物联设备与平台运维,保障运维系统的高可用性

•不利于自动化,不利于与运维平台等基础设施整合

OneCenter 智能分析挖掘-运行风险预测

平台实时对物联网关动态数据监测,网关心跳监测,对网关掉线情况进行报警。


图片 12

平台对网关在线率进行统计分析,并且记录网关在线时长,记录故障次数等信息。

Open-Falcon

OneCenter 智能学习处理-自动学习及处理

平台可以对网关工程上传或下载,远程调试网关工程,提高工作效率,节约维护成本。

Open-Falcon是小米运维团队设计开发的一款互联网企业级监控系统

图片 13

客户价值

•提供最好用、最人性化的互联网企业级监控解决方案

OneCenter 运维大数据应用场景-大数据日志分析

创建设备运维大数据分析服务,通过大数据分析技术对设备系统运行数据动态远程监控、分析和预报警,为设备系统正常运转以及全面生产提供安全保障。

•项目主页:

图片 14

持续改进服务质量,基于云计算的运维服务以各种监控、告警、日志、报告服务工具为依托,实时掌握设备运行状态、出现的问题和处理情况,通过后端远程技术支持,加快反应时间。

•Github:

OneCenter 运维大数据应用场景-业务系统健康分析

降低运维成本,通过上述主动运维、故障预警和远程技术支持等方式,尽量将问题消除在萌芽状态,通过大数据分析,准确匹配备品备件库存,大幅降低运维成本。

•QQ讨论组:373249123

运维大数据系统提供构建运维指数评估分析的模型,根据历史数据变化规律,挖掘业务、指标、故障等关联信息,为用户真正建立一套完整的运维数据分析和数据挖掘展现平台。通过运维大数据系统,用户可以轻松管理全网各业务资源状态、告警及运维和资产,并根据数据分析模型了解运维工作整体情况和资源运行使用情况,为用户运维工作优化和IT业务发展提供依据。

通过平台对能源大数据管理和分析,为能源系统提供客观数据,优化能源系统结构,合理、高效使用能源,并提供节能降耗的数据支撑和管理措施,通过能源管理产生效益。

•微信公众号:OpenFalcon

聚焦业务系统长期运行变化数据,自动化学习构建业务个性化健康标准。

为用户提供设备产品运行绿色在线监测、故障诊断与预警服务,
研发运行在线监测、故障诊断与预警系统,建立智能设备运行和状态评估模型,初步建立相应的评估算法和标准,实现锅炉状态的多参数综合监测分析,实时反映锅炉的运行状态。

 

定期“体检”,及时发现业务系统潜在“短板”,可能影响业务的“亚健康”设备。

社区贡献

360°全方位通过相关性、周期性等挖掘算法,协助排查影响健康的问题指标根源。

•交换机监控

OneCenter 运维大数据应用场景-IDC业务流量分析

网络流量流向分析:对指定对象进行基于IP地址定位的流量流向分析。

•Windows监控

业务违规分析:对IDC接入客户使用IDC带宽从事非法转接以及搭建VPN业务进行分析。

应用协议分析:针对各类应用流量进行统计分析。

•Agent宕机监控

图片 15

主要特点

•Redis/memcached/rabbitmq监控

Hadoop+Spark大数据分布式架构,支持T级以上数据存储计算

运维数据上下文搜索,排查定位问题发生的前因后果

•MySQL 监控方案

跨数据故障关联分析,提升对故障精确判断能力

运行周期性规律预测,摆脱传统“救火式”运维模式

 

动态预警基线自学习,减少繁琐的人工阈值设定

典型案例

海量应用日志监测,彻底消除运维排查的“盲点”

美团

自动化建立健康标准,及时发现“亚健康”设备

•生产环境广泛应用,1万+agent

•集成服务树、支持ping监控、多机房架构支持、报警第二接收人支持

•正在开发openTSDB接口、query增加正则功能

赶集

•深度定制,用于大数据部门平台服务监控与自动运维,生产环境已上线

京东金融

•深度调研open-falcon

•正在开发测试drrs(一种分布式的time series data 存储组件)并适配falcon

 

内部 

图片 16

agent
•负责机器数据采集
•自发现各项监控指标
•发送数据给transfer
•发送心跳信息给hbs
•执行自定义插件
•业务数据不要用插件采集!
•数据收集采用推还是拉的方式?

transfer •对接收到的数据做合法性校验
•转发数据给graph和judge
•为什么要做这个统一的接入端?
•为什么要对数据做分片?
•数据分片方案,用一致性hash还是路由表?

judge •对接收到的数据按照阈值进行判定
•达到阈值的数据产生相应的event
•触发式判定or 轮询?
•为什么要使用内存?

graph
•操作rrd文件,对数据进行存储和查询
•将多次操作合并后再flush磁盘
•将要flush到磁盘的数据,打散到每个时间片,降低IO消耗
•为什么用rrd而不是opentsdb之类的?

hbs
•提供接口给agent查询机器所需监控的端口、进程、要执行的插件列表等信息
•接收agent汇报的状态信息并写入数据库
•缓存用户配置的告警策略
•为什么要用hbs缓存策略列表?

query

•利用一致性hash算法,查询多个graph的数据并汇聚
•需要使用与transfer相同的hash算法及配置

各web端
•Dashboard负责绘图、展示、仪表盘等
•Uic负责管理组合人的对应关系
•Alarm-dashboard负责展示当前未恢复的告警
•用户在portal中配置告警策略
•Portal中的hostgroup一般是从CMDB中同步过来的!

Aggregator 目标:集群监控
•针对某个hostgroup的多个counter进行计算
•分子:$(c1) + $(c2) -$(c3)
•分母:可以是$# 或者数字或者$(d1) + $(d2) -$(d3)
计算结果
•封装成一个metricItem,再次push回open-falcon
为什么这么实现
•归一化的问题解决方案
•复用整个open-falcon的绘图展现、告警逻辑

Gateway——跨数据中心

图片 17

接驳服务树(CMDB)
•开源服务器管理组件(服务树)
•监控对象通过服务树来管理
•服务器进出节点、监控自动变更

历史数据高可用
rrd-on-hbase
•绘图数据存储在hbase中,解决高可用的问题
•历史数据提供更详细粒度的查看
drrs(@京东金融)
•Distributed Round Robin Server
•面向中心公司,轻量级的历史数据存储方案,解决数据扩容的问题

智能告警
同比、环比
•Dashboard数据展示支持同比、环比
•告警判定引入同比、环比作为参考
动态阈值
•通过对历史数据的学习,生成动态的告警阈值
关联分析
•精准告警
•故障定位

SDK
七层
•Nginx
•统计cps、200、5xx、4xx、latency、availability、throughput
语言支持Java/C++/PHP/Python
•内置统计每个接口的cps、latency
•内置统计业务关注的指标的能力
框架支持
•resin、spring、flask…
统计类型
•Gauge/ Meter / Timer / Counter / Histogram

云监控
•服务端Host在公有云上
•无需客户安装、运维服务端
•支持namespace隔离、quota限额
•从根本上对不同用户的数据进行隔离
•优化监控的添加、管理、查看流程
•提升用户体验、提高用户使用效率

其他
•Callback功能增强,推进故障自动处理
•插件的管理支持多种方式(不仅限于git)
•Dashboard 增加用户登录认证
•告警排班/ 告警升级(@金山云)


Open-Falcon部署实践
•初始阶段
•所有的组件部署在一台物理机上即可
机器量级~ 500
•graph、judge、transfer三个组件拆分出来部署在1台服务器上
机器量级~ 1000
•graph、judge、transfer 增加到2~3个实例
•query拆分出来,部署2个实例
•dashboard 拆分出来部署
机器量级~ 10K
•graph、judge、transfer 增加到20个实例,graph尽量使用ssd磁盘
•query增加到5个实例
•dashboard 拆分出来,增加到3个实例

 

希望对您运维管理有帮助。


以上内容部分来自网络, 希望对您系统架构设计,软件研发有帮助。
其它您可能感兴趣的文章:

构建高效的研发与自动化运维
互联网数据库架构设计思路
移动开发一站式解决方案
某大型电商云平台实践
企业级应用架构模式N-Tier多层架构
某企业社交应用网络拓扑架构图
IT基础架构规划方案一(网络系统规划)
餐饮连锁公司IT信息化解决方案一

如有想了解更多软件研发 , 系统 IT集成 , 企业信息化,项目管理
等资讯,请关注我的微信订阅号:

图片 18

 

作者:Petter Liu
出处:
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
该文章也同时发布在我的独立博客中-Petter Liu
Blog。

相关文章