关切数据主导NFV质量

确保数据中心性能管理的关键

了解您企业IT基础设施的性能无疑是一项相当艰巨的任务。事实上,人们往往感觉IT专业人士就像是侦探小说一样,需要侦查并探索其所在企业系统和基础设施只是为了了解最基本的性能问题。企业的IT团队对于其数据中心的性能问题往往缺乏全面的,完整的整体性把控,因此必须拼凑出不同的线索。每套基础设施堆栈的每一层均有其自己的一套线索,而由于缺乏对于整个数据中心环境的整体视图把控,IT人员必须推断各种不同的线索会引导得出什么不同的结论。而随着数据中心基础设施变得更加复杂,上述各种线索变得更加难以分析和解读,因此数据中心的稳定可靠的性能也就很难实现。

图片 1

数据中心的复杂性增强的其中一个因素是:尽管相关的基础设施和设备已经过时,但其并没有消失。那些资金预算紧张或人员有限的企业仍然在继续采用着这些传统的遗留系统、在新设备上的分层并试图将新旧两种系统整合成一个连贯的系统,以维持企业的继续经营。这样的系统结合使用的情况下,企业业务部门对于可用性和性能的要求和期望比以往任何时候都高,所以,此时企业的IT专业人士在受到业务部门的寻求全面的可见性方面的质疑,也就不足为怪了。简单来说,这是由于相关设备的可用性信息与实际性能之间存在的一定差距所造成的,这种差距导致了企业团队之间互相信任度亦受到影响。

来自过去的线索:您企业的传统遗留设备所传达的信息

几十年前,在20世纪70年代和80年代初,大型主机是最早的“云计算”。只有最大的企业才能采用这些系统,其高昂的成本和所需的具备专业技能的技术专家是小企业可望而不可即的。

然而,由于主机是一个专有的“封闭系统”,那些具备了专业知识和数据的企业需要确保最高级别的性能和数据的可用性,这也使其成为了那些负担得起这笔高昂投资的企业所能获得的高附加值。技术基础设施的下一步发展是客户端服务器的问世。但他们属于经典的“开放系统”,缺乏大型机的急性管理能力。正因为如此,这一变化迎来了企业系统管理(ESM)解决方案的出现,其提供了一定程度的容量能力和配置管理,但缺乏对于整个系统性能的可视性。

快进到今天,当虚拟化已然成为数据中心的标准而无处不在。ESM和网络性能监控(NPM)技术在过去几十年内已经在很大程度上成为无关紧要、用途有限的技术,作为堆栈的现代层,其每一个都由不同供应商提供的,由此创造了一个异构的环境:有内置的、特异性层的管理工具。尽管有了这一集成整合,可视能见度间隙却进一步拉大,因为这些工具不能有效地实现彼此之间的沟通,并且鼓励异质性,甚至使得系统组件之间的合作水平更低。

过去的状况如何影响今天数据中心的性能

无论数据中心的IT专业人员发现自己监测的内容是什么,IT应用基础设施演变所导致的机会是非常有限的,具有挑战性的性能管理与设备特定的工具监控部分是整体基础设施的基础组件。不同的,孤立的系统经常会导致出现同样孤立且互无交流的IT团队,而这一问题继续恶化即形成了性能差距,因此需要一个侦查团队以发现和破译相关性能问题产生的原因。而且也所面临的挑战是如何满足业务部门需要解决的复合性需求,以满足客户不断增长的期望并继续投资新技术。随着IT团队员工数量增长停滞和IT预算蜗牛般的增长速度,数据中心需要一个新的解决方案来解决所需要的信息和实际可获得的信息之间的鸿沟。

那么,IT团队怎样才能确保他们能够监控到企业整个环境中所发生的一切呢?包括从存储阵列和堆栈,并了解整个系统的性能?此外,IT团队如何能够得到他们所需要的实时洞察,以确保性能问题能够被尽早的识别并在早期得到缓解?对于这一级别的洞察需要性能管理解决方案,以监视端至端系统的操作,其中包括存在于数据中心的现代技术旁部署的传统技术。

通过全系统的可视性获得性能保证

现如今,任何企业所收集的数据量均成倍于以往任何时候,而且这一数据量及其复杂程度还在继续增加早已经不是什么秘密了。我们已经进入了大数据的时代,企业的IT团队才刚刚开始处理这一数据流,并防止大规模的数据量影响到系统的性能。企业已处理的数据有相当长一段时间了,特别是对于那些选择增加新的设备来替换其传统遗留系统的企业,正面临着大数据所带来的挑战,因为他们需要寻求利用过去的系统来处理当前所收集的这些数据信息。

在过去,企业用户依靠服务水平协议(SLA)在存储或服务器层向服务供应商提出在堆栈中的性能要求承诺。如在数据中心中的传统遗留系统,这种方法的SLA已经不再足够。性能保证需要涵盖整个IT环境,由于基础设施的一个组成部分也可以影响到企业提供给客户的服务,甚至可能会损害企业的声誉。

提供性能保证的关键要从对于企业当前的系统为何存在的理解开始。IT团队所采用的并不是最新的设备或正在考虑构建恰好满足他们需求的新的基础设施,但这并不意味着现有的基础设施就全是一文不值的。相反,在企业内部侦查各个基础设施性能状况的团队成员必须通过对各种IT组件的拼凑,获得对于企业整体基础设施情况的掌握。其次,IT团队需要继续转向侧重于最终用户,其中既包括企业的员工和客户。获得能够解决上述两大需求的性能,将有助于企业业务的成功。第三,IT团队应寻求性能监控解决方案,提供对于IT应用基础设施的与供应商无关的视觉观点。这种方法将使团队对于分别由不同的供应商所提供的各种基础设施组件有全面的理解,进而促进与业务部门的协调工作。通常情况下,最好通过引进外部专家支持这种水平的可见性。最后,IT团队需要坚持将SLA纳入到整个基础设施堆栈,而不仅仅是一个组件。每件系统的连接都是错综复杂的,所以对它们进行隔离,并实施不同的SLA已经不再有意义。

在流行文化中,侦探有引人入胜的任务,通过将各种线索拼凑在一起追查罪犯和破案。虽然我们可以欣赏文学或在电视上侦探的吸引力,但IT专业人员应该需要摆脱他们工作的各个组成部分,专注于自己的工作的关键环节,这样,性能管理就将不再是侦探小说一类的东西了。


图片 2


了解您企业IT基础设施的性能无疑是一项相当艰巨的任务。事实上,人们往往感觉IT专业人士就像是侦探小说…

对于数据中心来说性能优化指标很重要,高性能机房数据中心的建设是我们的目标,现在数据中心对于企业来说重要性不言而喻,而数据中心的结构有许多种类,例如拥有刀片服务器架构的优点就十分明显了,而拥有超融合基础架构的好处也包含很多方面,数据中心性能优化指标与高性能机房数据中心的正确建设还是需要慎重考虑的。

随着电子信息技术的发展,各行各业对数据中心的建设提出了不同的要求,根据调研、归纳和总结,并参考国外相关标准,从数据中心的使用性质、管理要求及重要数据丢失或网络中断在经济或社会上造成的损失或影响程度,将数据中心划分为A、B、C三级。

网络功能虚拟化(NFV)显然在逐渐兴起,全球运营商的生产部署量日益增加。运营商正在寻求创建灵活的,以软件为导向的拓扑,可以按需提供服务并降低运营成本。从数据中心的性能角度来看,存在一个问题:在云端和企业数据中心工作的传统IT虚拟化方法无法实现经济高效的支持运营商所需的以I/O为中心和时间敏感型的工作负载。

对于业务正在稳步增长的企业组织而言,公司当中数据中心的重要性是非常明显的,而为了提升数据中心的性能,企业客户往往有三种方法可以实现服务器的升级或更换。而在本文中,我们针对刀片服务器架构、融合基础设施和超融合基础架构进行综合对比,希望能够有助于您企业搞清楚哪种选择才是最适合您企业的。现代数据中心的目标旨在简化硬件平台,同时提高运营的灵活敏捷性。直到最近,企业的IT团队已经通过使用刀片服务器架构实现了这一点,但是,在这些系统中所包含的存储的压力则又导致了超融合基础架构的兴起。

数据中心分级

NFV,顾名思义,涉及将网络功能从网络设备中抽离,并以软件来实现。工作负载和网络资源可按需调整,这种即时供应服务方式在运营商中有着显著地上升空间,消除了网络功能必须存在于硬件设备中导致的“服务敏捷”矛盾与过度供应的资源库。但是有一个棘手的难题破坏了这个美好的蓝图:数据中心的性能问题。

而由于超融合基础设施架构和一系列的刀片服务器都能够为企业提供更加精简的计算,因此使得企业组织可能难以在两者之间进行选择。在选择之前,重要的是要看清两种系统的属性,同时以各自所能够为企业带来的益处,并进行很好的权衡。

数据中心的使用性质主要是指数据中心所处行业或领域的重要性;管理能力是指数据中心管理单位对数据中心各系统的保障和维护能力。最主要的衡量标准是由于基础设施故障造成网络信息中断或重要数据丢失在经济和社会上造成的损失或影响程度。数据中心按照哪个等级标准进行建设,应由建设单位根据数据丢失或网络中断在经济或社会上造成的损失或影响程度确定,同时还应综合考虑建设投资。等级高的数据中心可靠性提高,但投资也相应增加。

图片 3

图片 4

图片 5

NFV数据中心要求

刀片式服务器架构与超融合系统的比较

符合下列情况之一的数据中心应为A级:

在传统的虚拟化IP数据中心,服务器需要相互通信。运营商需要支持数据中心的数据包处理和转发,并从数据中心到另一个地方进行实时服务,其NFV的需求与企业大有不同。运营商需要“5

在不到20年的时间里,刀片服务器已经发展到包括交换机和存储设备了。在通常的情况下,一款刀片服务器的配置包括了在热插拔背板中具有一组并排计算刀片的载体单元,具有冗余电源和一对开关模块。当驱动器刀片可用时,大多数刀片服务器要么没有托架要么提供一组驱动器托架让所有刀片共享。由于包装紧凑,CPU功率仅限于性能较低的CPU.电源和空间也限制了动态随机存取存储容量。

电子信息系统运行中断将造成重大的经济损失;电子信息系统运行中断将造成公共场所秩序严重混乱。

NINES”的可靠性和正常运行时间,并为业务服务提供严格的SLA、语音和视频等实时服务,不能存在抖动,延迟和丢包。新的基于NFV的服务(如按需带宽和虚拟防火墙)也不能容忍延迟

例如,需要以毫秒为单位检测到网络攻击。换句话说,NFV基础设施需要更加稳定和快速。

IHS Markit媒体与电信云数据中心研究实践技术顾问、资深研究主管Cliff
Grossner表示:“在IT世界中,架构的建立都是以传输路径拥塞为前提构建,一旦发生数据拥塞,需要确保不影响工作负载的前提下实现快速故障转移。而在运营商NFV方案中,架构的设计目标旨在避免故障和延迟。如果存在服务器或软件中断、数据平面减速或宕机,则必须重传所有数据包,导致网络拥塞和服务中断。”

图片 6

虚拟化性能损失

虚拟网络功能(VNF)在虚拟机的虚拟CPU中消耗了大量资源,导致性能的损失。支持vCPU,vMemory,vStorage等所需的庞大处理量会大大减慢程序的速度,小型的数据包给I/O系统提高线速吞吐量的带来了更大的压力。换句话说,传统的运营商硬件是愚蠢但有效率的;
相比之下,虚拟基础设施是聪明但缓慢的。

显然解决这个问题的方法是提高处理能力,但是成本效益分析表示,虚拟机在服务器上占用容量,这意味着更多的x86服务器,更多的存储,构建或租用更多的数据中心空间,并雇用更多的人来管理它们,计算和存储基础设施的成本可能超过初始操作的节省量。

为了使成本最小化,其中一个方式是使VM尽可能密集。许多用户还实施容器化,将更多的计算工作负载压缩到单个服务器上,但密度越大,由于拥塞和大量的处理而导致性能下降的可能就越大。

Gartner数据中心融合副总裁兼杰出分析师Joe
Skorupa表示:“运营商数据中心基础设施必须考虑到可扩展性和基础设施的成本 –
这意味着可以实现最高的容器和VM工作负载密度。但实际情况是,虚拟交换机(vSwitch),整个软件堆栈从未针对I/O性能进行优化。”

Intel在其技术简介之一中坦言:“如果没有非常周密的部署配置,基于虚拟化的解决方案可能带来很大的不确定性:可以要求完成某些工作,并且成功完成,但是大家都不会确定时候可以完成。”

虽然存在隐性的影响性能的问题,但这些问题可以通过相应的技术来解决,以保证数据中心的性能。

加速进入NFV

解决性能问题的一种方法是CPU固定,涉及在特定主机的特定物理CPU(pCPU)上运行特定虚拟机的虚拟CPU(vCPU)。将vCPU与硬件耦合可最大限度地减少处理时间,调度在同一处理器上执行的进程可通过减少诸如高速缓存未命中的性能降级事件来提高其性能。

但这存在一个问题,Grossner表示:“这需要创建到网卡的直接连接,消除了vSwitch从而消除了性能低效。但问题是,如果企业采取了这样的方式就无法真正实现虚拟机的迁移,这就有悖于用户进入虚拟环境的目的,即将应用程序和功能实现轻松迁移。”

具有加速功能的智能网络适配器和网卡(NIC)使得运营商能够从vCPU卸载功能。这些功能可以通过芯片上的更有能力的系统(SoC)在网卡上实现,使得堆栈上留存容量增多。

Grossner表示:“数据包处理变得越来越重要,我们看到FPGA进行编码,处理CPU内核的协议,防火墙以及进行其他类型的处理。我们预计运营商将大量投资于具有比通常由企业购买的适配器更高的ASP的可编程NIC。”

运营商当然愿意为可编程NIC支付更多的费用,虽然这意味着每个端口的成本大大提高,但获得的回报是可以从更昂贵的CPU中卸载功能。

将数据平面开发套件(DPDK)与Open
vSwitch(OVS)结合使用可以获得更好的I/O性能,以释放更多CPU资源。DPDK优化数据包接收操作,消除Linux网络堆栈中的多个中断,上下文切换和缓冲区副本,以实现数据包性能的多重改进。OVS还利用DPDK库来绕过虚拟机管理程序内核并提高数据包性能。

另一个方式是使用加速器,它可以构建在NIC之上,使得整个vSwitch或分布式虚拟路由器(DVR)操作的重要部分卸载到该NIC。Mellanox营销副总裁Kevin
Deierling解释说:“通过这些加速器,你可以获得十多倍的NFV性能突破。在已经有防火墙的情况下,如果受到了DDoS攻击可以将恶意数据包丢弃。如果您想在数据中心的NFV应用程序中尝试这样做,那么每秒钟就会有数百万个数据包。一旦它开始丢弃恶意数据包,CPU将会拒绝任何请求操作,并中断服务。通过作为网络中数据路径操作的一部分的智能网卡,它能够在恶意数据包进入CPU之前加以判断并丢弃恶意数据包。它可以查看数据包,作出决定,并在网络中触发CPU之前采取行动。”

Skorupa指出,将vSwitch的性能提升10倍将实现整体服务器资本支出减少90%,将从根本上实现NFV的经济性。在可预见的未来,运营商将采用大胆的方法来解决数据中心的性能问题。

他说:“优化,资本成本和绩效需要在一个维度上进行研究。PoP中有很多不同的工作负载,有路由,安全网关,边界会话控制器,防火墙,3G/4G,WAN优化,为这些搭建通用的基础设施将是一个挑战。得益于Intel和AMD的最新芯片,您可以插入加速器卡和DSP以实现多种功能,获得用于路由和优化的灵活堆栈。”

【编辑推荐】

超系统来源于传统机架式服务器,并且倾向于遵循这些单元的1U模块化。这些系统将存储平台和服务器相结合,使其本质上没有区别。虽然传统存储需要大型硬盘驱动器阵列来实现足够的性能,但是今天的基于SSD的设备通常只有8到12个SSD固态硬盘,包括与服务器主板基本相同的商业化的现成控制器。

A级数据中心举例:金融行业、国家气象台、国家级信息中心、重要的军事指挥部门、交通指挥调度中心、广播电台、电视台、应急指挥中心、电力调度中心、大型工矿企业、邮电、通信、网上支付等行业的数据中心和重要的控制室。

超融合基础架构和刀片服务器架构之间的关键区别在于,在超融合系统中,存储已联网,然后集中以创建巨大的虚拟SAN.诸如软件定义的基础架构等新兴的创新进一步推动了这一点,即存储池和连接设备的网络由虚拟管理软件自动进行虚拟化和控制。这允许基于HCI的云的租户在没有中央IT干预的情况下,就能够使用脚本和策略对其配置进行增减。

符合下列情况之一的数据中心应为B级:

如何借助刀片服务器创建超融合基础设施

电子信息系统运行中断将造成较大的经济损失;电子信息系统运行中断将造成公共场所秩序混乱。

鉴于刀片服务器和超融合基础架构之间的主要区别是软件,那么,认为一款刀片服务器架构就可以用作超融合基础设施是合理的吗?毕竟,在一个紧凑的打包中,它们具有存储、网络和计算的所有元素。

B级数据中心举例:一般企业、科研院所;高等院校;博物馆、档案馆、会展中心、国际体育比赛场馆;政府办公楼等的数据中心和控制室。

使用刀片服务器创建超融合基础设施没有真正的技术障碍。但是,要确定哪种选项最适合创建一款混合云,则需要参看其他标准。由于服务器、网络和存储技术的发展迅速,因此,重要的是从技术上检查当前的每款产品。配置灵活性与之密切相关,因为没有一处数据中心
能够一蹴而就的完成一款完整的混合云的整合。故而包含变更和更新的系统是必要的。

以上为A级和B级数据中心举例,在中国境内的其它企事业单位、国际公司、国内公司应按照机房分级与性能要求,结合自身需求与投资能力确定本单位数据中心的建设等级和技术要求。

由于典型的服务器将至少需要两台本地SSD才能运行,故而配置会对存储需求产生强大的影响。最好的情况可能是安置更多的驱动器,这允许数据冗余和网络共享。超融合系统可以处理此问题,但目前的刀片服务器通常每台服务器都具有单个驱动器,有时较少,并且仅依赖于通过串行连接SCSI(SAS)连接的一堆磁盘来扩展容量和驱动器数量。

而不属于A级或B级的数据中心应为C级。

数据中心性能优化指标成本因素

在同城或异地建立灾备数据中心时,灾备数据中心宜与主用数据中心等级相同。当灾备数据中心与主用数据中心数据实时传输备份,业务满足连续性要求时,灾备数据中心的等级可与主用数据中心等级相同,也可低于主用数据中心的等级。

成本问题归结于刀片机箱和罐的专有性质。这些是价格昂贵的产品,并请务必记住杯供应商的锁定的影响是相当强大的。专有的刀片服务器排除了直接竞争,同时也减慢了新版本的驱动器和网络接口卡的采用。随着创新的迅速发展,这会导致更多的问题。

同一个机房内的不同部分可根据实际情况,按不同的等级标准进行设计。当数据中心的某项外部或内部条件较好或较差时,此项的设计标准可以降低或提高。例如某个A
级数据中心,有三路供电电源分别来自三个不同的变电站,三路电源不会同时中断,则第三路电源可以作为备用电源,此数据中心就可以考虑不配置柴油发电机。总之,数据中心应在满足电子信息系统运行要求的前提下,根据具体条件进行设计。

对于数据中心性能优化指标与高性能机房数据中心来说,我们需要做的抉择还有很多,尤其是对于细节来讲更是如此,关乎我们的数据中心安全。

数据中心性能要求

【编辑推荐】

A级数据中心的基础设施宜按容错系统配置,在电子信息系统运行期间,基础设施应在一次意外事故后或单系统设备维护或检修时仍能保证电子信息系统正常运行。

A级数据中心涵盖B级和C级数据中心的性能要求,且比B级和C级数据中心的性能要求更高。意外事故包括操作失误、设备故障、正常电源中断等,一般按照发生一次意外事故做设计,不考虑多个意外事故同时发生。设备维护或检修也只考虑同时维修一个系统的设备,不考虑多系统的设备同时维修。在一次意外事故发生后或单系统设备维护或检修时,基础设施能够满足电子信息设备基本运行需求。

A级数据中心同时满足下列要求时,电子信息设备的供电电源可采用不间断电源和市电电源相结合的供电方式。

设备或线路维护时,应保证电子信息设备正常运行;市电直接供电的电源质量应满足电子信息设备正常运行的要求;市电接入处的功率因数应符合当地供电部门的要求;柴油发电机系统应能够承受容性负载的影响;向电网注入的总电流谐波含量不应超过
10%.

在保证可用性的前提下,降低数据中心总体拥有成本(TCO)。电子信息设备属于容性负载,柴油发电机系统应能够承担容性负载的影响;当电子信息设备产生的电流谐波超过
10%时,应进行谐波治理。

当两个或两个以上地处不同区域的数据中心同时建设,互为备份,且数据实时传输、业务满足连续性要求时,数据中心的基础设施宜按容错系统配置,也可按冗余系统配置。

这是A级数据中心的一种情况,主要适用于云计算数据中心、互联网数据中心等。当两个或两个以上在同城或异地同时建立的数据中心互为备份,且数据实时传输备份、业务满足连续性要求时,由于数据中心之间已实现容错功能,因此其基础设施可根据实际情况,按容错或冗余系统进行配置。

B级数据中心的基础设施应按冗余要求配置,在电子信息系统运行期间,基础设施在冗余能力范围内,不应因设备故障而导致电子信息系统运行中断。B级数据中心涵盖C级数据中心的性能要求,且比C级数据中心的性能要求更高。

C级数据中心的基础设施应按基本需求配置,在基础设施正常运行情况下,应保证电子信息系统运行不中断。

【编辑推荐】

相关文章