数据中心运维管理是一项关键、枯燥、高重复性的工作。面对数据中心的高速发展,传统的运维管理方式正面临着人力成本高昂、管理手段落后、管理效率低下等困境。随着物联网和数字智能技术的逐渐成熟,我们发现:物联网和数字智能技术正在深刻改变数据中心现有的运维方式和运维流程,将彻底释放数据中心的所有潜能。      

一、数据中心运维整体发展趋势分析

全球数据中心发展重心正从规模化建设向精细化运营转变。

随着亚马逊、微软、阿里、腾讯、华为、中国移动、中国电信等巨头的进入,国内云服务市场竞争加剧,各云服务商在市场拓展的同时会持续降低运营成本。

华为云&大数据产品线总裁马力在《智能运维,云数据中心运维的未来之路》一文中指出,未来的云数据中心运维必须:

提高运维效率:虚拟化技术和众多开源技术的引入使得运维变得越来越复杂,传统人工运维模式处理速度慢、出错概率高。此外,传统人均50~100台设备的维护效率,在大规模云化环境下,需要投入大量人力。

保持低运营成本:传统IT的资源使用率通常小于20%,在云化后资源使用率有所提升,但是个性化、按需弹性需求导致资源碎片化、负载不平衡以及扩容规划不精准,可能会造成整体资源利用率并没有达到规划目标,运维成本居高不下。

硬件即插即用,定期下线:随着数据中心规模的增长,手工为主的硬件识别与安装方案将无法支撑资源的快速上线、扩容与下线。通过即插即用技术,只需要使用低技能人员将设备上架、上网和上电,运维系统就会根据该硬件的预期状态自动化完成端到端硬件系统的部署和上线;与此同时,通过云化隔离技术,硬件出现故障时也不再需要立即解决,只需让低技能人员定期替换即可。

由此可见,不管是从上层业务运行的实际需求来看,还是从数据中心运营商自身竞争的需要来看,更高的运维效率、更低的运营成本将是数据中心运维技术发展的最主要和最直接的驱动力。 

 二、数据中心运维技术发展的历史与现状

1、阻碍数据中心运维技术快速发展的历史原因

尽管数据中心的运维如此重要,但长期以来,相关运维的技术和手段仍然比较落后,“重建设,轻运维”成为行业普遍现状。甚至在很多人眼中,运维=酷炫的UI界面+超大拼接屏。

数据中心的运维,尤其是基础设施运维长期以来之所以未能得到大规模的普及,笔者分析主要以下原因:

技术落后,早期基础设施运维软件多来自UPS、空调等设备厂家,他们采用动环(动力设备和机房环境)管理的理念。厂家大多对IT类设备缺乏了解,相关技术也主要来自运营商对通信机房的运维要求,明显滞后于IT技术的发展;

观念落后,早期IDC管理脱胎于电信运营商的“机房维护”思路,偏重于设备安全和日常维护,对资产(ROI)的价值认识不足,做不到精细化运营与管理;

需求不明显,早期机房数量规模较小,人工维护成本低,运营管理团队采用自动化管理方式的意愿不强烈;早期机房设备种类不多,运行业务简单,管理的复杂程度不高;早期数据中心本身并未成为社会生产与生活的核心,故障后造成的损失也较低;

系统架构简单,早期IT系统,普遍采用“烟囱式”架构,底层硬件与运行业务深度耦合,业务逻辑和物理逻辑有对应关系,故障后容易查找,定位简单,可以快速进行维修;

除此之外,还有国内长期以来对软件价值的低估,用户需求不明确带来的设计变更附加成本等。正是因为以上这些原因,在大型云数据中心出现之前的“互联网1.0”时代,智能运维技术和实践一直未得到用户普遍的重视。

 2、目前的现状:数据中心数字化、精细化、自动化运营已形成行业共识。

随着大型数据中心的增多,云计算相关技术的成熟,数据中心运维技术也日益受到大家的重视。究其原因可以归纳如下:

物联网技术发展成熟。物联网技术在物流、安防、智能工厂等领域的广泛应用推动了相关技术的成熟。而数据中心处于“灯下黑”状态,大多数机房设备仍然处于手工+表格处理的“哑设备”管理状态,数字化连接的价值没有真正发挥出来。物联网技术在数据中心的应用将进一步激发和挖掘出这些设备资产的价值;

CT机房互联网/物联化趋势。受互联网影响,“数据中心云化”“软件定义数据中心”成为主流技术发展趋势。而传统CT的维护理念,也逐渐向物联网化的运营理念转变,精细化、自动化、智能化管理成为新需求。如某运营商对运维机器人的引入、互联网自建数据中心对人工智能技术的引入、对U位级资产管理技术的实践等。

市场需求快速增长。近年来的数据中心逐渐呈现“两极分化”趋势:即中型数据中心快速减少,一方面超大规模数据中心不断出现(云数据中心需求),一方面微型数据中心快速增长(边缘计算需求)。对于超大型数据中心,服务器规模动辄数万甚至数十万台,人工方式的资产管理已无法满足实际需求,急需自动化的管理方案;对于小微型数据中心(多是企业分支机构、连锁商超等行业用户),又大多缺乏专业运维人员,对易安装、已维护、可实现远程无人化管理的运维技术也有迫切需求。

云数据中心架构变化带来的影响。云计算技术的出现,使得传统的“烟囱式”IT架构被打破,计算、存储、网络统统变成了资源池,上层应用和IT硬件实现了解耦。弹性获取,随需扩容、灵活应用成为业务层面对IT资源的主要诉求。这对IT硬件的影响主要有两方面:IT硬件的重要性下降(数据有备份),更换升级等操作更加频繁(坏了就换),在数据中心的全生命周期内,IT硬件资产管理的工作量大幅提升(同一U位可能不同时间段安装不同设备运行不同程序),依赖人工已经很难管理。

人力成本快速升高。据统计,中国60岁以上人口已超过2.41亿人,我国已全面进入老年化社会,劳动力成本上升是所有企业都要面对的问题。而数据中心的运维工作责任重大,通常涉及到多个领域学科知识,对人员技能和素质要求都比较高。“人力成本太高”(一线城市)、“招不到人”(二三线城市)成了很多运维主管头疼的问题。

其他因素,比如电信运营商利润下滑,传统IDC大户对能够降低运营成本(维护人力、电费等)的技术兴趣浓厚;各设备厂家的持续发力,对智能化基础设施的概念推广(主要体现在自动化运维、U位级精细化资产管理等方面);全行业数据安全意识的提升,导致越来越多用户(尤其是高端用户)对其IT资产安全的更加重视(自主可控、去IOE、国产化等要求),IT设备的变更、定期盘点、自动告警受到重视。

 三、从“运维”到“运营”的观念转变,省钱才是硬道理

如上所述,数据中心的运维工作日益受到业界的重视,各种新技术也层出不穷,那么什么样的运维技术才是好技术,如何进行评判呢?笔者认为,只有真正能为用户创造价值的技术才能获得认可并实现规模化应用。换言之,能省钱(甚至赚钱)的技术就是好技术。    

的变化,是在数据中心从“企业成本中心”向“企业生产中心”转变的过程中,运维人员必须经历的观念转变过程。那么,什么样的数据中心才是好(可靠又省钱)的数据中心呢?抛开“风火水电”等基础设施的架构不谈,仅从运营的层面来看,笔者认为需要考虑以下问题:

1、资产盘点问题:资产繁多、管理复杂

数据中心涉及多种产品和设备,对运维人员技能要求较高。同时资产管理和盘点工作浪费运维人员大量时间,造成数据中心运维人力开支居高不下。

2、容量管理问题:管理粗放、盈利困难

对很多运营型数据中心来说,因规模较大,人工管理方式难以根据用户的设备数量、功耗、制冷等要求及时查询到合适的安装位置,造成业务不能及时上线,为企业带来重大损失。数据中心租赁市场竞争日趋激烈,粗放的管理模式造成运营成本过高,市场竞争力下降,侵蚀投资者利益。

3、故障定位问题:故障定位、维护困难

随着数据中心重要性的上升,由数据中心故障带来的企业损失也逐渐升高,所以故障恢复时间变得至关重要。但传统数据中心,采用人工管理方式,一旦出现故障需要花费大量时间进行排查(大型数据中心服务器规模高达数十万台)。运维人员80%时间都花费在定位故障上面,效率十分低下。

4、资产安全问题:U位级物理安全难以保障

因数据安全等因