疫情当前 数据中心机房要不要在家办公?
数据中心虽然是高技术密度,低人力密度的行业,但终究离不开人的维护。从某种角度说,数据中心对人力的需求也是非常大的。包括调试、运维等等,都需要有工程师长期在现场工作。
虽然智能运维、无人运维在数据中心行业是多年的热门话题,但实际情况上推进并不理想。甚至在各大核心城市严控数据中心建设的今天,位处城区办公室的运维人员驱车百里,去郊区甚至临近城市的机房做现场运维已经成了常有之事。
然而在2020年春天,由于一场疫情,数据中心的无人值守需求再次紧迫起来。
无人值守一直是“趋势”
从数据中心这个设施出现起,人就是这个精密的高科技体系中最不稳定的因素。根据一项2013-2018年期间的调查显示,人为失误是导致数据中心宕机的第二大原因,占相关事件总量的24%——占据第一位的是电源故障,占比25%。
可以说,数据中心行业一直在想尽办法降低人为失误造成的损害,用各种系统、智能的方式来替代人工操作。但无数年过去,除了在一些宣传稿中反复出现,无人值守在数据中心领域依旧是一个人人叫好,却鲜有施行的“趋势”。
目前看来,数据中心不仅是技术密集型行业,也是“经验密集型”的工作。很多数据中心故障需要富有经验的运维人员来查找、定位、解决。不同的数据中心,也有不同的特性,往往需要运维人员日积月累的关注每一个子系统的运行,并对机房设备关联熟念于心,才可能在故障发生时,第一时间进行解决。
虽然数据中心的监控设施日益完善和丰富,远远超出了人能感知的范围,但庞大的体系,混沌的系统影响,依旧让纯粹依赖数据来判断问题所在存在很大的困难。甚至有些问题,和数据表现并不相关,呈现一种“玄学”状态。
实际上,这一切问题的根源依旧是技术能力的不足。
从在家办公到无人值守
安全、稳定,一直是数据中心行业的首要原则。这也导致了很多超前的新技术得不到验证。比如液冷,比如智能巡检,比如无人值守等等……特别是无人值守,最大困难其实来自人的自身:不放心。例如Uptime Institute建议无人值守数据中心需要一到两名工作人员留守,以支持TierIII级或Tier IV级数据中心设施的安全运行。
在测试液冷时,运维工程师会围绕在服务器周围,观察每一个细小的变化,及时解决每一个出现的问题。测试智能巡检时,工程师会跟在机器人的身后,监控路线,核对每一个数据的准确性。而无人值守,就真的“无人”了。
但是这一次,意外的疫情导致各大数据中心人力不足,必然要加大对监控设备、智能控制、远程控制等技术的应用,并就此积累丰富的实践数据。
当然,这一次可以说只是一次“远程”运维尝试,而且会配合当地的运维人员——数据中心为了保证平稳运行,节假日期间都是有值守人员的。并且在疫情期间为了更好的支持服务,很多数据中心已经开始恢复正常的运作。
要真正走到无人值守,不仅仅需要人的离开、增加监控维度、加强智能化设备,更重要的是以IT设备为中心,而不是以人为中心来建设全新的数据中心,届时数据中心将有全新的面孔和特性,相比如今的数据中心将更加具有优势。
一、环境优势
虽然说人为失误是数据中心故障的主要罪魁祸首,但反过来,数据中心对人类也并不友好。数据中心的不同设备所需的温度不尽相同,并且充满了噪音、气流,对人体来说并不是适宜的环境。脱离了人类管理的数据中心,可以完全按照IT设备的需求设置环境温度,甚至沉到水中,或者为了防范火灾充满某些气体等,这些环境是人类无法生存的。
二、空间优势
我们经常看到超大数据中心的新闻,如果仔细看就会发现这些数据中心之中,除了机房设备,还配备有种类繁多的配套空间,其中人员办公、休息场合往往占地庞大。就算IT设备房间内,也需要为人员通行、设备检修等留下足够的空间。甚至在高标准的数据中心,宽敞的走廊和大厅已经成为了一种炫耀资本。但实际上,这些空间可以认为是被人的需求浪费掉了。以IT设备为核心的数据中心设计,将更加高效的利用这些空间,提升数据中心的设备承载能力。
三、效率优势
虽然24*7是现在数据中心服务的标配,但实际上任何人的服务都是有一定的响应时间的。加上沟通信息损失、人为判断失误,甚至懈怠、懒惰等情况,人工值守的反应时间离“即时”这个要求还差得远。未来的无人值守机房,必然加大智能化处理,或者通过机器人来进行日常运维以及故障排除。
可以说,无人值守确实是未来,但需要更强有力的推进和更深入的技术探索。对于数据中心的运维工程师来说,无人值守也不意味着失去一份工作。丰富的运维经验,对于研发和生产无人值守机房所需的设备一样是宝贵的财富。这将是一次真正的数字化升级,面对的不仅是数据中心产业,也是整个以数据中心为基础的数字化社会的升级。