大家好
我是一名工作了十年的IT运维经理人。
说起IT运维工程师很多人的印象是背起双肩包奔赴在不同的客户现场进行着IT的救援工作。

其实我们更真实的样子是这样:
“全年无休”
“7*24小时随叫随到”
“全方位出击,第一时间排除故障”
但做了10年运维工程师的我认为运维的核心价值真的不仅仅在事后救援层面。
就像扁鹊三兄弟的故事:
魏文王问名医扁鹊说:你们家兄弟三人,都精于医术,到底哪一位医术最好呢?
扁鹊回答说:大哥最好,二哥次之,我最差。
文王再问:那么为什么你最出名呢?
扁鹊答说:我大哥治病,是治病于病情发作之前。由于一般人不知道他事先能铲除病因,所以他的名气无法传出去,只有我们家里的人才知道。
我二哥治病,是治病于病情刚刚发作之时。一般人以为他只能治轻微的小病,所以他只在我们的村子里才小有名气。
而我治病,是治病于病情严重之时。一般人看见的都是我在经脉上穿针管来放血、在皮肤上敷药等大手术,所以他们以为我的医术最高明,因此名气响遍全国。
这段关于医术与治病救人的故事,蕴含着值得深思的运维之道。
人们往往只看到在事态严重时,力挽狂澜的那个人,认为他是最厉害的,而对于事态严重之前,把问题扼杀在摇篮里的人却不以为意。
如果把扁鹊对兄弟三人医术的评价看成日常运维,那么运维过程中既需要扁鹊的事中解决,更需要扁鹊大哥的事前预防与二哥的事中解决,需要灵活运用三方面的能力来切实保证企业IT设备的正常运行。
IT运维中,事后控制不如事中控制,事中控制不如事前控制。控制的就是风险,事后控制、事中控制、事前控制三者是不能相互替代的,否则就会走到另外的误区。
我在运维岗位工作10年有余,经常反思自己的运维过程是否防患于未然。
举一个工作中遇到的真实案例:
某公司在日常巡检方面并不是很在乎,对于文件服务器也从来不做日常检查,在去年一年的时间里,频繁出现死机,对于死机后的服务器也是重启后接着用,在年底做一个大项目时,服务器彻底崩溃了,以至于项目直接中断。
年后在找到我们后,我指出了之前运维过程中的不足,很明显这些故障大多是可以在日常巡检中规避的,因为对于巡检的不重视,对公司造成了极大的损失。
前段时间,我把上半年的运维报告拿给他们的负责人与之前的故障数据做对比,今年上半年的故障率降低了43%,而且,在巡检过程中,多次发现问题,直接将潜在风险扼杀在了摇篮里。
简单来说日常巡检对于企业业务的提质增效起了很大作用。
如果我们能够把运维的日常巡检看作天气预报,可以提前预报可能到来的暴风雨,可以提前获知潜在的风险,并且把被动式故障处理变为主动式的风险预防,那对于企业来说,发现故障的概率就会缩小很多,运维的价值也就发挥到了最大。
