运维的缺失环
那套Exadata,是我们核心财务系统的库,而用过Exadata的朋友会知道,自带ilo访问的WebUI,是可以检查到硬件是否告警的。但是这个告警需要配置邮件或者其他监控才能让DBA收到。换而言之,这是整个监控环节的一个巨大缺失。
除此之外,在年底财务结算的时候,同样有一个问题,就是我们两个DBA都没有对Exadata做日常巡检,这个运维工作的缺失,同样也是不可推卸的责任。所以后来,我们在整个一个财年里,都在做一件事情,完善监控和巡检机制,尤其是在业务高峰阶段的巡检机制。
做一个运维岗位做久了,大家可能都会有倦怠,这是人性。日常告警多了,哪些是会自动恢复的哪些是需要人工干预的,心里都有数,但是有时候需要人工干预的参杂在里面,就容易忽略。日常的巡检,巡检不出来问题是绝大多数情况,那么有时候就会因为各种原因跳过某一天巡检。
往往日常事故,就是在这种不经意之间产生的,甚至有时候我觉得,运维的缺失环,在于整组人都进入倦怠期的时候,这时候该怎么保证。
统战价值的提高
然而后续的事态,却走向了我之前不曾预料的另一个方向,我日常工作被关注的程度大幅提高了,无论业务部门还是IT部门同事,没有因为我的工作失误去过多责怪,反而开始对我更加客气,甚至更多的主动拉近距离。
在这之前,我没有经历过因为我自己个人工作不到位导致的生产事故,我在自责和自我怀疑中尚未走出来的时候,这种巨大的反差让我一时之间无所适从。和朋友讲起这件事情,他却一语道破了本质:他们知道了你工作失误到来的破坏力,知道了你有统战价值。
不要总是站在DBA或者数据库从业者视角去看其他岗位,一个企业大部分人都不了解,DBA有多大破坏力。那么DBA工作失误带来的影响有多大,同样也不知道。一旦这层纸被捅破了,那么大家也就知道了,原来DBA的工作这么重要。
有点黑色幽默或者地狱笑话,但是这又是一个尴尬的事实。做得足够好,大家没有经历过事故,就不知道DBA的重要性,日常忽略DBA。做得不够好,经历了事故,大家意识到了,才会关注重视DBA,但是这个事故搞不好也让DBA丢了工作。
最终让我意识到,统战价值不是你能生产什么,而是你能破坏什么。这个破坏力对周围的人影响范围越大,你的统战价值就越高。