今天在某乎上看到这样一个问题:"我朋友是运维,他说运维一天24小时必须在线,不能请假,周六周日有时还加班。运维这么恐怖吗?"
问题地址:https://www.zhihu.com/question/327993027
回答
整理了几个不错的回答,分享一下。
Harry Zhu的回答微软的解决方案:
1)在西八区(西雅图)部署一个团队,解决全世界各个项目在各个IDC的各种问题,下班点儿一到,人就都消失了;
2)在UTC时区(英国或者爱尔兰)部署一个团队,解决全世界各个项目在各个IDC的的各种问题,下班点儿一到,人就都消失了;
3)在东八区(上海)部署一个团队,解决全世界各个项目在各个IDC的的各种问题,下班点儿一到,人就都消失了;
你们公司:
1)半夜三点经理K完歌给你发条消息,看看服务有没有问题;
2)你睡着了没回,又收到消息:工作态度不端正,要学会做事先做人;
3)你还没有看到,电话来了,要开除你;
4)你赶紧爬起来,检查了一下,没事呀?回复一切正常。经理睡着了……
所以,
微软的 7x24 ,是三个时区的三个团队的8+8+8 ,一个时区上八小时,下班了,另外一个时区接上八小时,又下班了,第三个时区又接上八小时了。
你的 7x24,是你的7,是你的24,
然后,你到网上发表高论:做运维就是要7x24,一副经验充足过来人的模样!
丘丘人掷弹兵的回答炼钢的高炉也是全年不能熄火的,炼钢工人最晚1949年就实行八小时工作制了。
李明阳的回答他这话说一半啊。
运维是一个职业,是一个团队,而不是一个人。
7x24是运维这个职业的要求,小公司能有什么关键业务,用不上这个的。
大公司会有很大的运维团队,大家排班,所以单个人的工作量不会很大的。
我们公司的运维团队是全球的,大家只需要在自己的时区保证早八晚五即可。
唯一的缺点就是有串休,大约每个月会有两周的周末有一天上班,串休到下周的第一个工作日。
为了方便大家交接,运维系统都非常完善,基本上就在系统里操作就行了,都不用直接联系。
浪里说的回答你朋友应该说的是7*24 on call,这个是有要求的。但是不能算恐怖。为啥?
1. 有主备backup运维,可以相互顶下
2. 有值班制度,一个月有一个星期不用值班
3. 服务SLA要求,业务容灾能力有保障(挂了几个节点都不算啥事)
4. 团队文化,做更多“计划内的事”,不推荐一直做“救火英雄”
以我来说,下班后和周末还是有时间带娃。需要上线的时间就两个场景:业务提了紧急需求、业务出了灾难性告警。
但按一个月来说,不会超过3小时。
大海的欣的回答运维确实是一个24小时都在线,确实需要随时处理线上故障的岗位。
对于公司处于初期,资源有限的情况下,对运维不够重视或者投入不足的时候,是会出现这种情况。
即使出现这种情况下,说明运维工作还有很大的提升的空间。改善这种情况主要从两方面入手。
首先是技术方面。运维工作有很多开源成熟的方法论,可以提升运维的工作效率。同时成熟的开源技术可以解决一般公司80%的技术层面问题。
比如说网站访问量过高的问题,可以用高可用技术解决。数据回源造成数据库比例高,通过提高hit解决。前后端分离解决动静分离。中台解决API治理。等等问题,从技术入手,通过社区调研,大部分问题可以得到缓解甚至解决。
然而面对管理时,可能就不那么简单了,虽然SLA中有关于人员方面的要求和配备。还是需要具体问题具体分析,不能搞一刀切。
比如值班问题,至少是stand by状态,避免出现紧急情况没人响应。升级机制,避免问题被卡主,因为没有上升渠道,导致故障不能解决。备忘录📝机制的完善,避免出现问题无人问津的现象。
对于运维来说,无论是一个人,还是单独的小组或者部门,前期投入比较大,只要规则和模式跑通了,可以自行运转。慢慢的做好后期完善和梳理工作,应该不太需要太多的精力。
longinus的回答在某公司干过运维监控,岗位要求:7X24有人。
一岗多人轮班制,工作和休息交叉。只要协调好,可以凑三四天的假期。
十一我回家了,除夕夜我在值班。同事凑假期去泰国旅游。
运维就是这么恐怖。
普通人罢了的回答一般没有那么恐怖:
上班:白天正常上班,部分公司每周有固定时间(常见于晚上,少数在晚上12点之后)做变更。
值班:一般每天都有值班人员,在非工作时间用于处理紧急事件!无论是值班还是非值班人员,都需要手机处于24小时开机状态!
说说我的情况吧:
1. 周一到周五,朝九晚六正常上班,周末双休,偶尔加班。
2. 所有升级部署都是白天,晚上不需要做变更。
3. 每天都有值班人员,当出现严重告警时,监控中心会电话通知当天值班人员处理。当值班人员不方便,或者处理不了,会让其它同事协助处理下。夜里处理问题后,到达指定时间后,第二天可以休息半天或者一天。
4. 要求每个人家里的电脑能上网,保证能处理紧急问题。要求手机24小时处于待机状态,能接到电话。
沐风笔记的回答运维一天24小时必须在线,这句话有歧义。
运维说的是,『服务器』必须保持24小时在线且正常。外行听的是这个做运维的一天干24小时,不能睡觉。
实际上一家公司也不能只有一个运维,而且白天业务量大都不出问题,晚上业务量小出问题的概率就更小。
出了小问题可以不用管,出了大问题管你是运维还是开发还是测试,还是技术总监,谁都别想睡。