谷歌、脸书、推特接连宕机,天灾还是人祸?

162 阅读4分钟

图片

相信这几个月你一定经历过这样的场景:打开浏览器,点开收藏夹里常用的网站,结果网站 502 了,一脸懵逼,觉得是不是自己的网又挂了?打开新的 tab 根据你的年龄,敲了 163 或者百度的网址,发现居然连的上,顿了两秒才发觉原来 google/facebook/reddit/twitter 真的挂了。

图片

2019 年的夏天,对于互联网圈来说简直就是一部代码版的昆汀塔伦提诺电影,虽然大家只是坐在桌前敲着键盘,没有飞舞的血浆、武士刀、深沉的内心独白和稍显平庸的谩骂,却仍然彰显着独特的暴力美学。

让我们来细数一下这几月挂掉的“大佬”们有哪些:

图片

不仅仅是服务供应商,就连老牌 CDN 加速服务商 Cloudflare 也不能幸免,在 7 月 3 日由于服务器超载经历了大规模宕机。据统计,全球有超过 9% 的网站在使用 Cloudflare 的服务,有超过数千个热门网站受此次故障的影响导致不能访问。

图片

CODING 作为企业研发管理解决方案的供应商,在吃瓜的同时,也来给大家大胆分析一下这一波各大厂服务抽风的原因:

1. 软件复杂程度

随着技术的革新和新服务的增加,软件应用的复杂性和精美程度已经达到了一个前所未有的高度,并丝毫没有刹车的迹象,这导致了即使是全球最优秀的技术公司也没有办法维持高稳定性。

2. 容量溢出

互联网基础设施具有周期性效应,每当一个周期的末期都会因为服务体量接近基础设施的极限从而造成不稳定因素,需要新的基础设施技术来解决,比如我们从拨号上网到光纤时代的过渡。

3. 因为夏天了,大家都去度假了

国外公司的福利制度比较好,一直有度假的惯例,尤其是到了夏天。一波工程师出去度假后,他们的工作会被分配给其他人,由于接手的人不熟悉业务或者熟练度等原因造成了服务不稳定。

4.实习生接锅

毕业季一到,会有大量的新入职员工和实习生加入,可能由于各种原因导致新人写的糟糕代码更新到了生产环境并造成了大量破坏。

5.实习生接锅 Ver.2

还是因为有大量新人加入到公司里,需要很多资深工程师给予指导,但是人的精力是有限的,很多工程师把精力分给新人后导致写代码的时间变少了,因此导致服务不稳定。

6.阴谋论

可能是被某些黑客组织拿来练手了。

7.玄学

水逆了。

玩笑归玩笑,服务的稳定性已经成为数字化时代企业的生命线,而维护业务正常运作,保障系统稳定性的重担也落在各个公司运维工程师们的肩上,所谓运维无小事,服务不停歇,运维不休息。

7 月 21 日本周日,CODING、腾讯云、腾讯 TEG 技术工程事业群将共同举办首届腾讯运维技术开放日活动,旨在分享和交流腾讯内部在运维方面的实践经验,打造腾讯内部与外部共同交流、共同进步的运维技术生态。本次活动将邀请四位在运维及 DevOps 方面有丰富经验的演讲嘉宾,为大家分享他们对运维工作,以及在新时代下关于运维发展的独特见解,共同打造一场运维盛宴。

活动时间和地点

  • 时间: 2019 年 7 月 21 日

  • 地点: 腾讯滨海大厦北塔 3F 多功能厅

  • 报名方式:点击此处报名参加活动

  • 活动福利: 20 日前转发本文至朋友圈,在活动当天签到时出示朋友圈转发,即可获赠 CODING 周边小洋葱猴一只。同时集满 30 个赞还将获得 **《构建之法》**书籍一本。

期待大家的到来!

图片