宕机超 12 小时,损失过亿,唯品会基础平台负责人被免职!

d65ef10ac982ce10479c30750569597d.gif

整理 | 朱珂欣   

出品 | CSDN程序人生(ID:coder_life)

对于后端程序员来说,“高并发”并非新鲜的话题,经历过一次服务器宕机,职业生涯才“完整”。

但如果事故超过 12 小时,或许会直接造成职业生涯“宕机”!

3 月 29 日,#唯品会崩了#的话题登上热搜。 

昨天,事件后续来了。

唯品会发布了关于 329 机房宕机故障处理公告:此次南沙机房重大故障,影响客户达 800 多万,判定为 P0 级故障,对负责人予以免职处理。

a3566f1abd1dbd923d880b8fb6acead2.png

9f471d32bc3304a0f369f143406390a4.png

“崩”上热搜:损失超亿元,持续12小时

说起来,一切都还要追溯到 3 月末。

3 月 29 日,有多名网友反馈唯品会“崩了”,用验证码登录时显示网络错误,登不上去。

随后,唯品会官方微博表示:因系统短时故障,导致主站“加购”等功能或出现异常。

b7b804b3c92ce92bf5a7929055848d22.png

图源:微博截图

时隔 2 个多月,唯品会官方对故障事件做出了回应。

据悉,此次南沙机房重大故障的主要原因是南沙 IDC 冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。

故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万,公司将此次故障判定为 P0 级故障。( P0 属于最高级别事故,比如崩溃、页面无法访问、主流程不通、主功能未实现,或在影响面上影响很大。)

与此同时,唯品会认为此次事故暴露出容灾应急预案和风险防范措施不到位,并决定对此次事件严肃处理。对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。

其实,类似 329 号机房宕机的事故并非首次发生。

但毋庸置疑的是,唯品会作为拥有大量用户的电商平台,服务器和网络设备的正常运行至关重要。任何一次宕机事件,都会导致平台无法提供正常的服务,因此,每一次故障背后的原因和影响都值得大家思考,并引以为戒。

9496cae33d8871eb07ab07a674f3ca92.png

腾讯旗下社交软件受到“牵连”

同样值得注意的是,受到此次机房事故影响的还有微信、QQ 等腾讯旗下社交软件,包括微信语音对话、朋友圈、微信支付,以及 QQ 文件传输、QQ 空间和QQ 邮箱在内的多个功能无法使用。

bd2bb58ec29b932296761b809712e9fd.png

图源:微博截图

对此,腾讯微信团队在 3 月 29 日上午发布信息称:“今天凌晨部分用户使用微信、微信支付相关功能出现异常,经工程师抢修,系统正在逐步恢复,很抱歉给大家带来不便。”

与此同时,腾讯内部对此事件的评估为“一级事故”,并对几名高管进行了不同程度的批评、降级和和免职处罚处理。

64bce414a5fa365a6937ca2d382ecfff.png

高并发引起的服务器宕机,频繁发生

随着直播电商平台的发展,用户数的增多导致高并发的概率增大。

近年来,各大平台、热门 APP 的服务器,都似乎难逃卡顿、崩溃乃至宕机的宿命。

2017 年双十一凌晨,在数百万消费者的激情涌入天猫之际,出现了大量手机淘宝、手机天猫的用户无法付款和修改地址,订单、足迹、收藏夹、红包卡券等异常问题,直到 12 点 30 分,天猫的服务器才恢复正常。

2021 年 10 月 20 日晚上,就在淘宝电商大促“双十一”刚开始之际,不少用户发现淘宝出现了客服聊天窗口消息发不出、不能点确认收货等诸多问题。随后,#淘宝崩了# 话题迅速登上微博热搜榜,并占据榜首第一。

如今,即使互联网相关技术已经迭代多轮,却仍然存在许多大规模以及时间长的宕机事件发生。

针对这类问题,在 CSDN 之前报道的《“一天宕机三次”,为什么高并发这么难?》一文中提到,可以从两个方面进行解析:

  • 一方面故障是不可避免的,有人为的故障(人是容易出错的——Human Error)和非人为的故障(机器 Failure)。这些是无计划的停机,还有有计划的停机,如发布新系统、升级维护、更新硬件等。这也是为什么行业中即使部分公司做得再好也只能说自己能做到多少个 9,而非 100% 的主要原因。

    当前,我们所能努力的就是尽可能地做到多少个 9,这其中需要很强的技术实力支撑。

级别

可用性级别

通俗说法

年度停机时间

配套措施

基本可用性

99%

2 个 9

3d-15h-39m-29s

服务在一个数据中心里有冗余,简单基础的自动化运维

高可用性

99.9%

3 个 9

8h-45m-56s 

大量的自动化故障工具,以及各种控制调度系统等基础设施要做好

具有故障自动恢复

99.99%

4 个 9

52m-35s

本地多机房(像 AWS 一样每个地方都有三个可用区)

极高可用性

99.999%

5 个 9

5m-15s

远程多机房,异地多活

  • 另一方面,从分布式架构设计来说,世界上的软件都是有故障的,当故障发生时,大家首先希望故障不要蔓延开,能够控制得住,其次还希望故障的时间越短越好,不要太长。

然而,架构系统也有很多的依赖,如基础设施 DNS、CDN、运营商、机房等等,想要实现稳定,需要大家一起实现。

c70aeb8c3ba894afc4473d1c184a808f.png

网友:请给程序员加工资!

的确,服务器一旦宕机,消费者就无法对网站进行访问,客户下不了单,直接就会对公司经济利润造成很大的影响,甚至还可能影响到网站在搜索引擎上的收录和排名。

因此,每一年各个平台的促销拉开序幕之际,开发和运维人员都面临巨大的挑战。

伴随着#唯品会崩了相关负责人被免职#等话题再次引发大家关注,许多人纷纷留言表示:

  • “希望以后大公司会有一套很完善的避免和处理宕机事故的流程”;

  • “宕机是各家常有现象,这么久的处理时间就确实邋遢了”;

  • “还是要加强基础设施建设和技术管理”;

  • “关键时候千万不能崩,这个影响到的客户数量”。

与此同时,也有不少网友借此表达了对程序员职业的关怀:

  • “服务器宕机这个事情挺正常的,辛苦开发人员们维护了”;

  • “我曾经是程序员,知道维护的不易,请给程序员们加工资”。

那么,你经历过服务器宕机吗?可以在评论区留言和讨论。

参考链接:

https://news.mydrivers.com/1/914/914671.htm

https://www.163.com/dy/article/I6HMABGN0553V12F.html

https://k.sina.com.cn/article_3172142827_bd130eeb0190120sh.html

推荐阅读:

▶OpenAI CEO 称公司没有上市计划;特斯拉自动驾驶将开放给其他车企;百度智能云推出代码助手 Comate|极客头条

▶开源 AI 面临的挑战

▶Python 第一难保,要看 ChatGPT 火不火?TIOBE 6 月榜单发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13565.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常见分布式锁4:zookeeper 瞬时znode节点 + watcher监听机制,ChatGPT回复的解决死锁的方案

原文地址在这里 临时节点具备数据自动删除的功能。当client与ZooKeeper连接和session断掉时,相应的临时节点就会被删除。zk有瞬时和持久节点,瞬时节点不可以有子节点。会话结束之后瞬时节点就会消失,基于zk的瞬时有序节点实现分布式锁&#x…

如何用ChatGPT设计出可控制的代码?

【编者按】如何训练 ChatGPT 实现自己想要的代码与功能,秘诀就是编写更具交互性和前瞻性的设计提示,本文作者分享了如何利用 ChatGPT 设计出可控制的代码步骤。 原文链接:https://www.friendlyskies.net/maybe/a-quick-way-to-get-more-creat…

使用ChatGPT和EZDML迅速高效生成可运行的软件系统原型

ChatGPT最近很热,其对程序员可以说影响极大,是不得不跟的潮流趋势,因此EZDML新版也把ChatGPT的支持加上了,可以在几分钟内按您的意思生成一个数据模型,再搭载使用EZDML自带的代码模板,能快速生成可真正运行…

2023年最新CSA研讨会-ChatGPT的安全影响白皮书下载

万物相生相成。以ChatGPT为代表的生成式人工智能,为网络安全领域曾经难解的问题,提供全新解决思路,也伴生出令人担忧的安全问题。 出现矛盾意味着新的突破正要诞生。对于网络安全厂商来说,如何在保证数据安全、合规的基础上&#…

文艺一言 VS chatGPT

最近百度文心一言新闻发布会召开,会上正式推出了百度版ChatGPT——文心一言。号称中国版的chatgpt,好不好用我不知道,毕竟现在还是内测期间,得有邀请码才能用。但是从发布会开始后,百度集团股价出现持续下挫&#xff0…

chatGPT真的完美吗?“翻车”现场频发,它的智商是9岁小孩儿?

前面我们说到,一款基于chatGPT的插件【Merlin】,聊天式感受强大AI能力 ,在我们惊呼chatGPT强大能力的时候,它就真的很完美吗? NO!! 尽管已经chatGPT已经开始进入商用阶段,各大互联…

震惊科学界!微软最新研究刷屏:GPT-4能力接近人类?

来源:新智元 GPT-4会演变为通用人工智能吗? Meta首席人工智能科学家、图灵奖得主Yann LeCun对此表示质疑。 在他看来,大模型对于数据和算力的需求实在太大,学习效率却不高,因此学习「世界模型」才能通往AGI之路。 不过…

微软豪华力作,称GPT-4已具备人类心智,LeCun质疑

源 | 新智元 在通往AGI的路上我们还有多远?微软豪华作者团队发布的154页论文指出,GPT-4已经初具通用人工智能的雏形。 GPT-4会演变为通用人工智能吗? Meta首席人工智能科学家、图灵奖得主Yann LeCun对此表示质疑。 在他看来,大模型…

OceanBase CTO杨传辉:万字解读,打造开发者友好的分布式数据库

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/ 3 月 25 日,第一届 OceanBase 开发者大会在北京举行,OceanBase CTO 杨传辉在主论坛进行了《打造开发者友好的分布式数据库》的分享。 以下为演讲实录: 各位 Oc…

Dora全家桶到底是怎样的味道

Android APP项目大体可以分为基础架构的开发、UI布局和接口调试,其他业务逻辑我这里无法预知,要不然我不成神了?所以我开源了三条路线的框架,dora、dview和dcache。本篇我只讲解基础架构dora是如何使用的。 Get Started // Add …

Mac、iPad卖不动,苹果靠iPhone续命

深燃(shenrancaijing)原创 作者 | 王敏 编辑 | 金玙璠 北京时间5月5日凌晨,苹果交出了最新一季度的成绩单。 根据财报,在2023年一季度(截至4月1日的2023财年第二财季),苹果营收948.4亿美元&…

【历史上的今天】6 月 28 日:马斯克诞生;微软推出 Office 365;蔡氏电路的发明者出生

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 6 月 28 日,在 2005 年的今天,腾讯 Q 店曝光,标志着腾讯进军 C2C 领域。当时国内 C2C 市场一片混战,淘宝、易趣…

Scale AI:大模型还需要数据标注吗?

我们在 2021 年 7 月编译过一篇关于 Scale AI 的文章,但在过去一段时间,AI 行业每天都在发生十级地震,行业价值链也发生变化,因此我们认为有必要重新审视此前研究过的重要公司,所以把 Scale AI 拿出来重新研究。 Scal…

聚观早报 |必应成为中国第一大桌面搜索引擎;快手上市后首次盈利

今日要闻:必应成为中国第一大桌面搜索引擎;快手上市后集团层面首次盈利;ChatGPT相关诈骗攻击与日俱增;比亚迪回应法国建厂传闻;薇娅夫妇半年收获两家上市公司 必应成为中国第一大桌面搜索引擎 5 月 22 日消息&#xf…

一周 AIGC 丨白宫宣布首个 AI 监管计划,中国 AI 领域或面临美国全面投资禁令...

世界经济论坛(WEF)最新发布的报告显示,未来几年,因人工智能(AI)和经济增长放缓等因素,全球就业形势将受到严重冲击。全球近四分之一的工作岗位将发生变化,其中一些将被淘汰&#xff…

技术动态 | 基于GPT-4的知识图谱构建能力评测

一、摘要 知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的大规模语义网络,是大数据时代知识表示的重要方式之一。而大型语言模型,如OpenAI发布的GPT-4 ,通过在大量文本等数据上进行预训练,展示出了极其强大的通识知…

微软放弃收购雅虎 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 5 月 4 日,青年节。在 1995 年的今天,德国公司收购 Commodore。作为个人计算机行业的先驱,Commodore 于 1994 年停止生产并宣…

鼠标之父诞生 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2022 年 1 月 30 日,在 203 年前的今天,1820 年 1 月 30 日,南极洲被发现。南极洲又称第七大陆,是是人类最后到达的大陆、…

关于大型语言模型的争论和局限

以色列巴伊兰大学教授Yoav Goldberg分享了他对大型语言模型的能力和局限性的看法,以及在语言理解方面的立场。(以下内容经授权后由OneFlow编译发布,译文转载请联系OneFlow获得授权。原文:https://gist.github.com/yoavg/59d174608…

ChatGPT4常用插件-Wolfram数学神器

介绍 Wolfram插件通过WolframlAlpha和Wolfram语言使ChatGPT能够访问强大的计算、准确的数学、精选知识、实时数据和可视化,从而使它变得更加智能。 提供从化学到地理、天文学到流行文化、营养到工程学以及算法代码执行的广泛而深入的报道。 安装方式 ChatGPT 用户…