一个代码拼写错误引发微软Azure故障,17 个生产级数据库被删

出品 | OSC开源社区(ID:oschina2013)

5 月 24 日,微软 Azure DevOps 在巴西南部地区的一处 scale-unit 发生故障,导致宕机约 10.5 个小时。近日,微软首席软件工程经理 Eric Mattingly 出面针对此次故障事件道歉,并透露了导致中断的原因:即,一个简单的拼写错误致使 17 个生产级数据库被删除。

事件背景起源于,Azure DevOps 工程师有时需要对生产数据库的快照进行保存,以调查报告的问题或测试性能改进。为了确保这些快照数据库得到清理,会有一个专门的后台每天运行,系统会在设定的时间段后删除旧快照。

在 Sprint 222 期间,Azure DevOps 工程师升级了代码库,将已弃用的 Microsoft.Azure.Managment.* 包替换为受支持的 Azure.ResourceManager.* NuGet 包。此举连带了大量的 pull request 变更请求,以寻求将旧包中的 API 调用替换为新包中的 API 调用。而其中就隐藏了有关快照删除作业中的一个拼写错误,它将删除 Azure SQL 数据库的调用换成了删除托管数据库的 Azure SQL Server 的调用。

Eric 称,运行此代码的条件很少见,因此测试机制没有很好地覆盖。

我们使用我们的安全部署实践 (SDP) 将 Sprint 222 部署到 Ring 0(我们的内部 Azure DevOps 组织),其中不存在快照数据库,因此作业没有执行。在 Ring 0 部署了几天之后,我们接下来部署到 Ring 1,那里是受影响的巴西南部 scale-unit 所在的地方。其中快照数据库的存在时间足以触发错误代码,当作业删除 Azure SQL Server 时,它还删除了 scale-unit 中的所有 17 个生产数据库。从那时起,该 scale unit 就无法处理任何客户流量。

753066045d38c85f4b5e86fe7d821ad8.png

Azure DevOps 工程师在数据库删除开始后 20 分钟内检测到中断,并开始着手修复。目前数据已经全部恢复,但却花费了长达十个小时。对此 Mattingly 则解释了几个原因:

  • 首先,客户无法自己恢复 Azure SQL Server,因此必须由 Azure SQL 团队来恢复 Azure SQL Server。“确定我们需要 Azure SQL 的值班工程师,让他们参与进来并恢复服务器,这个过程大约需要一个小时。”

  • 其次,数据库有不同的备份配置,一些被配置为 Zone 冗余备份,另一些则被配置为较新的 Geo-zone 冗余备份。协调这种不匹配情况给恢复过程增添了不少时间。

  • 最后,在数据库开始重新上线后,由于 Web 服务器出现了一系列复杂的问题,即使是数据位于这些数据库中的客户,也无法访问整个 scale-unit。 

根据介绍,这些问题源于服务器预热任务,该任务通过测试调用遍历可用数据库列表。在恢复过程中的数据库出现了一个错误,导致预热测试 “执行指数级的 backoff retry,使得正常情况下只需不到 1 秒的预热平均耗时了 90 分钟。”

更复杂的是,这个恢复过程是交错进行的,一旦有一两台服务器开始重新接受客户的流量,它们就会过载并出现故障。最终,恢复服务需要工程师阻断所有流向巴西南部 scale-unit 的流量,直到一切都准备就绪后再重新加入负载平衡器和处理流量。

微软方面表示,已经实施各种修复和重新配置,以防止问题再次发生。

  • 已经修复了快照删除作业中的错误。

  • 为快照删除作业创建了一个新测试,它针对真实的 Azure 资源充分执行快照数据库删除方案。

  • 正在为关键资源添加 Azure 资源管理器锁,以防止意外删除。

  • 确保所有的 Azure SQL 数据库备份都配置为 Geo-zone-redundant。

  • 确保所有未来的快照数据库都在生产数据库的不同 Azure SQL Server 实例上创建。

  • 正在修复 Web 服务器预热任务中的逻辑,以便即使数据库处于 offline 状态也能成功启动。

  • 正在创建一个新的 cmdlet 来恢复已删除的数据库,以确保恢复使用与删除之前相同的设置(包括备份冗余)。

更多详情可查看官方公告:https://status.dev.azure.com/_event/392143683/post-mortem

-End-

往期推荐

女网红基于 GPT-4 做了个AI虚拟女友,一周躺挣 50 万!

"ChatGPT六个月之内让大学生翻身成老板,创下45万的月收入!"

翟欣欣已被捕!!!网友:谢天谢地,彰显正义

面试官:设计一个高流量高并发的系统,有哪些要点?

我一天赚了3000,掌握AI

4年经验新手程序员用 GPT-4 和 Copilot“ 淘汰”拥有 19 年编程经验的老程序员

又一起互联网公司涉嫌开赌场,被公安机关 跨省立案调查!

七年磨一剑!苹果王炸产品Vision Pro诞生,未来已来

AI可能造成人类灭绝,真的还是炒作?

裁员10%,暴跌14%,这家IT独角兽正在被抛弃!

最后推荐一个基于GPT-4的产品,千语千问AI,汇集了常用的AI产品,可以免费体验;

识别二维码或点击阅读原文,让千语千问AI产品成为你工作的好助手

7e830c666b950d77511b93af9512968d.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/42902.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI专属社交平台爆火,全体人类被禁言只能围观

衡宇 发自 凹非寺量子位 | 公众号 QbitAI 玩腻了推特和微博?有个新的社交平台火爆外网! 成千上万的用户连夜涌入,每日积极发帖,活跃度堪比ChatGPT。 就连马一龙都来开辟了自己的嘴炮新阵地: OpenAI CEO山姆奥特曼也成为…

chagpt

首发网站 天风的人工智能小站 前言:chatGPT 一、注册 https://chat.openai.com/auth/login 1、点击右边注册sign up 2、可以使用自己的邮箱或者谷歌邮箱注册 验证邮箱输入姓名 3、现在到了最关键的一步 因为openAI不对中国开放所以,必须要购买一个外…

真实揭露:一段激情视频裸聊被骗的经历

故事发生前几天放假的时候,那天我正在海边散步,有个人加我微信,备注了求助信息。当我通过了他的好友验证请求,他给我发来这样一段话。出于对luo聊诈骗套路的好奇,我对他的这段经历进行深入的了解。 本文已获得受害者本…

一文给你讲透 ARP 协议原理!

我把自己以往的文章汇总成为了 Github ,欢迎各位大佬 star https://github.com/crisxuan/bestJavaer 公众号连载计算机网络文章如下 ARP,这个隐匿在计网背后的男人 我画了 40 张图就是为了让你搞懂计算机网络层 40 张图带你搞懂 TCP 和 UDP 拿下计网…

万万没想到,“红孩儿”竟然做了程序员,还是CTO!

点击上方“码农突围”,马上关注 这里是码农充电第一站,回复“666”,获取一份专属大礼包 真爱,请设置“星标”或点个“在看”作者 | 年素清来源 | 码农故事汇 01 说起老版《西游记》,大家肯定都不陌生,毕竟这…

马化腾回忆创业:曾假扮女孩子陪聊

http://comment.tech.163.com/tech_bbs/AR0O2L7200094OE0.html 昨天,香港大学举办以创新创业为主题的Dream Catchers论坛。其中腾讯董事局主席马化腾在下午两点四十五分在李兆基会议中心做了专题演讲,分享了自己的创业经历并回答了媒体人张力奋有关产品、…

石油公司高管假扮马斯克窃取机密 被特斯拉提起控诉

马斯克 北京时间9月15日消息,据《福布斯》网络版报道,电动汽车厂商特斯拉近日起诉一名石油公司高管,控告其假扮特斯拉CEO埃隆马斯克(Elon Musk),意图窃取该公司机密财务信息。 这起周三提交至圣克拉拉县高等…

巨头王炸不断,硬核解读芯片技术路线

上周我在博客发布了一篇《龙芯自主指令集到底强在何处》的文章,虽然这只是一篇临时起意之作,信息有限的拙作,不过最近整个半导体行业实在风起云涌,上周四IBM推出了2nm的芯片,苹果春季发布会上这次苹果发布会上搭建M1的…

AI一分钟 | MIT研发盲眼机器人;卫报披露“假AI”,不少是人假扮的

▌桥水达里奥:AI造成贫富差距美应宣布紧急状态 据美国CNBC报道,桥水基金(Bridgewater Associates)创始人雷达里奥(Ray Dalio)表示,人工智能和自动化正在提高生产效率,但也造成明显的…

【Web技术】1101- 深入浅出前端本地储存

作者:星尘 https://www.yuque.com/starx/fe/oehz1m 引言 2021 年,如果你的前端应用,需要在浏览器上保存数据,有三个主流方案: CookieWeb Storage (LocalStorage)IndexedDB 这些方案就是如今应用最广、浏览器兼容性最高…

女研究生做“思维导图”与男友吵架!网友:吵架届的“内卷之王”....

本文募格学术撰写。参考资料:抖音、女教授跟生活的死磕、极目新闻(记者:丁伟) 、亚辉、麦穗视频、潇湘晨报、知乎、微博等。 研究生吵起架来的“职业病”有哪些? 近日,湖南长沙一女研究生因为“画思维导图与…

真正的程序员职场高手,都是怎么沟通的?

这些场景,你一定不会陌生:准备了好久的提案,讲了半天,老板不置可否,只让你回去再想想;跟同事交接工作,明明讲了好多遍,做的时候又出了差错;跟客户沟通过的事情&#xff0…

【Web技术】1295- 总结一下前端本地储存方案

作者:星尘starx https://juejin.cn/post/6925311938419408904 引言 2022 年,如果你的前端应用,需要在浏览器上保存数据,有三个主流方案: CookieWeb Storage (LocalStorage)IndexedDB 这些方案就是如今应用最广、浏览器…

从一个月2500没人要到大厂技术主管的编程之路|我的十年

我们程序员,即便做到CTO,也远没有到拼才华的时候,即使吹上天,也不过是普通人,一些看起来比我们牛逼的人物,只不过在别人选择安逸的时候,他选择了拼搏而已。 我也一样,曾几何时&…

最新钓鱼网站假扮Office 365 信箱 恐会盗取用户密码

网站 Bleeping Computer 先前报导,近日网络出现新钓鱼邮件,不法分子发送假扮 Office 365 无法送出邮件的提示信,尝试盗取用户的密码。最先由 ISC Handler 的 Xavier Mertens 发现,最妙的是钓鱼邮件会伪装成多封邮件未能送达的通知…

假扮90后骗900万,这个骗局的背后隐藏一个赚钱的行业

今天分享的赚钱项目还是跟腾讯新闻有关,我平时已经养成了看新闻和看广告的习惯,尤其是广告,我会花更多的心思来琢磨和分析。 付费广告说明是用钱买流量,用钱砸出来的项目我一向都比较在意,比如你经常看到的医疗美容、…

不准机器人假扮人类?这是哪门子法律?

作者:栗子量子位(ID:QbitAI) “机器人不得伪装成人类。” 7月1日,加州的一项新法生效了。 从此,任何用作商业 (或正攵氵台) 用途的聊天机器人,都必须说明自己是机器人。不论是打电话、发短信、还…

新版 Microsoft Edge 有时会假扮成不同浏览器

开发四年只会写业务代码,分布式高并发都不会还做程序员? >>> Chromium 版 Microsoft Edge 近日被发现会根据所访问的站点模拟其他浏览器。这可能是出于兼容性原因。 随着新版 Edge 的发布,微软现在使用 Chromium Blink 引擎而不是…

微软新 Edge 有时会假扮成不同浏览器

(给前端大全加星标,提升前端技能) 转自:开源中国 Chromium 版 Microsoft Edge 近日被发现会根据所访问的站点模拟其他浏览器。这可能是出于兼容性原因。 随着新版 Edge 的发布,微软现在使用 Chromium Blink 引擎而不是…

win10VS2019无法登录微软账号的问题

vs打开以后,当打开账户设置登录微软账户时,会卡在界面不动。导致vs20190天过期无法使用。 解决方法: 打开设置,更新与安全; 在windowsd安全中心——防火墙与网络保护中 将防火墙关闭; 我是将三个都关闭&…