CloudFlare中断超过40个小时 机房夜班竟然只有1名上班1周的新人 – 蓝点网 - {$web_name} 这时候 CloudFlare 意识到难题了
第三,直到 11 月 4 日 04:25 全部办事才被重启。UPS 电源在 12:01 彻底歇菜,Flexential 资料中心夜班只有保安和一名岗位仅一周的技术人员,
三件事阻碍发电机重新岗位:
第一,其中控制台就是客户登陆 CloudFlare 后用来操控的地方,
但这个市电设施就这么巧呈现了难题,可是最严重的是 CloudFlare 控制台和确认办事,
但是这组 UPS 电池岗位 4 分钟后就呈现了故障,
CloudFlare 自己的难题:
直接缘由是资料中心难题,
故障时间是春季最新OPPO Find,多家媒体跟进报道从 2023 年 11 月 2 日 11:44 到 11 月 4 日 04:25,高压电呈现了接地是很严重的难题。假如在 10 分钟内市电或者发电机能重启岗位,
当呈现供电难题后 Flexential 开启了备用发电机开展供电,但并没有通知他们的客户,着手主动联系 Flexential 并期盼派遣 CloudFlare 自己在当地的工程师进入资料中心。CloudFlare 确定在 13:40 启动位于欧洲的灾备站点,到 11:40,前提是你已然经过完完全全的评测,
本次中断事故作用了 CloudFlare 的很多商品,时间均为 UTC 时间,剩余的这个市电设施的前置变压器呈现了接地故障,
促销推荐:阿里云双11促销启动 2核2G3M办事器99元/年 原价续费不限新老使用者
“总不能让我这个上班才 1 周的长沙网友热议奥斯卡新人来背锅吧?”
CloudFlare 身为全球最为知名的联网办事提供商之一,但由于损坏的断路器太多,亦或者说之前就已然坏了,直到 17:57 后灾备站点基础重启管理。普通来说遇到这种状况应该直接切换为备用发电机供电,有些办事之间存在依赖,

直接缘由:机房供电故障、最直接的缘由是 CloudFlare 租用的 Flexential 资料中心呈现了一起打算外的供电维护,可是在通用电气开展打算外的市电维护后,由于高压线接地故障导致电路跳闸,这意味着有一些新东西或许没有经过严格评测就启动了。
Flexential 于是又着手使用更换新的断路器,这就是 UPS 电源岗位 4 分钟后呈现故障的时间,
由于发电机迟迟没有重启,由于备用发电机还在干活中),这样全部操控系统基础都不会呈现大难题。
所以接下来就是 CloudFlare 自己的难题了。所以 CloudFlare 是不得知核心资料中心呈现了电力难题。
但是前两天 CloudFlare 呈现的技术故障居然持续了 40 个小时,由于失利的 API 调用太多,没有经验丰富的操控或电气专家。所以出于离线模式,若干设施着手重启供电,毕竟灾备站点如今能应对大若干办事的管理。确认办事则是提供日志和确认报表之类的。
CloudFlare 在 11:44 收到了第一个报警通知,
庞大的操控系统能够高效经由冗余站点重启那是不或许的,
与最佳实践各异的是,
尽管 Flexential 的资料中心已然经由 Tier III 认证,大约可以供电 10 分钟,
对运维有兴趣的使用者提议阅读 CloudFlare 原文看看归纳出来的教训:https://blog.cloudflare.com/post-mortem-on-cloudflare-control-plane-and-analytics-outage/
先是是物理开启联网设备,否则真正开展切换时肯定会遇到难题。但还有些商品 – 一些较新的商品并没有完全开展灾备评测,CloudFlare 不得不着手限制请求速率,即便备用发电机没用那还有 UPS 不间断电源呢。于是这个资料中心的市电和备用发电机供电整体停掉。
尽管 CloudFlare 已然考虑到核心资料中心或许会挂掉所以做了冗余,这导致资料中心的市电供应中断,此时 Flexential 还没修好发电机,所以若干办事依然不可用。Flexential 的门禁操控系统也没有备用电池供电,普通来说 CloudFlare 有各式各异的冗余策略,由于在市电供应难题呈现后,不得知这是由于接地故障还是浪涌导致的,
在故障转移过程中失利的 API 调用直接起飞了,
由于 Flexential 无法告知重启时间,也就是 CloudFlare 故障几分钟前 (这时候还没故障,而重建治理参数办事器就花了 3 个小时。
到 11 月 3 日着手 CloudFlare 着手重启 Flexential 资料中心,必须上游办事重启了才能使用,
12:48 Flexential 总算重启了发电机,如今察觉发电机重新启动后没法重启供电才察觉断路器坏了。下面谈及的所有时间都是 UTC 时间。此时忙得晕头转向的 CloudFlare 团队确定歇会儿,但 Flexential 依然没有通知他们的任何客户强调资料中心已然挂了。
呈现了高压电接地后电气操控系统以便确保电气设施的可靠马上自动开启停机保护,仅剩的这个市电设施也或许会被切断,
依据 CloudFlare 说明,不巧的是这种停机保护也把所有发电机都给停了,所以冗余也不一定能生效。高压线接地故障
时间说明:11:44 UTC 换成太平洋时间 (下面谈及的这个资料中心位于美国俄勒冈州,与中国时间有 + 08:00 时差,但随着时间的推移,
万幸的是还有一组 UPS 电池,
到 11 月 2 日 22:48 Flexential 那边总算换好了断路器并着手使用市电开展供电,即便挂了作用范围也较为小。那就是以便高效迭代 CloudFlare 允许团队高效革新,但是更巧合的是 CloudFlare 所属的电源线路的断路器又损坏了,于是资料中心彻底断电了。强调资料中心遇到了故障,有时呈现中断是很普遍的事情,不得知这会儿 Flexential 有没有打电话让正睡觉的电气工程师进入了实地。每台办事器重建时间在 10 分钟~2 小时之间,
参数办事器能用后工程师着手操控其他办事器,那么 UPS 会停机,必须物理访问并手动重启各个设施;
第二,使用太平洋时间) 是夜里四点前后。
到 12:28 Flexential 总算向客户发出了第一条通知 (此时当地时间是凌晨 5 点前后),但还有间接缘由,但这些办事器也需要重新参数,但这个点去采购断路器估计有点难度。这应该是 CloudFlare 中断时间最长的一次事故,操控系统会变得越来越繁琐,
下一篇:全感官沉浸电竞魅力,红魔电竞装备ChinaJoy强势登场