11月2日 11:43 (UTC)开始,Cloudflare 的Control Plane 和Analytics服务出现中断,该故障持续了两天。CF博客文章回顾总结了这一事件。

大致上,此次故障是由于数据中心停电和CF自身未能预计到的技术问题造成的。数据中心不专业的供电方式、缺少有经验的值班工程师以及缺少零部件加深了故障。

2号上午11:40 ,CF内部称为“PDX-04”的数据中心发生了变压器接地故障导致机房断电,该设施由 Flexential 运营。停电导致CF托管在该数据中心的服务器全部离线,其中包括CF最大的分析集群以及超过三分之一的高可用性集群机器。然而,CF的某些服务,尤其是一些较新的产品,并未添加到高可用性集群中,更糟糕的是,本应位于高可用性集群上的服务子集依赖于专门在 PDX-04 中运行的服务。这导致其它设施不能在服务离线后继续运行它们。
2023-11-04T11:46:33.png
Cloudflare在博客中指出Flexential种种不专业的问题,比如该公司在PDX-04一个独立电源故障后没有通知CF,使后者没有预备专门团队密切监视该机房的服务。在停电后,发电机没能立即启动,数据中心工程师无法排除发电机的故障,导致UPS电源耗尽后最终断电。有三件事阻碍了发电机启动。首先,由于接地故障导致电路跳闸,因此需要对它们进行物理访问并手动重新启动。其次,Flexential 的门禁系统没有备用电池供电,因此处于离线状态。第三,现场的夜班人员不包括经验丰富的操作或电气专家——夜班人员包括保安和一名只上岗一周的无人陪伴的技术人员。

当天中午发电机重新供电后, Flexential 尝试为 Cloudflare 的电路提供备用电源时,发现断路器坏了,Flexential没有库存足够的断路器来维修,需要采购,一直到22:48更换了零件并确认稳定供电。由于CF的工程师已经长时间高强度工作,CF管理层决定推迟了恢复计划,决定先行休息,等第二天(即3号早上)继续工作。由于故障涉及的服务器多达数千台,这一工作持续到了4号04:25(UTC)。

最后修改:2023 年 11 月 04 日
如果觉得我的文章对你有用,能否请我杯奶茶?