Cloudflare 从长达两天的故障中恢复过来，官方公布原因和细节

11月2日 11:43 （UTC）开始，Cloudflare 的Control Plane 和Analytics服务出现中断，该故障持续了两天。CF博客文章回顾总结了这一事件。

大致上，此次故障是由于数据中心停电和CF自身未能预计到的技术问题造成的。数据中心不专业的供电方式、缺少有经验的值班工程师以及缺少零部件加深了故障。

2号上午11:40 ，CF内部称为“PDX-04”的数据中心发生了变压器接地故障导致机房断电，该设施由 Flexential 运营。停电导致CF托管在该数据中心的服务器全部离线，其中包括CF最大的分析集群以及超过三分之一的高可用性集群机器。然而，CF的某些服务，尤其是一些较新的产品，并未添加到高可用性集群中，更糟糕的是，本应位于高可用性集群上的服务子集依赖于专门在 PDX-04 中运行的服务。这导致其它设施不能在服务离线后继续运行它们。
2023-11-04T11:46:33.png
Cloudflare在博客中指出Flexential种种不专业的问题，比如该公司在PDX-04一个独立电源故障后没有通知CF，使后者没有预备专门团队密切监视该机房的服务。在停电后，发电机没能立即启动，数据中心工程师无法排除发电机的故障，导致UPS电源耗尽后最终断电。有三件事阻碍了发电机启动。首先，由于接地故障导致电路跳闸，因此需要对它们进行物理访问并手动重新启动。其次，Flexential 的门禁系统没有备用电池供电，因此处于离线状态。第三，现场的夜班人员不包括经验丰富的操作或电气专家——夜班人员包括保安和一名只上岗一周的无人陪伴的技术人员。

当天中午发电机重新供电后， Flexential 尝试为 Cloudflare 的电路提供备用电源时，发现断路器坏了，Flexential没有库存足够的断路器来维修，需要采购，一直到22:48更换了零件并确认稳定供电。由于CF的工程师已经长时间高强度工作，CF管理层决定推迟了恢复计划，决定先行休息，等第二天（即3号早上）继续工作。由于故障涉及的服务器多达数千台，这一工作持续到了4号04:25（UTC）。

Cloudflare 从长达两天的故障中恢复过来，官方公布原因和细节