一次自动化失误,如何让半个互联网“瘫痪”?


凌晨的代码,搅乱了全球网络

周二凌晨,当大多数人还在梦乡时,一场由自动化系统引发的数字风暴正悄然席卷全球互联网。

美东时间凌晨4:30左右,全球知名网络基础设施服务商 Cloudflare 的自动防御系统出现异常。其“威胁流量自动生成配置文件”功能因触发条件过于激进,生成了远超预期的规则条目,导致流量处理引擎不堪重负,最终引发全球范围的服务中断。

这不仅是一次技术故障,更像是一场“自我攻击”——本应保护网络的系统,反而成了瘫痪服务的源头。

多米诺效应:从后台崩溃到前台失联

故障迅速蔓延,影响波及全球。大量依赖Cloudflare提供DNS解析、DDoS防护和CDN加速服务的网站和服务瞬间无法访问。

知名平台如 ChatGPT、X(原Twitter)、Spotify、Uber 等纷纷“掉线”,用户刷新页面却只看到错误提示。甚至连美国联邦能源管理委员会(FERC)这样的政府机构官网也未能幸免。

根据故障追踪平台 Downdetector 的数据,事件高峰期累计收到 超过210万份 用户异常报告,创下近期平台监测的历史新高。社交媒体上,“Cloudflare down”迅速登上热搜,无数用户困惑发问:“是我家网络坏了,还是整个世界都断了?”

6小时修复:技术团队的紧急“排爆”

Cloudflare工程师在发现问题后迅速响应。上午6:42,修复补丁被部署至全球网络节点。通过逐步禁用异常的自动化配置生成机制,并重置受影响的系统组件,服务开始缓慢恢复。

到纽约时间上午10点左右,包括ChatGPT和X在内的主要平台已基本恢复正常访问。整个核心服务中断持续约 6小时,对于一个以高可用性著称的基础设施服务商而言,这无疑是一次严峻考验。

官方回应:非攻击,但教训深刻

Cloudflare随后发布声明,明确表示没有证据表明此次事件由外部网络攻击或恶意行为引发。问题根源在于内部自动化系统的逻辑缺陷,属于“意外配置爆炸”。

公司承诺将在后续技术博客中公开详细复盘,解释自动化规则为何失控,并分享改进措施,防止类似事件重演。

股市波动与深层反思

消息传出后,Cloudflare盘前股价一度下跌超过7%,反映出市场对关键基础设施稳定性的高度敏感。随着服务逐步恢复,跌幅有所收窄,但此次事件无疑给所有云服务提供商敲响了警钟。

自动化是现代互联网高效运转的基石,但当系统失去“刹车”时,它也可能成为最危险的加速器。这一次,我们用210万次报错,换来了一个深刻的教训:在追求智能与效率的同时,控制力与容错机制,同样不可或缺。