手動處理網路釣魚URL是如何導致CloudflareR2宕機的

作者 | Renato Losio
譯者 | 劉雅夢
策劃 | 丁曉昀
由於在處理網路釣魚報告時的人為錯誤和管理工具中缺乏充分的驗證保障措施,Cloudflare 在 2 月 5 日發生了一起影響其 R2 閘道器(R2 Gateway)服務的故障。在對一個網路釣魚 URL 進行常規處置時,R2 服務被意外關閉了,從而導致眾多其他 Cloudflare 服務中斷或受到干擾,並且持續了一個多小時。
根據 Cloudflare 在第二天釋出的故障報告,R2 閘道器服務由於一名 Cloudflare 員工試圖封鎖託管在 Cloudflare R2 服務上的一個網路釣魚網站而被關閉。所有涉及 R2 儲存桶和物件的操作,包括上傳、下載和元資料操作,都受到了影響。Cloudflare 產品資深總監 Matt Silverlock 和 Javier Castro 解釋道:
該故障是由於人為錯誤和在對託管在 R2 上的網路釣魚網站進行常規濫用處置過程中缺乏充分的驗證保障措施而導致的。對該投訴採取的行動導致對該網站進行了高階產品停用操作,這導致了負責 R2 API 的生產 R2 閘道器服務被停用。
來源:Cloudflare 部落格
Cloudflare R2 儲存是一種與 S3 相容的物件儲存服務,不收取出口費用,自 2022 年以來一直普遍可用,是 Cloudflare 的核心產品之一。儘管該公司強調此次故障並未導致 R2 內的資料丟失或損壞,但許多服務都受到了級聯影響。流(Stream)、圖(Images)和向量化(Vectorize)業務經歷了停機或顯著的高錯誤率。與此同時,在主事件視窗期間,只有極小部分(0.002%)的 Workers 和 Pages 專案部署失敗。Silverlock 和 Castro 補充道:
在 R2 服務級別上,我們的內部 Prometheus 指標顯示,由於 R2 的閘道器服務停止為所有請求提供服務並終止了正在進行的請求,R2 的 SLO 幾乎立即降至 0%(……)由於缺乏直接控制來撤銷產品停用操作,以及需要讓具有比常規更低級別訪問許可權的運維團隊參與,補救和恢復受到了抑制。然後,R2 閘道器服務需要重新部署,以便在我們的邊緣網路上重建其路由管道。
來源:Cloudflare 部落格
故障報告在該故障發生後的幾小時內就釋出了。在一個熱門的 Reddit 帖子中,許多使用者對 Cloudflare 的透明度以及其提供報告的詳細程度表示讚賞。使用者 JakeSteam 寫道:
我真的很欣賞這種詳細的逐分鐘分析,這有助於準確地突出每分鐘延遲存在的原因。Cloudflare 的工作做得一如既往的出色,將危機轉換為大家的學習機會。
使用者 Miasodasto13 補充道:
必須讚揚他們的透明度。此外,我無法想象作為一名工程師經歷這樣的故障時的腎上腺素飆升。這種感覺一定就像在拆除一個正在滴答作響的定時炸彈。停機時間每過去一分鐘,後果就越嚴重。
Delivery Hero 的資深軟體工程師 Amanbolat Balabekov 則 給出 了不同的觀點:
人們可能會認為團隊會針對這種情況構建專門的內部工具,但具有諷刺意味的是,Cloudflare 的工具恰好在最需要它的時候失效了。看起來就是,要恢復服務,他們需要使用他們自身的服務,這就產生了這種瘋狂的迴圈依賴關係。
Cloudflare 已經制定了幾項補救措施和後續步驟,以解決驗證漏洞,並防止將來發生類似的故障。這些措施包括限制對產品停用操作的訪問,並要求臨時產品停用動作需要兩方批准。此外,該團隊正在擴充套件濫用檢查,以防止意外阻止內部主機名,從而減少系統和人為驅動操作的影響範圍。
作者介紹
Renato Losio 作為雲架構師、技術主管和雲服務專家擁有豐富的經驗。目前,他住在柏林,遠端擔任首席雲架構師。他的主要興趣領域包括雲服務和關係資料庫。他是 InfoQ 的編輯,也是公認的 AWS 資料英雄。你可以在領英上與他聯絡。
原文連結:
https://www.infoq.com/news/2025/03/cloudflare-incident-r2/
宣告:本文為 InfoQ 翻譯,未經許可禁止轉載。
今日好文推薦
“AI原生”標準MCP突然爆紅!引爆LangChain大佬“內戰”:是顛覆OpenAI的技術突破,還是配不上當前關注的玩具?
12 人小團隊如何成就英偉達萬億市值?CUDA 架構師首次親述真正的算力“壁壘”形成過程
程式碼界的“瘟疫”?卡帕西“Vibe Coding”興起,YC披露:1/4新創公司,95%程式碼全由AI生成
OpenAI 又貴又“黑”,微軟對供應商亮起“紅燈”:曝出自研大模型,DeepSeek 或成救星?

相關文章