

根據 Cockroach Labs 釋出的《2025 年彈性狀況報告》,服務中斷在大多陣列織中屢見不鮮。55% 的公司表示每週都會遇到服務中斷,14% 的公司稱每天都有此類情況發生。令人震驚的是,參與調查的公司 100% 都因服務中斷遭受過收入損失,部分公司(8%)報告在過去 12 個月裡損失達 100 萬美元及以上。Cockroach Labs 在對 1000 名高階管理人員就其 IT 系統的彈性以及所在組織面臨的挑戰展開調查後,於 2024 年 10 月釋出了這份題為 《2025 年彈性狀況:應對服務中斷、停機時間和組織準備情況》的報告(需完成表格填寫才能下載)。該報告強調,幾乎所有技術領導者都對服務中斷及其影響深感擔憂,但他們所在的組織往往在解決運營短板方面做得不夠。調查受訪者指出,網路和軟體故障是導致服務中斷的主要原因,此外還包括雲平臺和第三方服務的可靠性問題以及網路攻擊。

圖注:此處為 “服務中斷的常見原因” 圖表,來源:《2025 年彈性狀況報告》
報告作者總結了參與者提到的挑戰:
近期 CrowdStrike 全球服務中斷事件引發的連鎖反應促使許多組織採取行動 —— 本次調查中 94% 的技術高管表示,這一事件促使他們的公司重新評估運營彈性。與此同時,接受調查的全球企業的領導者們指出,對變革的頑固牴觸、內部優先事項不一致、系統陳舊過時以及預算僵局,使得許多企業無法實施有意義的(有時甚至是迫切需要的)運營彈性措施。
儘管運營短板會導致服務中斷,但各組織在提升彈性方面仍面臨諸多阻礙。優先順序安排和預算限制被列為主要難題,其次是系統複雜性、培訓不足和人員配備問題。

圖注:此處為 “提升彈性的主要挑戰” 圖表,來源:《2025 年彈性狀況報告》
在 2024 年 DORA 釋出的 《加速 DevOps 狀態報告》 中,作者探討了軟體部署引發的問題,並圍繞軟體交付穩定性分析了關鍵交付效能指標。在今年的報告中,團隊引入了一項新指標,以探究變更失敗率(CFR)為何在其他 DORA 指標中表現突出。這項名為返工率的新指標,用於追蹤為解決面向使用者的應用程式問題而進行的計劃外部署次數,它與變更失敗率一起構成了軟體交付穩定性因素。

圖注:此處為 “交付效能水平” 圖表,來源:2024 年 DORA DevOps 狀態報告
一如既往,《DevOps 狀態報告》探討了軟體交付吞吐量與平臺穩定性之間的關係,並得出結論:儘管釋出頻率與較低的變更失敗率之間存在很強的相關性,但由於組織和技術方面的挑戰,企業並不能保證透過更頻繁的釋出來實現更高的穩定性。該報告強調,需要關注軟體交付效能的提升,而不應總是著眼於絕對效能水平。
原文連結:
https://www.infoq.com/news/2025/02/report-resilience-devops-dora/
本文由 InfoQ 獨家翻譯,未經授權不得轉載。
