
(本文閱讀時間:6分鐘)
隨著雲 AI 工作負載變得越來越複雜和大規模,維護系統的高可靠性變得至關重要。傳統的系統高可靠性保障方法,如冗餘元件,不經意間引入了一個新的問題——隱性效能退化,又被稱為灰色故障。灰色故障由冗餘元件的逐漸失效引起,前期主要表現為不明顯的效能逐漸下降,並且難以被系統管理者察覺。當後期冗餘元件完全失效時,系統才會顯現出明顯的效能退化。這使得識別和解決系統故障的任務變得十分複雜。
傳統的系統可靠性保障方法往往依賴於被動的故障排除手段,比如硬體預檢和故障後修復,這些方法無法有效解決灰色故障問題。微軟亞洲研究院的研究員們與微軟 Azure 雲平臺的工程師們意識到,僅靠被動的故障排除並不足以應對這一挑戰。於是,他們提出了一種創新的主動驗證解決方案——SuperBench 系統。SuperBench 透過引入全面的基準測試和主動驗證技術,能夠在故障發生之前識別潛在的效能問題,從而顯著提升系統的整體可靠性。相關論文已被全球計算機系統領域的頂級學術會議 USENIX ATC 2024 接收,並榮獲最佳論文獎。
SuperBench 論文連結:
https://www.microsoft.com/en-us/research/publication/superbench/
GitHub 連結:
https://github.com/microsoft/superbenchmark
SuperBench 的設計理念是主動驗證而非被動反應,它能夠在系統出現顯著效能退化之前,及時檢測並修復潛在的問題。這種方法不僅提高了系統的穩定性,也減少了維護成本和使用者遭遇的效能問題。
為了有效縮短平均故障間隔時間,主動驗證必須滿足以下要求:首先,它需要全面覆蓋各種 AI 工作負載,以確保檢測到在新叢集中可能被忽視的問題;其次,驗證必須具有明確的標準,以區分正常效能和漸進性效能退化的問題,確保測試結果的一致性;最後,驗證過程必須具備成本效益,以確保驗證開銷遠低於處理故障所帶來的費用。
然而,實現這些要求面臨著不少顯著的挑戰:工作負載和節點組合的數量龐大,使得驗證過程中無法涵蓋所有場景;缺乏對缺陷元件的可靠評估標準,所以硬體規格無法準確預測負載效能;AI 硬體的變化性加大了問題的複雜性;此外,驗證時間和平均故障間隔時間之間存在相互影響,讓最佳化驗證成本與延長平均故障間隔時間的平衡成為一項複雜的任務。
SuperBench 的核心是一套全面的基準測試套件,用於評估單個硬體元件和各種真實的 AI 工作負載,其能夠確保系統檢測到在正常操作過程中可能隱匿的問題。
SuperBench 包括:
-
全面的基準測試套件:包括對典型 AI 工作負載的端到端基準測試和針對單個硬體元件的微基準測試,能夠更全面、更徹底地對系統進行測試並及早發現潛在問題。
-
選擇器模組:採用即時機率模型來確定最有效的基準子集,能夠在驗證時間和事件相關成本之間取得平衡,從而確保驗證的高效和影響力。
-
驗證器模組:利用先進的機器學習技術分析基準資料,並精準定位缺陷硬體。透過關注累積分佈指標而非平均值,SuperBench 可以清晰地區分功能正常和故障的元件。

圖1:SuperBench 的工作原理概覽
透過在 Azure 生產環境中兩年的成功部署,SuperBench 充分展示了其有效性。在此期間,SuperBench 驗證了數十萬塊 GPU,識別出了10.36%的節點存在缺陷,並顯著提高了系統的可靠性。
模擬結果表明,與未進行驗證和未選擇基準的全套驗證相比,SuperBench 可以將平均故障間隔時間(MTBI)提高至22.61倍,並將使用者 GPU 利用率增加4.81倍,同時將驗證時間成本降低92.07%。

圖2:30天內採用不同基準模擬的平均節點利用率,SuperBench 實現了90.70%的高叢集利用率,將無驗證基線提高了4.81倍,全集基線提高了1.09×
SuperBench 的推出標誌著主動系統驗證的重大進展,其透過解決灰色故障問題提高了雲 AI 基礎設施的可靠性,同時還帶來了成本節約和運營效率的提高。該研究不僅深入探究了雲 AI 基礎設施中的灰色故障問題,還分析了包括硬體故障、效能倒退等問題的來源和根本原因,對相關領域的研究做出重要貢獻。在未來,微軟亞洲研究院將繼續探索如何提升雲 AI 基礎設施效能,完善雲 AI 高效可靠的服務。
你也許還想看:

關鍵詞
基準測試
故障
系統
工作負載
可靠性