微軟研究院開源AIOpsLab：一個AI驅動的雲運維框架

微軟研究院推出 AIOpsLab 開源框架，旨在推進雲運維中 AI 智慧體的開發和評估。該工具提供了一個標準化且可擴充套件的平臺，應對複雜的雲環境中所面臨的故障診斷、事件緩解和系統可靠性等方面的挑戰。

隨著微服務和無伺服器架構在企業 IT 中成為標準，其複雜性帶來了新的運維挑戰。停機可能會影響關鍵業務運營，這凸顯了維護系統可用性工具的重要性。許多現有的解決方案依賴專有服務或臨時的手段，可能缺乏靈活性和一致性。AIOpsLab 提供了一個標準化的框架來評估和增強不同雲環境中的 AIOps 智慧體，有效解決了這些問題。

AIOpsLab 引入了幾個關鍵元件來實現其目標。該框架的核心是 Agent-Cloud Interface（ACI），它透過一個協調器將 AI 智慧體與應用服務分離。這個協調器負責定義任務、驗證操作，並與 API 互動執行問題解決策略。任務還透過動態工作負載和故障生成器得到進一步增強，能夠模擬資源耗盡、級聯故障等真實運維場景。

來源：微軟部落格

這一介面概念引發了社群的廣泛關注。雀巢解決方案架構師 Marco Casula了他的看法：

這是一個有趣的想法。我們也提倡使用一個協調層來處理使用者和機器人之間的狀態。同樣，我十分贊同為所有智慧體預定義介面的想法，這使得管理基礎設施版本變得容易得多（我們稱之為 GenAI 虛擬智慧體規範）。我會進一步深入研究。我很想知道他們是如何處理領域外（out-of-domain）、主題外（out-of-topic）和所需操作等問題的。

AIOpsLab 支援包括事件檢測、根本原因分析和緩解在內的一系列運維任務，既是一個基準測試工具，也是一個訓練環境。研究人員可以利用它在可復現的條件下評估 AIOps 智慧體的效能，同時利用其模組化設計將框架擴充套件到新的應用場景中。

AIOpsLab 還整合了 React、Autogen 和 TaskWeaver 等流行的智慧體框架，讓廣泛的開發者社群更易於訪問。其故障注入功能能夠詳細測試系統間的依賴關係，提高雲服務的彈性。

此外，AIOpsLab 遵循微軟的安全標準和負責任的 AI 原則。未來計劃與生成式 AI 團隊合作，將 AIOpsLab 納入評估前沿模型的基準體系。

AIOpsLab 已在 GitHub 上開源，基於 MIT 許可。

檢視英文原文：

https://www.infoq.com/news/2025/01/microsoft-reasearch-aiopslab/

宣告：本文由 InfoQ 翻譯，未經許可禁止轉載。

會議推薦

在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下，變革與機遇交織，挑戰與突破共生。2025 年 4 月 10 – 12 日，QCon 全球軟體開發大會將在北京召開，以 “智慧融合，引領未來” 為年度主題，匯聚各領域的技術先行者以及創新實踐者，為行業發展撥雲見日。現在報名可以享受 8 折優惠，單張門票立省 1360 元，詳情可聯絡票務經理 18514549229 諮詢。