
微軟研究院推出 AIOpsLab 開源框架,旨在推進雲運維中 AI 智慧體的開發和評估。該工具提供了一個標準化且可擴充套件的平臺,應對複雜的雲環境中所面臨的故障診斷、事件緩解和系統可靠性等方面的挑戰。
隨著微服務和無伺服器架構在企業 IT 中成為標準,其複雜性帶來了新的運維挑戰。停機可能會影響關鍵業務運營,這凸顯了維護系統可用性工具的重要性。許多現有的解決方案依賴專有服務或臨時的手段,可能缺乏靈活性和一致性。AIOpsLab 提供了一個標準化的框架來評估和增強不同雲環境中的 AIOps 智慧體,有效解決了這些問題。
AIOpsLab 引入了幾個關鍵元件來實現其目標。該框架的核心是 Agent-Cloud Interface(ACI),它透過一個協調器將 AI 智慧體與應用服務分離。這個協調器負責定義任務、驗證操作,並與 API 互動執行問題解決策略。任務還透過動態工作負載和故障生成器得到進一步增強,能夠模擬資源耗盡、級聯故障等真實運維場景。

來源:微軟部落格
這一介面概念引發了社群的廣泛關注。雀巢解決方案架構師 Marco Casula了他的看法:
這是一個有趣的想法。我們也提倡使用一個協調層來處理使用者和機器人之間的狀態。同樣,我十分贊同為所有智慧體預定義介面的想法,這使得管理基礎設施版本變得容易得多(我們稱之為 GenAI 虛擬智慧體規範)。我會進一步深入研究。我很想知道他們是如何處理領域外(out-of-domain)、主題外(out-of-topic)和所需操作等問題的。
AIOpsLab 支援包括事件檢測、根本原因分析和緩解在內的一系列運維任務,既是一個基準測試工具,也是一個訓練環境。研究人員可以利用它在可復現的條件下評估 AIOps 智慧體的效能,同時利用其模組化設計將框架擴充套件到新的應用場景中。
AIOpsLab 還整合了 React、Autogen 和 TaskWeaver 等流行的智慧體框架,讓廣泛的開發者社群更易於訪問。其故障注入功能能夠詳細測試系統間的依賴關係,提高雲服務的彈性。
此外,AIOpsLab 遵循微軟的安全標準和負責任的 AI 原則。未來計劃與生成式 AI 團隊合作,將 AIOpsLab 納入評估前沿模型的基準體系。
AIOpsLab 已在 GitHub 上開源,基於 MIT 許可。
檢視英文原文:
https://www.infoq.com/news/2025/01/microsoft-reasearch-aiopslab/
宣告:本文由 InfoQ 翻譯,未經許可禁止轉載。
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
