AI時代下的雲原生技術,大廠有哪些前沿實踐經驗?|Q推薦

當前,AI 和雲原生技術已經成為推動企業創新與發展的兩大核心力量。隨著 AI 模型的複雜度不斷增大,企業正面臨前所未有的技術挑戰。一方面,AI 模型對計算資源的需求彈性極大,傳統的資源管理方式難以滿足其動態變化的需求;另一方面,大規模叢集的排程效能和質量問題、雲原生系統的可觀測性不足,以及大模型應對突發流量的挑戰等問題,也給工程師們帶來了巨大的壓力。
5 月 17 日,字節跳動雲原生技術沙龍將在位元組上海辦公區正式啟動。本次沙龍匯聚了多位來自字節跳動、嗶哩嗶哩、螞蟻集團的技術大咖,共同探討 AI 時代下的雲原生技術,有哪些前沿解決方案與實踐經驗。
立即報名
📍 時間:2025 年 5 月 17 日(週六)14:00-17:00
📍 地點:字節跳動上海工區(上海市楊浦區民府路 678 號新江灣廣場 T2A 號樓 F1-01)
🔥 掃描下方二維碼或點選文章最下方"閱讀原文"立即報名🔥
精彩議題搶先看
議題一:AIBrix:專為 vLLM 打造的可擴充套件、高性價比控制面
  • 時間:14:00-14:30
  • 嘉賓:謝立廣 Director of Engineering, ByteDance;徐樂 Researcher, ByteDance
2025 年 2 月 21 日,vLLM 透過官方部落格宣佈,由字節跳動開發的 AIBrix 大模型推理系統開源,為 vLLM 推理引擎提供可擴充套件且高性價比的控制面。AIBrix 基於“系統與推理引擎協同設計”的理念,核心目標是以雲原生方式在 Kubernetes 上構建可擴充套件的推理系統。
本次演講將分享 AIBrix 推理系統的技術架構與創新點,展示 AIBrix 是如何幫助企業更加輕量、彈性地構建面向生產的 LLM 推理服務的。
議題二:嗶哩嗶哩在離線容器排程系統實踐
  • 時間:14:30-15:00
  • 嘉賓:戴一帆 嗶哩嗶哩資深開發工程師
隨著業務的快速增長,傳統的排程方式在資源利用率、任務排程效率以及多場景適配性方面逐漸面臨挑戰。為此,嗶哩嗶哩進行了深度的技術最佳化與架構升級。
本次演講將深入分享嗶哩嗶哩在離線容器排程系統中的實踐經驗,全面展示聯邦排程架構設計、資源感知排程最佳化以及混部資源排程能力建設的實戰成果,為行業提供高效排程與資源最佳化的參考範例。
議題三:Gödel Rescheduler:適用於雲原生系統的全域性最優重排程框架
  • 時間:15:00-15:30
  • 嘉賓:宋心怡 字節跳動雲原生資深工程師
在雲原生排程中,一次排程往往無法解決所有問題,需要配合重排程來最佳化資源分配和任務擺放。為此,字節跳動研發了 Gödel Rescheduler——一個基於全域性最優排程策略的重排程框架。它不僅能識別叢集中的異常節點和任務,還能智慧推薦任務到最合適的位置,並透過圖演算法生成詳細的遷移步驟,確保叢集的整體穩定性,真正實現全域性最優排程。
本次演講將分享 Gödel Rescheduler 的設計理念與技術實現,揭示其如何透過全域性最優排程策略,解決傳統排程中的資源碎片化和任務擺放不合理問題。
議題四:Karpor: 開啟 AI 時代下可靠、安全、智慧的多叢集洞察之旅
  • 時間:15:50-16:20
  • 嘉賓:陳在 螞蟻集團雲原生技術專家,KusionStack 開源負責人、Maintainer
隨著雲原生技術的普及和企業多雲戰略的推進,Kubernetes 叢集的管理面臨跨雲和多叢集場景的一些新挑戰。同時,AI 的快速發展為提升運維效率提供了新思路。螞蟻集團開發的 Karpor,作為 KusionStack 平臺工程技術棧的一環,致力於簡化 Kubernetes 的複雜性。以資料面作為切入點,最佳化多叢集運維體驗,降低使用門檻,結合高效的視覺化洞察手段和 AI 能力提升人效。
本次演講將分享 Karpor 的設計理念與實踐,探討如何助力企業高效擁抱雲原生與 AI 的融合。
圓桌對話
在圓桌對話環節,將齊聚多位技術大咖,圍繞大規模叢集的排程效能和排程質量問題、雲原生可觀測性的現狀與未來、雲原生基礎設定如何助力大模型應對突發流量挑戰、AI 浪潮下工程師工作方式的革新與堅守多個熱門話題展開討論。
議題一:如何平衡大規模叢集的排程效能和排程質量問題
大規模叢集的排程在追求高效能的同時,也面臨著排程質量的挑戰。一方面,高效的排程演算法能夠快速分配資源,提升任務執行速度;另一方面,排程質量的高低直接影響系統的穩定性和資源利用率。
圍繞這一話題,嘉賓們將深入探討如何在大規模叢集中平衡排程效能與排程質量,分享他們在實際應用中的經驗與策略。
議題二:雲原生可觀測性的現狀與未來
雲原生架構的複雜性使得可觀測性成為保障系統穩定執行的關鍵。當前,雲原生可觀測性已經從基礎的日誌、指標和追蹤發展到更智慧化的分析和預測。展望未來,可觀測性的發展仍面臨諸多挑戰。
圍繞這一話題,嘉賓們將分享雲原生可觀測性的現狀、面臨的挑戰以及未來的發展方向。
議題三:雲原生基礎設定如何助力大模型應對突發流量挑戰
大模型的訓練和推理對計算資源的需求極高,尤其是面對突發流量時,雲原生基礎設施的彈性伸縮能力至關重要。透過容器化和編排技術,雲原生基礎設施可以快速分配資源,確保大模型的穩定執行。
圍繞這一話題,嘉賓們將探討雲原生基礎設施如何支援大模型應對突發流量挑戰,分享他們在實際部署中的經驗和最佳實踐。
議題四:AI 浪潮下工程師工作方式的革新與堅守
AI 技術的快速發展正在深刻改變工程師的工作方式。一方面,自動化工具和智慧助手能夠幫助工程師更高效地完成任務;另一方面,工程師需要不斷提升自身的 AI 素養,以更好地利用這些工具。
圍繞這一話題,嘉賓們將探討 AI 浪潮下工程師工作方式的革新與堅守,分享他們對於 AI 時代工程師能力的看法。
點選【閱讀原文】報名,與技術領袖共同探索 AI 時代下的雲原生技術。5 月 17 日,上海見!

相關文章