字節跳動:用AI省下10億

2025 年 4 月 27 日,字節跳動表示,ByteBrain 利用大模型(LLM)最佳化火山引擎穩定性,重要 oncall 提效 26%,基於運籌最佳化演算法對系統成本進行最佳化,近三年節省成本超 10 億人民幣。
近年來,字節跳動基礎架構團隊持續在 AI for Infra/System 佈局,旨在使用AI技術最佳化雲計算系統,並取得了顯著成果。
2025 年剛剛過去 4 個月,基礎架構 ByteBrain 團隊已經有 11 篇論文在 AI for Infra 領域的頂會發表或接收,其中 CCF – A 類會議 10 篇(SIGMODx3, VLDBx4, EuroSys, FSE, WWW 各 1 篇),ICLR 1 篇(ICLR暫未進入 CCF 列表,但是公認的機器學習三大頂會之一)。
學術論文僅僅是 ByteBrain 團隊的副產出,工業界最重要的是業務收益。
ByteBrain 利用大模型(LLM)最佳化火山引擎穩定性,重要 oncall 提效 26%,基於運籌最佳化演算法對系統成本進行最佳化,近三年節省成本超 10 億人民幣。
除此之外,ByteBrain 還在異常檢測,根因分析,AI for DB,DB for AI,Text2SQL,LLM Multi-Agent 等方向取得了較好進展,例如把預訓練語言模型應用在 NDV(Number of Distinct Values)預測上,可以無需取樣資料進行 NDV 估計,該項技術是領域內第一個基於語言模型進行 NDV 估計的工作,可以在無需訪問原始資料的情況下達到開箱即用的效果,成果發表在 SIGMOD25,並正整合到生產環境中。
在 AI 時代,字節跳動把大模型等相關技術規模化應用在了雲計算和 IT 基礎設施的最佳化中,並樂於分享最新的研究成果,反饋在開源社群和頂級學術會議上(詳見本文附錄)。這些成果的發表也表明字節跳動正走在該領域(AI for Infra)的前列。
ByteBrain 是字節跳動的 AI for Infra 服務平臺,旨在利用 AI,特別是機器學習、大模型和運籌最佳化技術,對基礎架構和系統的全生命週期進行自動最佳化。
最佳化物件包括:資料庫、儲存、大資料系統、虛機、容器、網路、運維和穩定性等。
ByteBrain 的主要方向為 AIOPS、AI4DB、運籌最佳化、LLM4Infra 四大方向,功能模組包括容量規劃、資源排程、系統調參、異常檢測、根因分析、慢SQL最佳化、Text2SQL、LLM-AGENT等。
截止 25 年 4 月份 ByteBrain 團隊的學術論文(* corresponding author)

(1)PLM4NDV: Minimizing Data Access for Number of Distinct Values Estimation with Pre-trained Language Models

SIGMOD, 2025
Xianghong Xu, Xiao He, Tieying Zhang*, Rui Shi, Lei Zhang, Jianjun Chen
(2)AdaNDV: Adaptive Number of Distinct Value Estimation via Learning to Select and Fuse Estimators
VLDB, 2025
Xianghong Xu, Tieying Zhang*, Xiao He, Haoyang Li, Rong Kang, Shuai Wang, Linhui Xu, Zhimin Liang, Shangyu Luo, Lei Zhang, Jianjun Chen
(3)Adaptive and Efficient Log Parsing as a Cloud Service
SIGMOD, 2025
Zeyan Li, Jie Song, Tieying Zhang*, Tao Yang, Yingjie Ye, Pengfei Duan, Jianjun Chen
(4)Data-Agnostic Cardinality Learning from Imperfect Workloads
VLDB, 2025
Peizhi Wu, Rong Kang, Tieying Zhang*, Jianjun Chen, Ryan Marcus, Zachary G. 
Ives

(5)TickIt: Leveraging Large Language Models for Automated Ticket Escalation

FSE, 2025
Fengrui Liu, Xiao He, Tieying Zhang*, Jianjun Chen, Yi Li, Lihua Yi, Haipeng Zhang, Gang Wu, Rui Shi
(6)ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning
VLDB, 2025
Zhe Xie, Zeyan Li, Xiao He, Longlong Xu, Xidao Wen, Tieying Zhang*, Jianjun Chen, Rui Shi, Dan Pei*
(7)Flow-of-Action: SOP Enhanced LLM-Based Multi-Agent System for Root Cause Analysis
WWW, 2025
Changhua Pei, Zexin Wang, Fengrui Liu, Zeyan Li, Yang Liu, Xiao He, Rong Kang, Tieying Zhang*, Jianjun Chen, Jianhui Li*, Gaogang Xie, Dan Pei
(8)E2ETune: End-to-End Knob Tuning via Fine-tuned Generative Language Model
VLDB, 2025
Xinmei Huang, Haoyang Li, Jing Zhang*, Xinxin Zhao, Zhiming Yao, Yiyan Li, Tieying Zhang*, Jianjun Chen, Hong Chen, Cuiping Li
(9)Learning to Communicate Through Implicit Communication Channels
ICLR, 2025
Han Wang, Binbin chen, Tieying Zhang, Baoxiang Wang
(10)ABase: The Multi-Tenant NoSQL Serverless Database for Diverse and Dynamic Workloads in Large-scale Cloud Environments
SIGMOD, 2025
Rong Kang, Yanbin Chen, Ye Liu, Fuxin Jiang, Qingshuo Li, Miao Ma, Jian Liu, Guangling Zhao, Tieying Zhang, Jianjun Chen, Lei Zhang
(11)Towards VM Rescheduling Optimization Through Deep Reinforcement Learning
EuroSys, 2025
Xianzhong Ding, Yunkai Zhang, Binbin Chen, Donghao Ying, Tieying Zhang*, Jianjun Chen, Lei Zhang, Alberto Cerpa, Wan Du


相關文章