騰訊、華為、微軟、阿里專家齊聚一堂,共談推理最佳化實踐|AICon

在人工智慧快速演進的浪潮下,大模型正加速重構各行業的技術底座,而推理效能最佳化正成為應對算力挑戰、記憶體瓶頸與通訊壓力的關鍵突破口。
當前,大模型推理效能最佳化主要圍繞模型最佳化、推理加速與工程最佳化三大方向展開:透過模型量化、剪枝與蒸餾等手段降低計算複雜度、提升推理效率,例如 DeepSeek-R1-Distill-Qwen-32B 採用蒸餾策略,在保持高效能的同時顯著壓縮資源開銷;依託 SGLang、vLLM 等高效推理引擎提升生成速度與系統吞吐能力;同時結合實際業務場景,合理規劃併發策略、最佳化 GPU 配置,打造具備高可用性與擴充套件性的推理服務體系。
在即將於 5 月 23 日 -24 日舉辦的 AICon 全球人工智慧開發與應用大會·上海站 中,我們特別策劃了《大模型推理效能最佳化策略》專題論壇,由阿里雲公共雲大模型技術服務負責人王德山擔任專題出品人,現已確認多位業內實踐者參與分享。以下為嘉賓陣容及即將帶來的精彩議題簡介~
向乾彪 – 騰訊推理架構師
向乾彪在 GPU 推理加速擁有豐富經驗。他的技術專長覆蓋高效能異構計算及深度效能最佳化,並在實踐中不斷突破前沿技術瓶頸。目前,向乾彪帶領團隊負責混元大語言模型的推理加速框架【AngelHCF】。這一框架不僅在運算元設計、通訊最佳化、架構調整等方面進行了全面探索,更在實際應用中針對混元 LLM 大語言模型取得了顯著的成本和效能優勢。 在他的專題演講《騰訊混元 AngelHCF 推理加速框架最佳化實踐》中,將詳細介紹了以下幾個關鍵內容:
  • 混元模型與推理加速框架概述:以騰訊混元模型為背景,他將深入闡述 AngelHCF 框架的設計理念與核心技術;
  • 混元 Turbos Hybrid 推理最佳化與 Mamba Hybrid 模型優勢:從模型結構創新出發,他將探討如何透過混合模式最佳化實現整體效能躍升;
  • Kernel、視訊記憶體與 KVCache 最佳化細節:他將涉及到底層效能調優的各項技術,透過視訊記憶體及 KVCache 最佳化顯著降低資源消耗;
  • 超大規模 MoE 模型並行策略:針對萬億引數級的 MoE 模型,他將介紹透過混合切分策略、模型壓縮和 PD 分離部署等措施,有效緩解通訊瓶頸並提升推理效率;
  • 智慧排程與計算通訊重疊策略:他還將探討如何透過請求智慧排程和計算通訊的重疊最佳化,確保在大規模推理環境下系統平穩高效執行。
這場分享將使聽眾未來能夠深入瞭解在混元 Turbos Hybrid 結構下如何實現效能突破,並展示騰訊在大模型推理加速領域的前沿實踐,為參與者提供諸多思路和啟發。
張君 – 華為高階開發工程師
作為華為昇思 AI 框架(昇思)核心開發者之一,他在解決大模型在計算、記憶體及通訊等方面的瓶頸問題上,積累了豐富的工程經驗。張君的演講主題為《華為昇騰推理技術的最佳化實踐》,他將從以下幾個層面展開討論:
  • 大模型推理加速的技術難題與解決方案:他將聚焦於推理過程中的運算元融合、模型量化及 Attention 容量壓縮,旨在降低計算成本;
  • 模型層、框架層及運算元層的協同最佳化:他將解析如何利用昇騰硬體的加速庫(如 ATB)、圖編譯技術(TorchAir)以及 PD 分離部署技術實現多層次的效能提升;
  • 動態批處理與前沿融合運算元設計:他還將介紹動態批處理技術(Dynamic Batching)和高效運算元設計的實際應用案例,以展示如何最大化硬體資源的使用效率。
透過這場演講,聽眾將會全面瞭解華為昇騰平臺在大模型推理技術最佳化方面的實踐經驗,並體會到從演算法到硬體的全鏈路提升在未來帶來的巨大潛力與實際收益。
姜慧強 – 微軟亞洲研究院研究開發工程師
姜慧強專注於高效推理和訓練方法的探索。在多項國際頂級會議上發表過高水平論文,他的研究領域涵蓋動態稀疏注意力、KV 快取最佳化、提示壓縮等前沿方向,為大語言模型的高效推理提供了多維度創新解決方案。
在《以 KV 快取為中心的高效長文字方法的最佳化和實踐》這一專題演講中,姜慧強將從技術應用角度出發,全面解析長上下文大語言模型在推理過程中的挑戰及應對策略。演講主要聚焦以下幾個方面:
  • 長文字應用的推理瓶頸:他將詳述長文字處理所帶來的計算與記憶體壓力,並剖析現有基準測試忽略 KV 快取全生命週期的侷限;
  • KV 快取為核心的架構設計:他將介紹如何圍繞 KV 快取生成、壓縮、檢索和載入等環節進行最佳化,並闡明這些措施在實際應用中可能帶來的突破效果;
  • SCBench 基準測試工具的應用:他將展示 SCBench 的設計理念和實驗資料,對比常規推理最佳化方法與 KV 快取策略的綜合性能;
  • 技術趨勢與發展展望:他將對比當前各大 LLM 供應商在 KV 快取技術上的不同做法,展望長文字高效推理的未來演進方向。
聽眾從他的演講中可以瞭解到前沿高效長文字方法的設計思路和方法,更好低降低推理成本。
李元龍 – 阿里雲技術專家
李元龍在阿里雲負責大模型在 B 端客戶的應用方案設計與落地,致力於模型訓練與推理技術的全鏈路最佳化實踐。在題為《超越算力瓶頸,大模型推理的跨層最佳化前沿實踐》的演講中,李元龍將為聽眾帶來一場涵蓋多個層次的技術分享,主要內容包括:
  • 大模型推理全鏈路剖析:從 Transformer 前向傳播核心流程出發,系統解析各關鍵模組的設計及其最佳化空間;
  • 模型架構層至硬體層的深度融合:將介紹從模型、框架、編譯到硬體加速的整體最佳化策略,包括 PyTorch 動態圖編譯、運算元最佳化和 CUDA 平行計算策略等;
  • 跨層協同最佳化策略與實戰經驗:深入講解垂直分層與橫向協同的技術體系,以及動態計算圖與稀疏啟用模式等前沿技術,展示如何有效突破算力瓶頸;
  • 未來推理效能提升的全景展望:將探討模型並行、硬體選型和通訊重疊等新思路,並提供具體的落地方案和實踐指南。
他的分享為聽眾提供簡明扼要的推理部署最佳化指南,可以使使用者快速找到適合自己場景的模型推理部署策略。
活動推薦:
AICon 人工智慧開發與應用大會將於 5 月 23-24 日舉辦,聚焦多模態、Agent、端側智慧、模型推理等前沿技術,內容豐富,乾貨滿滿,誠邀大家線下相聚!在這裡,你將深入瞭解 AI 技術在各領域的最新實踐與落地路徑,包括:
  1. Motiff 妙多與《麥琪的花園》遊戲技術高管分享 AI 原生產品從戰略構想到實際落地的核心方法;
  2. 科技企業如何借力新加坡及全球生態體系,把握關鍵節點,實現技術突破與市場落地;
  3. 多領域 Agent 應用的落地案例,涵蓋程式碼自動化、企業培訓、金融智慧化等方向,探索背後的挑戰與解決方案;
  4. 硬體終端如智慧眼鏡、詞典筆等前沿產品的應用場景與關鍵技術突破;
  5. 多模態大模型的實踐探索:從長影片理解、多模態訓練,到 AIGC 在影片與遊戲創作中的創新賦能;
  6. 50+ 行業專家共聚,深度解析大模型的最新進展與前沿趨勢。

相關文章