編輯:Panda
因為基準測試成績與實際表現相差較大,近期開源的 Llama 4 系列模型正陷入爭議的漩渦之中,但有一點卻毫無疑問:MoE(混合專家)定然是未來 AI 大模型的主流正規化之一。從 Mixtral 到 DeepSeek 再到 Qwen2.5-Max 以及 Llama 4,越來越多的 MoE 架構模型正在進入世界最前沿模型之列,以至於英偉達也已開始針對 MoE 架構設計和最佳化自家的計算硬體。
但是,MoE(尤其是大規模 MoE)也會給 AI 基礎設施帶來不一樣的挑戰。昨天,在 AI 勢能大會下午的 AI 基礎設施峰會上,阿里雲智慧集團副總裁、阿里雲智慧計算平臺事業部負責人汪軍華就談到了 MoE 架構特有的一些困難,包括 token drop 選擇對吞吐的影響、在路由專家與共享專家之間考慮效率和效果的權衡、專家的選取數量和比例等。

汪軍華表示 AI 正規化正在向 MoE 和推理模型演進
阿里雲已經在解決這些難題上取得了重大進展。峰會上,針對 MoE 架構的模型,阿里雲宣佈基於 PAI-DLC 雲原生分散式深度學習訓練平臺推出了 FlashMoE,這是一款支援超大規模 MoE 混合精度訓練的高效能訓練框架,具有多種強大特性,包括支援多種 token 路由策略、支援上下文並行與張量並行解耦等。
當然,阿里雲在 AI 基礎設施上的佈局遠不限於 MoE。無論是硬體算力的投入,還是一體化的訓練和推理服務,它都在用硬核實力夯實自己的領先地位。在這場 AI 基礎設施的競賽中,阿里雲已然搶佔先機。
從算力到安全
阿里雲這樣構建 AI 基礎設施
從算力基礎到彈性靈活的解決方案,再到儲存與網路技術,以及至關重要的安全能力,阿里雲正在不斷演進面向 AI 時代的基礎設施,以提高其產品力和使用者體驗。
首先,在基礎算力方面,阿里雲宣佈 ECS 第 9 代 Intel 企業級例項正式開啟商業化,其基於英特爾第六代至強處理器 GNR,搭配阿里雲最新 CIPU 架構,可讓叢集效能相對前代提升最高達 20%,同時價格較上代再降 5%。
今年也是阿里雲彈性計算 15 週年,AI 驅動的阿里雲基礎設施將持續面向更高效能、更穩定的架構和產品深入演進。

在強大算力的基礎上,阿里雲還在對靈駿叢集不斷進行最佳化。阿里雲智慧集團副總裁、阿里雲智慧彈性計算、儲存產品線負責人吳結生表示:「我們針對 AI 負載進行了大量最佳化,把靈駿叢集構造成了雲超級計算機。」總結起來,靈駿叢集的技術體系包含 4 個創新點,包括 HPN 高效能網路、CPFS 高效能檔案儲存、定製化的 AI 伺服器以及強大的故障檢測能力。
首先,在網路技術方面,阿里雲設計的 HPN 7.0 高效能網路架構是靈駿叢集的核心網路技術,能讓機器更高效、更緊密的合作。實際效果上,利用 HPN7.0 高效能網路架構,可實現單叢集10 萬張 GPU 卡互聯,同時提供 3.2T 跨機頻寬。
其次,值得一提的是靈駿管控和自愈系統,這能降低故障頻次,縮短故障恢復時間,從而增強叢集的穩定性,提高算力的使用率 —— 在萬卡級超大規模訓練中,一個月內靈駿 GPU 叢集有效訓練時長佔比超過 93%。

為了保證 AI 業務穩定,算力很重要,高效能且可靠的儲存也必不可少。對此,阿里雲給出的解答是 CPFS(Cloud Parallel File Storage)高效能儲存與 OSS(Object Storage Service)物件儲存服務。
其中,CPFS 適用於高效能計算,支援對資料毫秒級的訪問和百萬級 IOPS 的資料讀寫請求,能實現 40 GB/s 的單客戶端吞吐效能。
CPFS 還針對 AI 應用進行了最佳化,在實現高效能並行的同時,還支援端側快取和分層儲存(包括 KV Cache),從而能高效率和低成本地滿足 AI 的訓推需求。
OSS 則適用於儲存大量非結構化資料,適用於多種計算引擎和 AI 框架,具有海量、安全、易整合、低成本、高可靠的優勢。在 AI 基礎設施峰會上,阿里雲宣佈推出高效能的 OSSFS 2.0,這是一款專門用於透過掛載方式高效能訪問 OSS 的客戶端,它具備出色的順序讀寫能力,可充分發揮 OSS 的高頻寬優勢。此外,阿里雲還宣佈首次將預設 100 Gbps 吞吐效能擴充套件到了海外(新加坡)。OSS 同城冗餘也已在吉隆坡上線,現已覆蓋全球 12 個地域。

阿里雲也為 CPFS 和 OSS 之間的資料流動構建了高速、高頻寬的通道,使訓練或推理框架可以透過檔案系統的介面訪問 OSS。
安全與穩定性同樣也是許多 AI 應用開發者關注的核心問題之一,而阿里雲已經構建了一整套用以保障算力穩定供給和資料安全的體系,其中包括 20 多款雲產品和近百項可一鍵開啟的安全能力。
面向 MoE 結構和推理模型
AI 正規化正在演進
正如開篇所說,MoE 模型架構與推理模型正在不斷推動 AI 訓推的正規化升級,在本次釋出上,阿里雲人工智慧平臺 PAI 針對性地推出一系列新能力。
在模型構建方面,針對推理模型,阿里雲推出了 PAI-Chatlearn 和 Post-training on PAI-DLC。其中前者是一種支援 RLHF、DPO、OnlineDPO、GRPO 等多種強化學習演算法的大規模對齊訓練框架,同時也支援使用者自己開發的強化學習演算法,並且適配 Megatron、vLLM、DeepSpeed 等多種框架。不僅如此,PAI-Chatlearn 還是開源的。而後者則包含 SFT 等後訓練能力,支援 Ray on DLC、統一排程、Serverless、Ray Dashboard 和開發機等功能。
而對於 MoE 模型,前文已經提到了基於 PAI-DLC 的 FlashMoE,其實際表現可說是相當亮眼:在萬卡規模上,可將 MoE 訓練的 MFU(模型 Flops 利用率)提升到 35-40%。
而在推理加速方面,阿里雲同樣沒有落下。直接上資料。
首先,阿里雲推出的全新模型權重服務將 1-100 節點的冷啟動速度提升了 21倍;如果從 50 個節點擴容到 100 個節點,則分散式推理系統的規模化擴容效率可提升 12 倍。
而基於 KV Cache 的分散式推理服務 PAI-EAS 可將千萬級活躍使用者場景的 KV Cache 命中率提升 10 倍!基於 3FS 的儲存系統 IO 效率獲得了大幅提升(讀吞吐提升了 43%,寫吞吐提升了 27%)。
另外,PAI-EAS 具備負載感知的 PD 分離架構,端到端服務吞吐提升 91%。

針對 MoE 模型,阿里雲宣佈推出了針對性的分散式推理引擎 Llumnix,透過在請求層面、請求內和硬體並行策略方面的精心設計,相比於 Round-robin 請求排程方案,可將 TTFT(首 token 延遲)降低 92%(P99),將 TPOT(每輸出 token 延遲)降低 15%(P99)。
此外,阿里雲也對雲原生大資料服務 MaxCompute 進行了全面的 AI 升級,釋出了 AI Function,可支撐使用者構建 Data+AI 一體化工作流。
同時,阿里雲在會上宣佈大資料 AI 產品全面擁抱 MCP,大資料開發治理平臺 DataWorks 釋出基於 MCP 的 Agent 服務,DataWokrs 和 Hologres 釋出了 MCP Server。

智慧時代的資料庫
讓資料和 AI 更近
有了高效算力和平臺,要創造足夠好的 AI 應用,資料也是必不可少的一環。正如阿里雲智慧集團副總裁、阿里雲智慧資料庫產品事業部負責人李飛飛說的那樣:資料、演算法、算力是智慧時代的三大要素。因此,對資料庫正規化的革新也必不可少。那麼智慧時代對資料庫的最核心需求是什麼呢?李飛飛認為是「對多模態資料的智慧化管理」。
為此,阿里雲正在不斷創新。此次峰會上,阿里雲重點介紹了其資料庫產品的一系列重磅升級。
首先,阿里雲宣佈實現了模型即運算元(Model as an Operator)的 In-DB AI 功能,也就是說可以將模型作為運算元直接內嵌到資料庫中。這樣做具有明顯的好處,包括能使用更低的推理成本獲得同等的 AI 能力、可以透過 SQL 語句輕鬆呼叫、可避免企業私有資料出域。李飛飛表示,阿里雲會在今年內讓 PolarDB、Lindorm 和 AnalyticDB 都支援 In-DB AI。

阿里雲在資料庫方面的另一大重要舉措是採用了 Data+AI 的設計理念。具體來說,透過統一 CPU 和 GPU 資源池,瑤池資料庫實現了資源池化,支援分時分片彈性排程,進而幫助客戶降本增效。
此外,阿里雲還宣佈將 Tair 從網際網路架構演進成了面向 AI 時代的架構:透過基於 Tair 記憶體池的 KV Cache 多級管理,可為大模型推理提供高效的 KV Cache 儲存和複用。同時,Tair KVCache 還支援多租隔離、資源配額、故障恢復等企業級管理能力。

當然,阿里雲資料庫產品的升級之路還將繼續向前。阿里雲透露將於今年下半年釋出全球首款基於 CXL(Compute Express Link)交換機的資料庫專用伺服器。CXL 高速互聯技術可以進一步提升三層解耦架構下計算與記憶體之間的通訊頻寬與效率。與傳統的 RDMA 高速網路相比,CXL 技術可將記憶體互動的效能提升一個數量級。
用 AI 基礎設施支撐智慧未來
阿里雲準備好了
在 AI 迅猛發展的今天,強大的算力已成為驅動創新的核心動力。阿里雲深刻洞察這一趨勢,持續加大在 AI 基礎設施領域的投入,致力於為全球使用者提供高效、穩定的計算資源。
現在,依託於在 AI 基礎設施上的創新和投入,阿里雲已為開發者和企業搭建了一個堅實的平臺,使他們能夠專注於演算法創新和應用開發,而無需過度關注底層計算資源的限制。而這正是 AI 大規模應用的重要基礎。
正如吳結生說的那樣:「雲計算是一種公共服務。隨著 AI 的發展,智慧會變成一種資源,就像水和電一樣。這樣一來,token 就變成了一種商品。雲上的算力正在以這種公共服務的方式給大家提供這種商品,從而普及 AI,讓 AI 走進千行百業,讓 AI 實現大眾化和規模化。」

而當智慧成為一種「資源」,基礎設施的供給能力,也將決定 AI 能走多遠、飛多高。
阿里雲正攜手企業和開發者,共同邁向智慧化的未來。在這場奔赴未來的基建競速中,阿里雲,已在路上。
關注飛天釋出時刻,及更多精彩釋出內容: https://summit.aliyun.com/apsaramoment
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]