
7 月 4 日,在 2024 年世界人工智慧大會 AI 基礎設施論壇上,無問芯穹聯合創始人兼 CEO 夏立雪釋出了全球首個千卡規模異構晶片混訓平臺,和同構訓練相比,千卡異構混合訓練利用率最高達到了 97.6%。這也是全球首個可進行單任務千卡規模異構晶片混合訓練的平臺,具備萬卡擴充套件性,支援包括 AMD、華為昇騰、天數智芯、沐曦、摩爾線程、NVIDIA 六種異構晶片在內的大模型混合訓練。
當前,全球範圍內在大模型訓練領域,主流做法是結合 PyTorch、Megatron 等先進的計算框架與英偉達(NVIDIA)的 GPU 晶片進行高效分散式訓練。儘管英偉達 GPU 在大模型訓練所需的算力供給中佔據主導地位,近年來中國本土晶片製造商也逐漸嶄露頭角,研發出一系列高能效的 AI 處理器,包括華為昇騰、寒武紀 MLU、燧原科技、海光 DCU、摩爾線程等品牌。這些國產晶片不僅豐富了市場選擇,也為大模型的訓練提供了多樣化的算力支援。
然而,在實際操作中,大模型訓練往往需要數百乃至數千張 GPU 卡的並行運算,以 Llama3-70B 這一特定模型為例,其龐大的 700 億引數意味著訓練過程至少需要 900 張 H100 GPU 卡持續工作 10 個月。但由於多種原因,可能無法集齊如此大量的同型號 GPU 卡,這種情況的出現可能性更大:僅有 500 張 NV H100(每張提供 969 TFLOPS 算力)、400 張華為 Ascend 910B(每張 256 TFLOPS)以及 700 張 AMD MI250X(每張 383 TFLOPS)。雖然任何單一型別的 GPU 卡數量均不足以獨立完成 Llama3-70B 模型的訓練,但若將這三種不同品牌、不同規格的 GPU 卡進行混合使用,其總體算力則足以覆蓋該大模型的訓練需求。
然而由於不同晶片廠商的晶片體系結構及軟體生態的差異性,導致異構卡混合訓練大模型存在非常大的挑戰。7 月 4 日,在 2024 年世界人工智慧大會上,無問芯穹釋出全球首個千卡規模異構晶片混訓平臺,和同構訓練相比,千卡異構混合訓練利用率最高達到了 97.6%,是全球首個可進行單任務千卡規模異構晶片混合訓練的平臺,具備萬卡擴充套件性,支援包括 AMD、華為昇騰、天數智芯、沐曦、摩爾線程、NVIDIA 六種異構晶片在內的大模型混合訓練。
本文將深入解讀這一重大進展背後的技術思路,由無問芯穹與清華、上交的聯合研究團隊呈現。
異構晶片間的混訓主要面臨兩大挑戰,一是異構卡通訊庫差異,導致異構卡之間通訊難,二是異構卡之間效能差異,導致模型分散式訓練低效。
-
多晶片互通互聯的複雜性:如何實現不同晶片間高效、穩定的通訊;
-
算力不均衡導致效能損失:不同晶片的計算能力存在天然的差異,這種不均衡性會直接影響到模型訓練的整體效率,如何根據合理的並行策略進行任務的切分。
異構卡通訊庫的差異導致異構卡之間通訊難,通常會成為大模型訓練的瓶頸。不同廠商的 GPU 或 AI 晶片為了最佳化通訊,通常會構建自己的通訊庫,在內部架構和通訊介面上存在差異,導致不同通訊庫之間無法通訊。這要求在構建大規模混合訓練系統時,必須設計出高度相容且高效的互聯互通方案,確保多晶片間的高效、容錯及穩定性通訊,這需要複雜的軟體棧支援和細緻的網路配置,以最小化通訊延遲和頻寬瓶頸。
為了解決不同型別信顯示卡之間的通訊問題,我們實現了無穹集合通訊庫 (IHCCM),它支援基於 CPU 或者基於 GPU 的兩種通訊方式。

圖注:IHCCM 通訊庫架構
如下圖所展示,IHCCM 通訊架構注重了異構叢集的可擴充套件性,能夠支援新型晶片快速、低成本的部署到叢集,為異構計算環境下的高效能訓練系統打下基礎。
在此架構中,同構節點內部,GPU 與 CPU 之間透過高速 PCIe(Peripheral Component Interconnect Express)交換機進行通訊。跨節點通訊則採取了更為靈活的策略,不同節點的 CPU 之間,無論是透過 IPoIB(IP over InfiniBand)介面卡或者乙太網,均可實現高效的資料傳輸。這一設計充分考慮了異構環境的複雜性與多樣性,確保了在架構迥異的晶片間維持穩定而高效的通訊鏈路。
具體通訊流程為:當模型引數需要從源 GPU 遷移到目標節點的異構 GPU 時,首先會經由 PCIe 通道,將資料從 GPU 複製到源節點的 CPU,隨後透過 IPoIB 或乙太網跨越節點邊界,抵達目標節點的 CPU。在這裡,資料再次藉助 PCIe 的高速能力,被複制至目標 GPU 上,整個過程中,CPU 起到了至關重要的中轉與協調作用。透過這一系列步驟,有效地規避了不同 GPU 間通訊庫差異帶來的潛在障礙,儘管引入了額外的 CPU-GPU 資料複製開銷,但這在很大程度上換取了異構混訓系統的整體穩定性和相容性,為大規模、跨架構的模型訓練提供了堅實的基礎。

圖注:基於 CPU 的通訊流程
針對異構 GPU 環境下大規模模型訓練所面臨的通訊瓶頸,我們設計了一個基於 RDMA(Remote Direct Memory Access)技術的創新通訊架構,將不同 GPU 晶片間透過 InfiniBand(IB)網路進行高效資料交換。鑑於大模型訓練中計算與通訊的強耦合特性,通訊效率直接關係到整體訓練效能,因而各大晶片製造商紛紛研發專屬通訊庫,旨在提升自家 GPU 的通訊效能。然而,這些通訊庫在 API、資料型別等層面的差異化,構成了異構 GPU 間直接通訊的主要障礙。
為破局這一困境,我們制定了一套標準化的分散式通訊介面規範,該協議涵蓋了基礎的點對點通訊功能,如非同步傳送(iSend)、非同步接收(iReceive),以及集合通訊機制,包括非同步全規約(iAllReduce)、非同步全播送(iAll-to-All)等高階功能,確保了資料在異構叢集內能夠順暢流通。這套統一的通訊協議,不僅顯著提升了通訊效率,還為異構 GPU 間的協作開闢了全新路徑。
值得注意的是,這一方法離不開對各廠商集合通訊庫的深度適配與最佳化。透過將無穹集合通訊庫(IHCCM)應用到訓練過程,我們不僅實現了異構 GPU 間的通訊,更透過時間重疊策略(即將計算過程與通訊過程互相重疊)最大程度地減少了通訊延遲對整體訓練效能的影響,從而顯著提升了大規模模型訓練的效率。

圖注:基於 GPU 的通訊流程
在異構分散式混合訓練系統中,硬體之間具有不同的特性,系統如何在算力分佈不均勻的情況下,根據模型特徵和系統的即時訓練狀態對任務進行均勻或非均勻的切分,保證算力的最大化利用,也是十分具有挑戰的。
在大語言模型的訓練中,採用基於流水線並行的異構訓練方案,透過非均勻拆分 transformer 層,可有效應對算力不均衡的難題。可以根據各晶片的實際算力,讓算力較高的晶片處理更多的層,算力較低的晶片處理更少的層,從模型結構角度,每層的計算量是一致的,所以按算力比作為層拆分比例可以達到最好的效果。例如,假設晶片 A 的算力是晶片 B 的 4 倍,則可以讓晶片 A 計算 4 層 transformer 模組,讓晶片 B 計算 1 層 transformer 模組,以此達到資源的最優配置,理論上可實現最高的吞吐效能。
基於資料並行的異構訓練,同樣可透過調整不同晶片上的資料批處理規模,來應對算力差異。例如,在晶片 A 算力為晶片 B 的 4 倍情形下,可以讓晶片 A 每輪迭代計算 4 個 batch,而晶片 B 僅計算 1 個 batch,以此平衡各晶片的工作負載,達到理論上的最優吞吐率。
然而,理想與現實之間總存在差距。在實際操作中,還需綜合考量諸多複雜因素:
-
晶片在流水線並行中的位置順序:不同位置的晶片可能需要前後節點的資料作為輸入,進而影響其實際的計算效率。
-
模型前後 embedding 層的計算量:這些層的計算強度可能與 transformer 層存在差異,需額外關注。
-
視訊記憶體大小與重算策略:根據晶片視訊記憶體容量,可能需要啟用重算機制,以節省視訊記憶體佔用,但這可能會影響整體效能。
-
單款晶片運算元最佳化程度:不同晶片對特定運算元的執行效率不盡相同,需針對性地進行最佳化,以發揮最大效能。
以上種種,均可能間接改變兩款晶片在實際訓練中的效能比例,對模型非均勻拆分後異構叢集的整體訓練吞吐量產生影響。

圖注:兩種訓練並行策略
此外在大模型高效訓練的過程中,合理選擇並組合資料並行、流水線並行及張量並行等並行策略,也是突破效能瓶頸的關鍵。
-
資料並行可以將龐大的資料集分割到多個GPU,允許並行處理,從而加速訓練速度;
-
流水線並行則針對結構較深的模型,透過將模型結構劃分為多個段落,在不同GPU上依次處理,實現計算資源的高效利用;
-
張量並行則聚焦於模型引數層面的切分,進一步細化並行粒度,提升計算密集型任務的處理效率。
本項工作目前的系統框架可以在任意兩種不同硬體組成的異構混訓叢集上實現 llama2-7B/70B 的訓練,透過自動並行策略的選擇和效能模擬器篩選,在千卡異構叢集上找到了最優的分散式策略,實測得到的算力利用率為 97.6%。
無問芯穹與清華、上交的聯合研究團隊表示,希望能夠透過整合更多異構算力,繼續推高大模型技術能力的上限,打破單一晶片品牌訓練資源瓶頸。在當前取得的成果基礎之上,持續探索如何進一步提升異構叢集的算力整合效率,構建適應多模型與多晶片格局的 AI Native 基礎設施。
AIGC技術正以驚人的速度重塑著創新的邊界,InfoQ 首期《大模型領航者AIGC實踐案例集錦》電子書,深度對話30位國內頂尖大模型專家,洞悉大模型技術前沿與未來趨勢,精選10餘個行業一線實踐案例,全面展示大模型在多個垂直行業的應用成果,同時,揭秘全球熱門大模型效果,為創業者、開發者提供決策支援和選型參考。關注「AI前線」,回覆「領航者」免費獲取電子書。

在主題演講環節,我們已經邀請到了「蔚來創始人 李斌」,分享基於蔚來汽車 10 年來創新創業過程中的思考和實踐,聚焦 SmartEV 和 AI 結合的關鍵問題和解決之道。大會火熱報名中,7 月 31 日前可以享受 9 折優惠,單張門票節省 480 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。
