
2024 年 6 月 11 日,莫斯科跨國科技公司 Yandex 最近推出了一種用於訓練大型語言模型 (LLM) 的開源方法 YaFSDP, 用於增強 GPU 通訊並減少 LLM 訓練中的記憶體使用量。
LLM 訓練依賴於組織成叢集的大量 GPU,互連的圖形處理器陣列可以執行訓練具有數十億個引數的模型所需的大量計算。在叢集中的處理器之間分配計算需要不斷通訊,這通常會成為“瓶頸”,減慢訓練過程並導致計算能力的低效使用。
為了克服這一瓶頸,Yandex 開發人員建立了 YaFSDP,來改善 GPU 通訊並最佳化學習速度和效能的方法。
YaFSDP 的工作原理是消除 GPU 通訊效率低下的問題,從而最佳化網路使用率並減少記憶體負載。它確保訓練時只需要必要的處理器記憶體,並使 GPU 互動不間斷,從而促進進一步的最佳化,例如最大限度地減少處理器通訊時間。這可以顯著提高效能和記憶體效率。
YaFSDP 是 FSDP 的增強版,在 LLM 訓練中最耗通訊的階段(如預訓練、對齊和微調)中,其表現優於 FSDP (Fully Sharded Data Parallel,全切片資料並行)方法。
官方表示,與 FSDP 相比,YaFSDP 訓練速度提升最高可達 26%,具體取決於架構和引數量。透過使用 YaFSDP 減少 LLM 的訓練時間可以節省高達 20% 的 GPU 資源。與 Yandex 的其他效能增強解決方案結合使用時,該方法可將某些模型的訓練過程加速高達 45%。
YaFSDP 方法可以有效應用於基於 transformer 的多層文字生成模型(多層感知器)。Mikhail Khruschev 表示:“YaFSDP 在 130 億至 700 億個引數的模型上表現出色,在 300 億至 700 億個引數範圍內表現尤為驚人。目前,YaFSDP 最適合基於 LLaMA 架構的廣泛使用之開源模型。”
與 FSDP 相比,YaFSDP 在 Llama 2 和 Llama 3 上表現出的最終提速表明訓練效率顯著提高,在 Llama 2 70B 和 Llama 3 70B 上分別達到 21% 和 26%。

“目前,我們正在積極嘗試各種模型架構和引數大小,以擴充套件 YaFSDP 的多功能性,”Yandex 高階開發專家、YaFSDP 團隊成員 Mikhail Khruschev 指出,“我們很高興與全球 ML 社群分享我們在 LLM 訓練方面的研發成果,希望能為全球研究人員和開發者獲得更多的開源工具和更高的效率做出貢獻。”
在大型語言模型 (LLM) 訓練期間,開發人員必須有效管理三種主要資源:計算能力、處理器記憶體和處理器通訊。YaFSDP 保護了前兩個資源,這有助於加速 LLM 訓練過程。
YaFSDP 並不是 Yandex 的第一個開源工具。Yandex 之前曾分享過其他幾款在 ML 社群中很受歡迎的工具,包括:CatBoost,一種高效能的基於決策樹之梯度提升庫;YTsaurus,分散式儲存和處理的大資料平臺。AQLM,先進的量化演算法之一,用於大型語言模型的極限壓縮;Petals,一個旨在簡化 LLM 訓練和微調過程的庫。
Yandex 承諾為全球人工智慧社群的發展做出貢獻,將 YaFSDP 開源提供給全球的 LLM 開發人員和人工智慧愛好者即是履行此承諾的其中一步。
內容推薦
大模型已經在各種領域有著廣泛的應用和實踐,如BI、企業生產、AIoT、程式設計、資料分析等場景。各個企業當前的探索為大家在落地時解決各種問題提供了重要參考。「AI前線」整理了AICon 北京 2024上大模型在不同領域的應用探索和 Agent 實踐相關PPT以及資料。關注「AI前線」,回覆關鍵詞「應用探索」即可免費獲取。

2024年, 極客邦科技旗下 InfoQ 中國已圓滿啟動3場技術盛會,在即將到來的8月份,FCon全球金融科技大會和AICon 全球人工智慧開發與應用大會上海站將聯袂來襲,AI+金融、技術前沿+行業前沿,一站式體驗並獲取多重乾貨。
6 月 30 日前報名購票可享受 8 折優惠,單張門票節省 960 元(原價 4800 元),如您感興趣,可掃描下圖二維碼或聯絡票務經理 13269078023 諮詢購票。

你也「在看」嗎?👇