DeepSeek-V3再發論文！梁文鋒署名，揭開低成本訓練大模型的秘密！

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

轉載自：機器之心

雖然此前 DeepSeek 已經發布了 V3 模型的技術報告，但剛剛，他們又悄然釋出了另一篇圍繞 DeepSeek-V3 的技術論文！

這篇 14 頁的論文瞄向了「Scaling 挑戰以及對 AI 架構所用硬體的思考」。從中你不僅能讀到 DeepSeek 在開發和訓練 V3 過程中發現的問題和積累的心得，還能收穫他們為未來的硬體設計給出的思考和建議。這一次，DeepSeek CEO 梁文鋒同樣也是署名作者之一。

論文標題：Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures
論文地址：https://arxiv.org/pdf/2505.09343

眾所周知，如今大語言模型（LLM）的快速擴充套件暴露了當前硬體架構的一些關鍵侷限性，包括記憶體容量、計算效率和互連頻寬。以 DeepSeek-V3 為例，它是在 2048 塊 NVIDIA H800 GPU 叢集上進行訓練，展示了硬體感知模型協同設計如何高效地應對這些限制，並最終實現了經濟高效的大規模訓練與推理。

因此，這項新研究並非重複 DeepSeek-V3 的詳細架構和演算法細節，而是從硬體架構和模型設計的雙重視角，探討它們之間在實現經濟高效的大規模訓練和推理過程中複雜的相互作用。透過探究這種協同作用，研究者旨在提供切實可行的見解，以洞悉如何在不犧牲效能或可訪問性的情況下高效擴充套件 LLM。

具體而言，本文的重點包括如下：

硬體驅動的模型設計：分析硬體特性（如 FP8 低精度計算和 scale-up/scale-out 擴充套件網路屬性）如何影響 DeepSeek-V3 中的架構選擇。
硬體與模型之間的相互依賴關係：研究硬體能力如何影響模型創新，以及 LLM 不斷變化的需求如何推動對下一代硬體的需求。
硬體開發的未來方向：從 DeepSeek-V3 中獲取可行性見解，以指導未來硬體和模型架構的共同設計，為可擴充套件、經濟高效的人工智慧系統鋪平道路。

DeepSeek 模型的設計原則

如圖 1 所示，DeepSeek-V3 採用了 DeepSeekMoE 架構和多頭潛在注意力（MLA）架構。其中，DeepSeekMoE 充分釋放了混合專家（MoE）架構的潛力，而 MLA 則透過壓縮鍵值（KV）快取顯著降低了記憶體消耗。

此外，DeepSeek-V3 引入了 FP8 混合精度訓練技術，在保證模型質量的同時大幅降低了計算成本，使大規模訓練更加可行。

為了提高推理速度，DeepSeek-V3 在其多 Token 預測模組 (Multi-Token Prediction Module) 的基礎上集成了推測解碼，從而顯著提高了生成速度。

除了模型架構之外，DeepSeek 還探索了經濟高效的 AI 基礎架構，透過部署多平面雙層胖樹網路（Multi-Plane two-layer Fat-Tree）來取代傳統的三層胖樹拓撲結構，從而降低了叢集網路成本。

這一系列創新旨在解決擴充套件 LLM 時的三個核心挑戰 —— 記憶體效率、成本效益和推理速度。

記憶體效率

LLM 通常需要大量的記憶體資源，其記憶體需求每年增長超過 1000%。相比之下，高速記憶體（例如 HBM）容量的增長速度要慢得多，通常每年不到 50% 。雖然多節點並行是解決記憶體限制的可行方案，但在源頭最佳化記憶體使用仍然是一個關鍵且有效的策略。

為了解決這一瓶頸，DeepSeek 採用了多頭潛在注意力 (MLA)，它使用投影矩陣將所有注意力頭的鍵值表示壓縮為一個較小的潛在向量，並與模型聯合訓練。在推理過程中，只需快取潛在向量，與儲存所有注意力頭的鍵值快取相比，顯著降低了記憶體消耗。

除了 MLA 之外，DeepSeek 還提出了其他幾種方法來減少 KV 快取的大小。這些方法非常有價值，為記憶體高效注意力機制的進步提供了重要的啟發：

共享 KV（GQA；MQA）：多個注意力頭共享一組鍵值對，而不是為每個注意力頭維護單獨的鍵值對，從而顯著壓縮了鍵值對的儲存量。代表性方法包括 GQA 和 MQA。

此外，還包括視窗 KV、量化壓縮等。

表 1 比較了 DeepSeek-V3、Qwen-2.5 72B 和 LLaMA-3.1 405B 中每個 token 的 KV 快取記憶體佔用情況。透過採用 MLA，DeepSeek-V3 顯著減少了 KV 快取大小，每個 token 僅需 70 KB，遠低於 LLaMA-3.1 405B 的 516 KB 和 Qwen-2.5 72B 的 327 KB。

MoE 模型的成本效益

對於稀疏計算，DeepSeek 開發了 DeepSeekMoE，這是一種先進的混合專家 (MoE) 架構，如圖 1 右下角所示。MoE 模型的優勢在於兩方面。

在訓練時，降低計算需求。MoE 架構的主要優勢在於它能夠顯著降低訓練成本。透過選擇性地啟用專家引數的子集，MoE 模型允許總引數數量大幅增加，同時保持適度的計算需求。例如，DeepSeek-V2 擁有 236B 引數，但每個 token 僅啟用 21B 引數。同樣，DeepSeek-V3 擴充套件到 671B 引數 —— 幾乎是 V2 的三倍 —— 同時每個 token 的啟用量僅為 37B。相比之下，Qwen2.5-72B 和 LLaMa3.1-405B 等密集模型則要求在訓練期間所有引數都處於啟用狀態。

如表 2 所示，DeepSeekV3 的總計算成本約為每 token 250 GFLOPS，而 72B 密集模型需要 394 GFLOPS，405B 密集模型則需要 2448 GFLOPS。這表明，MoE 模型在計算資源消耗量少一個數量級的情況下，實現了與密集模型相當甚至更優的效能。

個人使用和本地部署的優勢。未來個性化 LLM 智慧體將無處不在，而 MoE 模型在單請求場景中將展現出獨特的優勢。由於每個請求僅啟用一小部分引數，記憶體和計算需求將大幅降低。例如，DeepSeek-V2（236B 引數）在推理過程中僅啟用 21B 引數。這使得搭載 AI SoC 晶片的個人電腦能夠達到近每秒 20 個 Token (TPS)，甚至兩倍於此的速度，這對於個人使用來說已經綽綽有餘。相比之下，類似能力（例如 70B 引數）的密集模型在類似硬體上通常只能達到個位數的 TPS。

提高推理速度

計算與通訊重疊：最大化吞吐量。推理速度既包括系統級最大吞吐量，也包括單請求延遲。為了最大化吞吐量，模型從一開始就採用雙微批次重疊架構，有意將通訊延遲與計算重疊。

此外，DeepSeek 將 MLA 和 MoE 的計算解耦為兩個不同的階段。當一個微批次執行部分 MLA 或 MoE 計算時，另一個微批次同時執行相應的排程通訊。相反，在第二個微批次的計算階段，第一個微批次則進行組合通訊步驟。這種流水線方法實現了全對全（all-to-all）通訊與持續計算的無縫重疊，確保 GPU 始終保持完全利用率。此外，在生產環境中，DeepSeek 採用預填充和解碼分離架構，將大批次預填充和延遲敏感的解碼請求分配給不同規模的專家並行組。這一策略最終在實際服務條件下實現了系統吞吐量的最大化。

推理速度和測試時間擴充套件。以 OpenAI 的 o1/o3 系列為例，LLM 中的測試時間擴充套件透過在推理過程中動態調整計算資源，推動了數學推理、程式設計和通用推理的重大進步。後續模型 —— 包括 DeepSeek-R1、Claude-3.7 Sonnet 、Gemini 2.5 Pro、Seed1.5-Thinking 和 Qwen3—— 也採用了類似的策略，並在這些任務中取得了顯著的改進。

對於這些推理模型來說，較高的 token 輸出速度至關重要。在強化學習 (RL) 工作流程中 —— 例如 PPO、DPO 和 GRPO —— 快速生成大量樣本的需求使得推理吞吐量成為關鍵的瓶頸。同樣，冗長的推理序列會增加使用者等待時間，從而降低此類模型的實際可用性。因此，透過軟硬體協同創新來最佳化推理速度對於提高推理模型的效率至關重要。

低精度驅動設計

FP8 混合精度訓練

GPTQ 和 AWQ 等量化技術顯著降低了記憶體需求。然而，這些技術主要應用於推理階段以節省記憶體，而非訓練階段。NVIDIA 的 Transformer Engine 已經支援 FP8 混合精度訓練，但在 DeepSeek-V3 之前，尚無開源大型模型利用 FP8 進行訓練。

透過基礎設施團隊和演算法團隊的深入合作，以及大量的實驗和創新，DeepSeek 開發了一個相容 FP8 的 MoE 模型訓練框架。圖 1 展示了在訓練過程中使用 FP8 精度前向和後向處理的計算元件。

LogFMT

在當前的 DeepSeek-V3 架構中，DeepSeek 採用低精度壓縮排行網路通訊。在 EP 並行過程中，Token 使用細粒度的 FP8 量化進行排程，與 BF16 相比，通訊量減少了 50%。這顯著縮短了通訊時間。

除了這些傳統的浮點格式外，DeepSeek 還嘗試了一種新的資料型別，稱為 LogFMT-nBit（ Logarithmic Floating-Point Formats ）。

互連驅動的設計

當前的硬體架構

DeepSeek 目前使用的 NVIDIA H800 GPU SXM 架構（如圖 2 所示）基於 Hopper 架構構建，與 H100 GPU 類似。然而，為了符合法規要求，它的 FP64 計算效能和 NVLink 頻寬有所降低。具體而言，H800 SXM 節點中的 NVLink 頻寬從 900 GB/s 降至了 400 GB/s。節點內擴充套件頻寬的顯著降低對高效能工作負載構成了挑戰。為了彌補這一缺陷，每個節點都配備了八個 400G Infiniband (IB) CX7 網絡卡，以增強擴充套件能力，從而彌補頻寬不足。

為了解決這些硬體限制，DeepSeek-V3 模型融入了多項與硬體優勢和侷限性相符的設計考量。

硬體感知型並行化設計

為了適應 H800 架構的限制，DeepSeek-V3 考慮了這些並行策略：避免張量並行 (TP)、增強 Pipeline 並行 (PP)、加速專家並行 (EP)。對這些策略的具體說明請訪問原論文。

模型協同設計：節點受限式路由

在 H800 架構中，縱向擴充套件（scale-up，節點內）和橫向擴充套件（scale-out，節點間）通訊之間的頻寬差異約為 4:1。具體而言，NVLink 可提供 200GB/s 的頻寬（其中實際可實現約 160GB/s），而每個 400Gbps IB 網絡卡僅提供 50GB/s 的頻寬（考慮到較小的訊息大小和延遲影響，有效頻寬為 40GB/s）。為了平衡並充分利用更高的節點內頻寬，模型架構與硬體進行了協同設計，尤其是在 TopK 專家選擇策略方面。

假設一個包含 8 個節點（共 64 臺 GPU）和 256 個路由專家（每臺 GPU 4 個專家）的設定。對於 DeepSeek-V3，每個 token 會被路由到 1 個共享專家和 8 個路由專家。如果 8 個目標專家分佈在所有 8 個節點上，則透過 IB 的通訊時間將為 8𝑡，其中𝑡 表示透過 IB 傳送一個 token 的時間。但是，透過利用更高的 NVLink 頻寬，路由到同一節點的 token 可以透過 IB 傳送一次，然後透過 NVLink 轉發到其他節點內 GPU。NVLink 轉發功能可以對 IB 流量進行去重。當給定 token 的目標專家分佈在 𝑀 個節點上時，去重後的 IB 通訊成本將降低至 𝑀𝑡（𝑀 < 8）。

由於 IB 流量僅依賴於 𝑀，DeepSeek-V3 為 TopK 專家選擇策略引入了節點受限路由。具體來說，DeepSeek 將 256 位路由專家分成 8 組，每組 32 位專家，並將每組部署在單個節點上。在此部署基礎上，DeepSeek 透過演算法確保每個 token 最多路由到 4 個節點。這種方法緩解了 IB 通訊瓶頸，並提高了訓練期間的有效通訊頻寬。

縱向擴充套件和橫向擴充套件收斂

當前實現的侷限性。雖然節點受限的路由策略降低了通訊頻寬需求，但由於節點內 (NVLink) 和節點間 (IB) 互連之間的頻寬差異，它使通訊流水線核心的實現變得複雜。

在實際應用中，GPU Streaming Multiprocessors (SM) 執行緒既用於網路訊息處理（例如，填充 QP 和 WQE），也用於透過 NVLink 進行資料轉發，這會消耗大量的計算資源。例如，在訓練期間，H800 GPU 上多達 20 個 SM 會被分配用於通訊相關操作，導致實際計算資源減少。為了最大限度地提高線上推理的吞吐量，DeepSeek 完全透過 NIC RDMA 進行 EP 的 all-to-all 通訊，從而避免了 SM 資源爭用並提高了計算效率。這凸顯了 RDMA 非同步通訊模型在計算和通訊重疊方面的優勢。

SM 在 EP 通訊過程中執行的關鍵任務包括轉發資料、資料傳輸、Reduce 操作、管理記憶體佈局、資料型別轉換，尤其是在組合階段的 Reduce 操作和資料型別轉換方面。如果將這些任務解除安裝到專用通訊硬體，可以釋放 SM 以用於計算核心，從而顯著提高整體效率。

針對此，DeepSeek 給出了一些建議，其中最核心的是「將節點內（縱向擴充套件）和節點間（橫向擴充套件）通訊整合到一個統一的框架中」。

透過整合專用協處理器進行網路流量管理以及 NVLink 和 IB 域之間的無縫轉發，此類設計可以降低軟體複雜性並最大限度地提高頻寬利用率。例如，DeepSeek-V3 中採用的節點受限路由策略可以透過硬體支援動態流量去重進一步最佳化。

DeepSeek 還探究了新興的互連協議，例如 Ultra Ethernet Consortium (UEC)、Ultra Accelerator Link (UALink)。近期，Unified Bus (UB) 引入了一種全新的縱向擴充套件和橫向擴充套件融合方法。

DeepSeek 在這裡主要關注了在程式設計框架層面實現縱向擴充套件和橫向擴充套件的融合的方法，具體包括統一網路介面卡、專用通訊協處理器、靈活的轉發和廣播及 Reduce 機制、硬體同步原語。詳見原論文。

頻寬爭用和延遲

當前硬體還存在另一大侷限：缺乏在 NVLink 和 PCIe 上不同型別流量之間動態分配頻寬的靈活性。

例如，在推理過程中，將鍵值快取資料從 CPU 記憶體傳輸到 GPU 會消耗數十 GB/s 的頻寬，從而導致 PCIe 頻寬飽和。如果 GPU 同時使用 IB 進行 EP 通訊，KV 快取傳輸和 EP 通訊之間的爭用可能會降低整體效能並導致延遲峰值。

針對這些問題，DeepSeek 同樣給出了一些建議，包括動態 NVLink/PCIe 流量優先順序、I/O 晶片晶片整合、縱向擴充套件域內的 CPU-GPU 互連。

大規模網路驅動的設計

網路協同設計：多平面胖樹

在 DeepSeek-V3 的訓練過程中，DeepSeek 部署了一個多平面胖樹 (MPFT) 橫向擴充套件（scale-out）網路，如圖 3 所示。

其中，每個節點配備 8 臺 GPU 和 8 個 IB 網絡卡，每個 GPU – 網絡卡對分配到不同的網路平面。此外，每個節點還配備一個 400 Gbps 乙太網 RoCE 網絡卡，連線到單獨的儲存網路平面，用於訪問 3FS 分散式檔案系統。在橫向擴充套件網路中，他們使用了 64 埠 400G IB 交換機，使該拓撲理論上最多可支援 16,384 臺 GPU，同時保留了雙層網路的成本和延遲優勢。然而，由於政策和監管限制，最終部署的 GPU 數量僅為兩千餘臺。

此外，由於 IB ConnectX-7 目前的侷限性，DeepSeek 部署的 MPFT 網路未能完全實現預期的架構。理想情況下，如圖 4 所示，每個網絡卡 (NIC) 應具有多個物理埠，每個埠連線到單獨的網路平面，但透過埠繫結，共同作為單個邏輯介面向用戶公開。

從使用者的角度來看，單個佇列對 (QP) 可以在所有可用埠之間無縫地傳送和接收訊息，類似於資料包噴射。因此，來自同一 QP 的資料包可能會穿越不同的網路路徑，並以無序方式到達接收方，因此需要在網絡卡內原生支援無序佈局，以保證訊息一致性並保留正確的排序語義。例如，InfiniBand ConnectX-8 原生支援四平面。未來的網絡卡能夠完全支援高階多平面功能，從而使雙層胖樹網路能夠有效地擴充套件到更大的 AI 叢集，這將大有裨益。總體而言，多平面架構在故障隔離、穩健性、負載均衡和大規模系統可擴充套件性方面具有顯著優勢。

DeepSeek 還介紹了多平面胖樹的幾大優勢，包括 MPFT 由多軌胖樹 (MRFT) 的子集構成（因此可以無縫整合英偉達和 NCCL 為 MRFT 網路開發的現有最佳化技術）、成本效益、流量隔離、延遲降低、穩健性等，詳見原論文。

DeepSeek 還對 MPFT 和 MRFT 進行了對比性的效能分析，結果見圖 5 和 6 以及表 4。

基於此，他們得到了一些關鍵發現，包括多平面網路的 all-to-all 效能與單平面多軌網路非常相似；在 2048 塊 GPU 上訓練 V3 模型時，MPFT 的效能與 MRFT 的效能幾乎相同。

低延遲網路

在 DeepSeek 的模型推理中，大規模 EP 嚴重依賴於 all-to-all 通訊，而這種通訊對頻寬和延遲都非常敏感。舉一個典型場景的例子，在 50GB/s 的網路頻寬下，理想情況下資料傳輸大約需要 120 𝜇s。因此，微秒級的固有網路延遲會對系統性能產生嚴重影響，其影響不容忽視。

那麼，DeepSeek 是怎麼做的呢？

首先分析一下 IB 或 RoCE。如表 5 所示，IB 始終能保持較低的延遲，這使得使其成為了分散式訓練和推理等延遲敏感型工作負載的首選。儘管 IB 的延遲效能優於基於融合乙太網的 RDMA (RoCE)，但它也存在一些侷限性，包括成本和擴充套件性方面的問題。

雖然 RoCE 有可能成為 IB 的經濟高效的替代方案，但其目前在延遲和可擴充套件性方面的限制使其無法完全滿足大規模 AI 系統的需求。DeepSeek 也給出了一些改進 RoCE 的具體建議，包括使用專用低延遲 RoCE 交換機、最佳化路由策略、改進流量隔離或擁塞控制機制。

為降低網路通訊延遲，DeepSeek 使用了 InfiniBand GPUDirect Async (IBGDA)。

傳統上，網路通訊涉及建立 CPU 代理（proxy）執行緒：GPU 準備好資料後，必須通知 CPU 代理，然後 CPU 代理填充工作請求 (WR) 的控制資訊，並透過門鈴機制向 NIC) 發出訊號，以啟動資料傳輸。此過程會帶來額外的通訊開銷。

IBGDA 是如何解決此問題的？實際上，它的做法是允許 GPU 直接填充 WR 內容並寫入 RDMA 門鈴 MMIO 地址。

透過在 GPU 內部管理整個控制平面，IBGDA 消除了與 GPU-CPU 通訊相關的顯著延遲開銷。此外，在傳送大量小資料包時，控制平面處理器很容易成為瓶頸。由於 GPU 具有多個並行執行緒，傳送方可以利用這些執行緒來分配工作負載，從而避免此類瓶頸。包括 DeepSeek 的 DeepEP 在內的一系列工作都利用了 IBGDA，並報告使用它取得了顯著的效能提升。因此，DeepSeek 提倡在各種加速器裝置上廣泛支援此類功能。

未來硬體架構設計的討論與見解

前面在具體的應用場景（application contexts）中指出了硬體侷限性，並提供了相應的建議。在此基礎上，接下來將討論擴充套件到更廣泛的考量，併為未來的硬體架構設計提出前瞻性方向：

魯棒性挑戰：如何透過更先進的錯誤檢測與糾正機制，應對硬體故障和靜默資料損壞，構建永不停歇的 AI 基礎設施。
CPU 瓶頸與互聯限制：如何最佳化 CPU 與加速器之間的協同，特別是突破 PCIe 等傳統介面的限制，實現高速、無瓶頸的節點內部通訊。
面向 AI 的智慧網路：如何打造具備低延遲和智慧感知能力的網路，透過光互聯、無損機制、自適應路由等技術，應對複雜的通訊需求。
記憶體語義通訊與排序：如何解決當前記憶體語義通訊中的資料一致性與排序挑戰，探索硬體層面的內建保證，提升通訊效率。
網路中計算與壓縮：如何將計算和壓縮能力下沉到網路中，特別是針對 EP 等特定負載，釋放網路頻寬潛力。
以記憶體為中心的架構創新：如何應對模型規模指數級增長帶來的記憶體頻寬危機，探索 DRAM 堆疊、晶圓級整合等前沿技術。

魯棒性挑戰（Robustness Challenges）

現有限制

互連故障（Interconnect Failures）：高效能互聯（如 IB 和 NVLink）易在實際部署中出現間歇性連線中斷，影響節點間通訊。尤其在通訊密集型負載（例如 EP）中，即使短暫中斷亦可導致顯著效能下降，甚至任務失敗。
單點硬體故障（Single Hardware Failures）：節點宕機、GPU 故障或 ECC（錯誤更正碼）記憶體出錯等單點硬體故障，可能影響長時間執行的訓練任務，常需高昂重啟。大規模部署中，這類單點故障機率隨系統規模擴大顯著上升。
靜默資料損壞（Silent Data Corruption）：例如多位記憶體翻轉或計算精度誤差等繞過 ECC 檢測機制的錯誤，可能導致模型質量受損。這類錯誤尤為隱蔽，易在長時間執行任務中累積傳播並汙染下游計算（downstream computations）。目前多數應用層啟發式緩解策略（mitigation strategies）難以實現系統級全面魯棒保障。

面向高階錯誤檢測與糾正的建議

為緩解靜默損壞風險，硬體應整合超越傳統 ECC 的高階錯誤檢測機制，如基於校驗和驗證、硬體加速冗餘校驗，以提升大規模部署可靠性。

此外，廠商應提供全面診斷工具包，使使用者能精確驗證系統完整性，主動預警潛在靜默損壞。將工具包作為標準硬體配置部署，可促進全生命週期持續驗證和透明度，增強系統整體可信度。

CPU 瓶頸與網際網路絡限制

儘管加速器（accelerator）設計常為系統最佳化核心，但 CPU 在協調計算任務、管理 I/O 和維持整體系統吞吐方面仍扮演關鍵角色。然而，當前硬體架構存在若干關鍵瓶頸：

首先，如前所述，CPU 與 GPU 間的 PCIe 介面在大規模引數、梯度或 KV 快取（KV cache）傳輸中常成頻寬瓶頸。為緩解此問題，未來系統應引入 CPU–GPU 直連互聯方案（例如 NVLink 或 Infinity Fabric），或將 CPU 與 GPU 集成於 scale-up domain，消除節點內部資料傳輸瓶頸。

除 PCIe 限制外，維持如此高資料傳輸速率需極高記憶體頻寬。例如，要充分利用 160 通道 PCIe 5.0 介面，每節點需超過 640 GB/s 資料傳輸能力，這意味約 1 TB/s 每節點記憶體頻寬，對傳統 DRAM 架構是一大挑戰。

最後，對延遲敏感任務（諸如 kernel launch、網路處理）需高單核 CPU 效能，通常基礎主頻需達 4 GHz 以上。此外，現代 AI 工作負載要求每 GPU 配備足夠 CPU 核心，避免控制側瓶頸。對於基於芯粒（chiplet）的架構，還需額外 CPU 核心支援實現面向快取的負載劃分與隔離策略（cache-aware workload partitioning and isolation）。

面向 AI 的智慧網路架構

為了應對延遲敏感型工作負載的需求，未來的網際網路絡需同時具備「低延遲」與「智慧感知」的能力，具體可從以下幾個方向探索：

封裝內光互聯（Co-Packaged Optics）：透過整合矽光子（silicon photonics）技術，能夠實現可擴充套件的高頻寬互聯，並顯著提升能效，這對於構建大規模分散式 AI 系統至關重要。

無損網路（Lossless Network）：基於信用的流控機制（Credit-Based Flow Control, CBFC）可實現無損資料傳輸，但若採用基礎策略觸發流控，可能引發嚴重的隊首阻塞（head-of-line blocking）。因此，必須部署更先進的端側驅動擁塞控制演算法（congestion control, CC），以主動調節注入速率，避免網路擁塞惡化為系統性瓶頸。

自適應路由（Adaptive Routing）：如前所述，未來網路應標準化採用動態路由機制，如資料包噴灑（packet spraying）與擁塞感知路徑選擇策略（congestion-aware path selection）。這些策略可持續感知當前網路狀態並智慧排程通訊流，有效緩解網路熱點，特別是在 all-to-all 與 reduce-scatter 等集合通訊操作中，對緩解通訊瓶頸效果顯著。

高效的容錯協議（Efficient Fault-Tolerant Protocols）：透過自愈協議、自適應埠冗餘和快速故障轉移機制，可顯著提升系統在故障情境下的魯棒性。例如，鏈路級重試機制（link-layer retry）和選擇性重傳協議（selective retransmission protocols）是提升大規模網路可靠性、減少停機時間的關鍵元件，能夠在面對間歇性故障時確保系統無縫執行。

動態資源管理（Dynamic Resource Management）：為更高效地處理混合型工作負載，未來硬體需支援動態頻寬排程與流量優先順序控制。例如，統一的多工叢集中應將推理任務與訓練通訊隔離排程，以確保延遲敏感型應用的響應能力。

記憶體語義通訊與記憶體排序問題的探討

基於載入 / 儲存語義（load/store memory semantics）進行節點間通訊，具有高效且對程式設計師友好的優勢。

但當前實現方案普遍受限於記憶體排序一致性問題。例如，傳送端通常需要在寫入資料後，執行顯式的記憶體屏障操作（memory fence），再更新標誌位以通知接收端，從而確保資料一致性。

這種強排序要求引入了額外的往返延遲（round-trip time, RTT），可能阻塞發出執行緒，影響寫操作重疊能力，最終降低吞吐率。

類似的亂序同步問題，在基於訊息語義的遠端直接記憶體訪問（Remote Direct Memory Access, RDMA）中同樣存在。例如，在 InfiniBand 或 NVIDIA BlueField-3 上，若在常規 RDMA 寫操作之後再執行採用資料包噴灑（packet spraying）的 RDMA 原子加（atomic add）操作，也會引入額外的 RTT 開銷。

為應對上述挑戰，DeepSeek 團隊主張從硬體層面引入內建排序保證，以強化記憶體語義通訊中的資料一致性。這種一致性應同時在程式設計介面層（如 acquire/release 語義）和接收端硬體層實施，從而實現無需額外開銷的有序資料交付。

可行路徑包括：在接收端快取原子訊息，並透過資料包序號實現順序處理；但相比之下，基於 acquire/release 的機制更加優雅且具效率優勢。

DeepSeek 團隊提出一種簡單的概念機制 —— 區域獲取 / 釋放機制（Region Acquire/Release Mechanism, RAR）：在該方案中，接收端硬體維護一個用於跟蹤記憶體區域狀態的點陣圖，獲取與釋放操作基於 RAR 地址範圍生效。

該機制延伸了最小點陣圖開銷下的高效排序保障，由硬體強制執行排序邏輯，完全擺脫傳送端對顯式屏障指令的依賴，理想情況下實現於網路介面卡（NIC）或 I/O 晶片上。

值得強調的是，RAR 機制不僅適用於基於記憶體語義的通訊場景，也可覆蓋基於訊息語義的 RDMA 操作，具有廣泛的實際適用性。

網路中計算與壓縮機制

EP（Expert Parallelism）任務涉及兩個關鍵的全對全通訊階段：分發（dispatch）與合併（combine），它們構成網路級最佳化的重要著力點。

分發階段類似於小規模的多播（multicast）操作，需要將一條訊息轉發至多個目標裝置。若在硬體協議層支援自動包複製與多目標轉發，將大幅減少通訊開銷，提升總體效率。

合併階段則近似於小規模規約（reduction）操作，可透過網路中的聚合機制實現場內計算（in-network aggregation）。然而，由於 EP 合併操作通常規約範圍有限、負載不均，實現靈活、高效的網路內規約尚具挑戰性。

此外，如前所指出，LogFMT 可在基本不影響模型效能的前提下實現低精度 token 傳輸。若將 LogFMT 原生整合進網路硬體，可透過提升資訊熵密度（entropy density）降低頻寬消耗，進一步最佳化通訊效能。依託硬體加速的壓縮 / 解壓模組，LogFMT 可無縫融入分散式系統，從而顯著提升整體吞吐能力。

以記憶體為中心的架構創新

記憶體頻寬的限制

近年來模型規模呈指數級增長，遠超高頻寬儲存器（High-Bandwidth Memory, HBM）技術的發展速度。這種增長差距使得「記憶體瓶頸」問題愈發突出，尤其在像 Transformer 這類注意力機制密集的模型結構中尤為嚴重。

架構性建議

DRAM 堆疊加速器（DRAM-Stacked Accelerators）：透過 3D 封裝技術，可將 DRAM 晶片垂直集成於邏輯底片之上，從而獲得極高的記憶體頻寬、超低訪問延遲以及現實可用的記憶體容量（受堆疊層數限制）。該架構模型在追求極速推理的專家混合模型（Mixture-of-Experts, MoE）中尤顯優勢，因其對記憶體吞吐極度敏感。如 SeDRAM 等架構即展示了此方法在記憶體受限工作負載中的顛覆式效能潛力。

晶圓級整合系統（System-on-Wafer, SoW）：晶圓級整合（wafer-scale integration）可最大化計算密度與記憶體頻寬，是應對超大規模模型所需頻寬密度的可行途徑。

瞭解更多內容，請參考原論文。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）人數破萬！如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料，一定要掃描下方二維碼，加入CVer知識星球！最強助力你的科研和工作！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請點贊和在看