AI晶片的雙刃劍

👆如果您希望可以時常見面，歡迎標星🌟收藏哦~

來源：內容編譯自semiwiki，謝謝。

與傳統軟體程式設計不同，人工智慧軟體建模代表著一種變革性的正規化轉變，重塑了方法論，重新定義了執行過程，並推動了人工智慧處理器要求的重大進步。

軟體程式設計與人工智慧建模：根本性的正規化轉變

傳統軟體程式設計

傳統軟體程式設計是圍繞編寫明確的指令（程式碼）來完成特定任務而構建的。程式設計師透過定義一組嚴格的規則來建立軟體的行為，這使得這種方法非常適合可預測性和可靠性至關重要的確定性場景。隨著任務變得越來越複雜，程式碼庫的大小和複雜性通常會增加。

當需要更新或更改時，程式設計師必須手動修改程式碼——根據需要新增、更改或刪除指令。此過程可以精確控制軟體，但會限制其在沒有程式設計師直接干預的情況下動態適應不可預見的情況的能力。

AI 軟體建模

AI 軟體建模代表瞭解決問題方法的根本性轉變。AI 軟體建模使系統能夠透過迭代訓練從資料中學習模式。在訓練期間，AI 分析大量資料集以識別行為，然後在推理階段應用這些知識來執行翻譯、財務分析、醫療診斷和工業最佳化等任務。

人工智慧利用機率推理根據機率做出預測和決策，從而能夠處理不確定性並適應變化。透過不斷使用新資料進行微調，可以提高準確性和適應性，使人工智慧成為解決複雜現實挑戰的有力工具。

人工智慧系統的複雜性不在於編寫的程式碼量，而在於模型本身的架構和規模。高階人工智慧模型，例如大型語言模型 (LLM)，可能包含數千億甚至數萬億個引數。這些引數使用多維矩陣數學處理，精度或量化級別從 4 位整數到 64 位浮點計算。雖然核心數學運算，即乘法和加法 (MAC) 相當簡單，但它們在大型資料集上執行數百萬次，並且每個時鐘週期內同時處理所有引數。

軟體程式設計與人工智慧建模：對處理硬體的影響

中央處理器 (CPU)

幾十年來，用於執行軟體程式的主要架構一直是 CPU，最初由約翰·馮·諾依曼於 1945 年提出。CPU 按順序處理軟體指令（一行接一行地執行程式碼），其速度受限於這種序列執行的效率。為了提高效能，現代 CPU 採用多核和多執行緒架構。透過將指令序列分解為更小的塊，這些處理器將任務分配到多個核心和執行緒上，從而實現並行處理。然而，即使有了這些進步，CPU 的計算能力仍然有限，缺乏處理 AI 模型所需的巨大並行性。

最先進的 CPU 的計算能力達到幾 GigaFLOPS，高階伺服器的記憶體容量達到幾 TB，記憶體頻寬峰值達到每秒 500 GigaBytes。

人工智慧加速器

克服 CPU 限制需要大規模平行計算架構，能夠在單個時鐘週期內對大量資料執行數百萬個基本 MAC 操作。

如今，圖形處理單元 (GPU) 已成為 AI 工作負載的支柱，這要歸功於其無與倫比的大規模平行計算能力。與針對通用任務進行最佳化的 CPU 不同，GPU 優先考慮吞吐量，可提供每秒千萬億次浮點運算 (PBFLOPS) 級別的效能，通常比最強大的 CPU 還要高出兩個數量級。

然而，這種出色的效能是有代價的，特別是取決於 AI 工作負載：訓練與推理。處理大型資料集時，GPU 可能會遇到效率瓶頸，這一限制會嚴重影響推理，但對訓練來說並不那麼重要。GPT-4、OpenAI 的 o1/o3、Llama 3-405B 和 DeepSeek-V3/R1 等 LLM 可以顯著降低 GPU 效率。理論峰值效能為 1 petaFLOP 的 GPU 在執行 GPT-4 時可能只能提供 50 teraFLOPS。雖然這種低效率在訓練期間是可控的，因為訓練完成度比即時效能更重要，但對於推理來說，這成為一個緊迫的問題，因為延遲和功率效率至關重要。

GPU 的另一個主要缺點是其巨大的功耗，這引發了可持續性問題，尤其是對於大規模部署的推理而言。人工智慧資料中心的能源需求已成為一個日益嚴峻的挑戰，促使業界尋求更高效的替代方案。

為了克服這些低效率問題，業界正在迅速開發專用的 AI 加速器，例如專用積體電路 (ASIC)。這些專用晶片在計算效率和能耗方面都具有顯著優勢，使其成為下一代 AI 處理的有希望的替代方案。隨著 AI 工作負載的不斷發展，向定製硬體解決方案的轉變有望重塑人工智慧基礎設施的格局。見表 I。

AI 加速器的關鍵和獨特屬性

AI 處理器的大規模並行架構具有傳統 CPU 所不具備的獨特屬性。具體而言，兩個關鍵指標對於加速器提供處理 AI 工作負載（例如 LLM）所需的效能至關重要：批處理大小和token吞吐量。實現這些指標的目標水平帶來了工程挑戰。

批次大小（Batch Sizes）及其對加速器效率的影響
批次大小是指加速器同時處理的獨立輸入或查詢的數量。

記憶體頻寬和容量瓶頸

一般而言，較大的批次透過更好地利用並行處理核心來提高吞吐量。隨著批次大小的增加，記憶體頻寬和容量要求也會增加。過大的批次可能會導致快取未命中和記憶體訪問延遲增加，從而影響效能。

延遲敏感度

大批次會影響延遲，因為處理器必須同時處理大得多的資料集，從而增加計算時間。自動駕駛等即時應用要求最小延遲，通常需要批次大小為 1 才能確保立即響應。在安全至關重要的場景中，即使是輕微的延遲也可能導致災難性的後果。然而，這對針對高吞吐量進行最佳化的加速器來說是一個挑戰，因為它們通常設計用於高效處理大批次，而不是單例項工作負載。

連續批處理挑戰

連續批處理是一種技術，在處理過程中將新輸入動態新增到批處理中，而不是等待完整批處理組裝完畢後再執行。這種方法可以減少延遲並提高吞吐量。它可能會對首次token時間產生影響，但只要排程程式可以處理執行，它就能實現更高的整體效率。

Token吞吐量及其計算影響

Token吞吐量是指每秒處理的token數量（無論是單詞、子單詞、畫素還是資料點）。它取決於輸入token大小和輸出token速率，需要高計算效率和最佳化的資料移動以防止出現瓶頸。

token吞吐量要求

定義 LLM 中token吞吐量的關鍵是首次token輸出的時間，即透過連續批處理實現的低延遲，以最大限度地減少延遲。對於傳統的 LLM，輸出速率必須超過人類的閱讀速度，而對於依賴於直接機器對機器通訊的代理 AI，保持高吞吐量至關重要。

傳統Transformer與增量Transformer

大多數 LLM（例如 OpenAI-o1、LLAMA、Falcon 和 Mistral）都使用 Transformer，這要求每個 token 關注所有先前的 token。這會導致高昂的計算和記憶體成本。增量 Transformer 透過按順序計算 token 而不是在每一步重新計算整個序列提供了一種替代方案。這種方法提高了流式推理和即時應用程式的效率。但是，它需要儲存中間狀態資料，增加記憶體需求和資料移動，從而影響吞吐量、延遲和功耗。

進一步考慮

標記處理也帶來了一些挑戰。不規則的標記模式（例如不同的句子和幀長度）可能會破壞最佳化的硬體管道。此外，在自迴歸模型中，標記依賴性可能會導致處理管道停滯，從而降低計算資源的有效利用率。

克服硬體加速器的障礙

與過去 70 年經歷了非凡進化歷程的 CPU 形成鮮明對比的是，AI 加速器仍處於形成階段，尚無成熟的架構能夠克服滿足 LLM 計算需求的所有障礙。

最關鍵的瓶頸是記憶體頻寬，通常稱為記憶體牆。大批次需要大量記憶體容量來儲存輸入資料、中間狀態和啟用，同時需要高資料傳輸頻寬。實現高token吞吐量取決於記憶體和處理單元之間的快速資料傳輸。當記憶體頻寬不足時，延遲會增加，吞吐量會下降。這些瓶頸成為計算效率的主要制約因素，將實際效能限制在理論最大值的一小部分。

除了記憶體限制之外，計算瓶頸也帶來了另一個挑戰。LLM 依賴於高度並行化的矩陣運算和注意力機制，這兩者都需要強大的計算能力。高token吞吐量進一步加劇了對快速處理效能的需求，以保持資料流的順暢。

大批次資料訪問模式會帶來額外的複雜性。不規則的訪問模式可能導致頻繁的快取未命中和增加的記憶體訪問延遲。為了維持高token吞吐量，高效的資料預取和重用策略對於最大限度地減少記憶體開銷和保持一致的效能至關重要。

解決這些挑戰需要創新的記憶體架構、最佳化的資料流策略以及平衡記憶體和計算效率的專用硬體設計。

克服記憶體瓶頸

記憶體技術的進步，例如高頻寬記憶體 (HBM)（尤其是 HBM3，其頻寬比傳統 DRAM 高得多）有助於減少記憶體訪問延遲。此外，更大、更智慧的片上快取增強了資料區域性性，並最大限度地減少了對片外記憶體的依賴，從而緩解了硬體加速器中最關鍵的瓶頸之一。

一種很有前景的方法是使用類似暫存器的結構對整個快取層次結構進行建模，該結構可以在單個時鐘週期記憶體儲資料，而不是需要數十個時鐘週期。這種方法優化了大批次的記憶體分配和釋放，同時保持了較高的token輸出率，從而顯著提高了整體效率。

提高計算效能

專為 LLM 工作負載設計的專用硬體加速器（例如矩陣乘法單元和注意引擎）可以顯著提高效能。高效的資料流架構可最大限度地減少不必要的資料移動並最大限度地提高硬體資源利用率，從而進一步提高計算效率。混合精度計算在適用的情況下采用 FP8 等低精度格式，可降低記憶體頻寬要求和計算開銷，而不會犧牲模型準確性。該技術可以更快、更高效地執行大型模型。

最佳化軟體演算法

軟體最佳化在充分利用硬體功能方面起著至關重要的作用。針對 LLM 操作定製的高度最佳化核心可以透過利用特定於硬體的功能來顯著提高效能。梯度檢查點透過按需重新計算梯度來減少記憶體使用量，而管道並行性允許同時處理不同的模型層，從而提高吞吐量。

透過整合這些硬體和軟體最佳化，加速器可以更有效地處理大型語言模型的密集計算和記憶體需求。

參考連結

https://semiwiki.com/artificial-intelligence/352985-the-double-edged-sword-of-ai-processors-batch-sizes-token-rates-and-the-hardware-hurdles-in-large-language-model-processing/

END

👇半導體精品公眾號推薦👇

▲點選上方名片即可關注

專注半導體領域更多原創內容

▲點選上方名片即可關注

關注全球半導體產業動向與趨勢

*免責宣告：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支援，如果有任何異議，歡迎聯絡半導體行業觀察。