DeepSeek加速AI普惠化程序,AMDEPYC化身“多面手”

DeepSeek的火爆,加速了AI的普惠化程序,以更低的成本實現最大化的效能與能效成為可能。對於千行百業的使用者來說,依託算力底層架構的創新,有效提升AI訓練和推理的水平至關重要。
AMD EPYC處理器為核心,AMD打造了一套覆蓋雲端訓練、邊緣推理和邊緣AI的完整算力解決方案,推動著企業使用者的數字化轉型不斷走向深入。
AI引領 持續進化 全面最佳化
AI計算對並行處理、資料吞吐、能耗等提出了更高的要求。首先,由於AI模型的訓練和推理需要處理大量資料與複雜的計算任務,因此要求CPU具備多核心、多執行緒的能力,以便同時處理多個計算任務,提高訓練的效率。其次,在AI模型訓練中,CPU主要承載資料預處理、模型評估等較小的資料集或者簡單的計算任務,具有更高頻率和更高能效比的處理器有助於提高處理效率,並且更長久地支撐訓練任務。最後,為了全面滿足AI多樣化的應用需求,CPU應具備同GPU(圖形處理器)、NPU(神經網路處理器)、TPU(張量處理單元)等專用硬體的協同工作能力,以實現效能與能效的平衡‌。
AMD EPYC透過Zen核心、Chiplet設計、指令集最佳化、強大的協同設計等方面的革新與演進,為AI應用夯實了算力基礎。
Zen核心的持續進化來看,第四代EPYC所採用的Zen 4架構就具有顯著的AI適應性。得益於單處理器最高可擁有96核心,第四代AMD EPYC處理器具業界領先的效能和能效。相比上一代產品,第四代AMD EPYC處理器可以提供高達2.8倍的效能,以及多達54%的更少電耗,並且提供完整的軟硬體生態系統支援,從而更好地承載虛擬化、AI/ML、HPC等工作負載。特別值得一提的提,第四代AMD EPYC處理器還引入了對AI/ML應用程式至關重要的DDR5記憶體和第五代PCIe,大記憶體、大頻寬的設計能夠加快AI模型的訓練和推理速度。另外,AMD 3D V-Cache技術的加持,進一步增強了第四代AMD EPYC處理器的多工處理能力,並且有效降低了延遲‌。
珠玉在前,第五代EPYC基於Zen 5架構,對AI的支撐能力更上一層樓。相比Zen 4,Zen 5核心架構不僅提供多達17%的更高每時鐘指令數(IPC),還能為AI和HPC(高效能計算)提供高達37%的更高IPC,從而提升了AI部署的洞察時間和部署速度。舉例來說,64核的AMD EPYC 9575F可用於AI主機節點,在實際應用中,得益於5GHz的最大加速頻率,AMD EPYC 9575F在一個由1000個節點組成的AI叢集中,每秒可處理多達70萬個推理令牌,極大地提高了處理效率;192核心的EPYC 9965 CPU可為包括TPCx-AI(衍生)在內的端到端AI工作負載提供更高的效能,在Meta Llama 3.1-8B的中小型企業級生成式AI模型中,EPYC 9965的吞吐量效能具有顯著優勢。
AMD EPYC第四代和第五代處理器透過高併發處理、低延遲的設計,以及高效的軟硬體協同,能夠充分釋放AI潛能,並有效節省資料中心的空間和功耗。
訓練、推理和邊緣,一個也不能少
AI應用的碎片化與場景多樣化,對算力平臺提出了多維挑戰,包括靈活性與適應性、能效比與功耗、即時性與低延遲、成本控制、演算法與算力協同最佳化等。AMD EPYC透過架構創新與全方位最佳化,在AI大模型的訓練、推理和邊緣部署等方面,提供了高效、可靠、安全、成本和功耗最佳化的支撐。
AMD EPYC完全能夠勝任AI模型開發、測試和批次訓練的需要。AMD EPYC 9005可以充分助力GPU實現加速。在搭載GPU的系統中,作為主機CPU的AMD EPYC 9005經過專門最佳化,有助於提高特定AI工作負載的效能,以提高每臺GPU伺服器的投資回報率。舉例來說,執行 Llama3.1-70B時,在相同情況下使用高頻AMD EPYC 9575F處理器且搭載8個 GPU的伺服器,系統整體效能可提升高達20%。
AI推理方面,AMD EPYC 9005處理器能夠充分提升每臺伺服器的效能,在機架數量減少多達86%的情況下仍能實現與原有硬體相當的整數效能,為執行AI工作負載騰出空間。基於AMD EPYC 9005 CPU的純CPU型伺服器能夠高效處理大量AI工作負載,包括具有130億個及以下引數的語言模型、影像和欺詐分析或推薦系統等。尤其是其AI推理效能卓越,與上一代產品相比,執行兩個第五代AMD EPYC 9965 CPU的伺服器可將推理吞吐量提升兩倍。
在智慧城市、工業物聯網、醫療、零售等邊緣AI場景中,能耗、安全可靠與環境適應性等是使用者最關注的。AMD EPYC 8004處理器是專為單路平臺設計的高能效CPU,它擁有最多可達64個Zen 4c核心,並支援6通道DDR5記憶體,體積小巧,非常適合空間、功率有限的部署環境。比如,它特別針對雲、電信網路、零售和智慧邊緣進行了效能最佳化,在低至70瓦的功耗範圍內實現了卓越效能;它還經過了NEBS(網路裝置構建系統)認證,執行更為安靜,適用場景非常廣泛。
EPYC領先AI新時代
據《中國人工智慧計算力發展評估報告》的資料,2024年,中國智慧算力的增長率高達74.1%。更高效的計算能力與更低的能耗將是未來算力晶片競爭的制高點。
在促進AI應用落地的過程中,AMD EPYC透過第四代與第五代處理器的持續演進、協同創新,為包含訓練、推理、邊緣部署在內的AI全生命週期提供效能、能效與成本的均衡支援,將繼續領先AI算力時代。

相關文章