

獲取清單:
(持續更新中…)
資料中心網路知識全解(PPT)
人工智慧基礎知識全解(含實踐)
CPU基礎知識全解(PPT)
GPU基礎知識全解(PPT)
本文來自“AI大模型算力:為什麼H20的推理價效比高”,基於出口管制要求,NVIDIA為中國市場定製了H20、L20等產品。從表觀引數來看,H20的FP16、INT8等主要算力引數僅為A100的不足1/2,更是僅為H100的約1/7;L20的主要算力引數相較於L40、L40S分別下降約1/3、2/3。
這些最新的針對中國市場定製的產品算力引數被大幅閹割,使得市場大多對其效能表現、價效比持悲觀或懷疑態度。基於理論計算,研究了H20、L20等產品在大模型推理端的效能表現;推算結果顯示,H20、L20均展現出較優異的推理效能。

H20推理效能優於A100、H100,僅略遜於H200。分別使用單張H20、A100、H100、H200進行推理,推理場景為:Llama2-13B模型,資料格式FP16,Batch Size=16;3組輸入輸出,輸入/輸出Tokens數量分別為128/3968、512/3584、2048/2048。以整個推理階段推理系統平均每秒輸出(單位:Tokens/s)作為推理能力衡量標準。
參考圖,在3組推理場景下,H20的推理速度均明顯優於A100,;在前兩組推理場景下,H20的推理速度優於H100,第三組推理場景下H20與H100推理速度基本持平。取三組平均值,H20平均推理速度是A100的1.8倍,是H100的1.1倍。

L20推理效能與L40、L40S基本相同。分別使用單張L40S、L40、L20進行推理,推理場景為:Llama2-7B模型,資料格式FP16,Batch Size=16;3組輸入輸出,輸入/輸出Tokens數量分別為128/3968、512/3584、2048/2048。以整個推理階段推理系統平均每秒輸出(單位:Tokens/s)作為推理能力衡量標準。
參考圖,在前兩組推理場景中,L40S、L40、L20的推理速度無明顯差異;僅在最後一組場景(ISL/OSL2048/2048)中,L40S推理速度相較於L40、L20優勢較明顯。取三組平均值,L20推理速度僅比L40S速度慢約2%。

為什麼算力被大幅閹割的H20會有如此優異的推理效能表現?
在接下來的兩個章節,我們將分別分析推理過程中Prefill環節、Decode環節H20的推理效能表現。
Prefill是算力密集場景,H20 受算力制約效能表現較弱
Prefill階段算力負載體現在對使用者所有輸入Tokens進行一次平行計算;視訊記憶體頻寬負載主要體現在引數量從HBM向算力晶片的傳輸。在大多數推理場景下(如輸入Tokens較長、或Batch Size較大),Prefill階段計算耗時高於視訊記憶體傳輸的耗時,因此該環節的耗時(也被稱為First token latency)通常是由算力晶片的算力能力決定,Prefill階段屬於算力密集場景。

參考表,由於H20的算力較弱,在Prefill環節H20耗時明顯高於其他三款晶片。這也意味著在使用H20進行推理時,使用者從完成問題輸入、到看到問題第一個文字的輸出,中間需要等待較長時間。
Decode 是視訊記憶體頻寬密集場景,H20效能表現優異
在Prefill階段結束後,大模型開始生成回答,該過程被稱為Decode。由於Decode過程中,回答的Tokens必須逐個生成,且每個Token生成過程中,都需要重複一次引數從HBM向算力晶片的傳輸,且Decode階段不斷擴大的KV Cache也需要在HBM和算力晶片間往復傳輸,使得Decode階段通常視訊記憶體傳輸耗時明顯高於計算耗時;Decode階段屬於視訊記憶體頻寬密集場景,更高的視訊記憶體頻寬對加速Decode至關重要。

參考表,由於H20具有較高的視訊記憶體頻寬,在Decode階段H20每生成1個Token所需時間低於A100、H100,這也使得H20在整個推理過程具有較高的推理速度。
H20在多數推理場景中效能優異、價效比高
多數應用場景下,站在H20推理使用使用者角度,在輸入問題後,等待介面出現第一個回答文字的等待時間會較長(相較於使用A100/H100/H200進行推理),但考慮到這一時長也僅為2.8s,對使用者使用體驗的負面影響是有限的。(備註:實際使用者等待時間還包括網路延遲、使用者端側延遲等)
而在回答開始後,使用H20的使用者會體驗到回答生成速度較快(相較於使用A100/H100進行推理),每秒57個Tokens的生成速度明顯高於人類閱讀速度。(備註:通常每秒生成20個及以上Tokens就能給使用者帶來較舒適的線上閱讀體驗)
站在H20持有人角度,持有人更關心一個推理系統Throughput的速度,因為對相同一套推理系統或成本相近的不同推理系統,平均Throughput(Tokens/s)越高,意味著每Token所平攤的系統硬體成本越低。從價效比角度看,假設H20與H100售價相近,在多數情況下,H20也有望成為價效比更高的推理晶片選擇。

免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(44本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

