
新智元報道
新智元報道
編輯:英智
【新智元導讀】英偉達巧妙地將DeepSeek-R1與推理時擴充套件相結合,構建了全新工作流程,自動最佳化生成GPU核心,取得了令人矚目的成果。
本週英偉達的一篇技術部落格引發了業界震動!
英偉達的團隊嘗試利用DeepSeek-R1和推理時擴充套件實現GPU核心生成自動化,效果極佳。
隨著AI模型的擴充套件,推理時擴充套件(inference-time scaling),也叫測試時擴充套件(test-time scaling)正閃亮登場。
推理時擴充套件就像是給AI模型配備了一個「智慧錦囊」。當模型進行推理時,它會額外分配計算資源,讓模型有能力評估多種可能的結果,然後從中挑選出最優解。
透過這種方式,AI可以像人類一樣,有條不紊地剖析複雜問題,找到最佳解決方案。

為了充分發揮DeepSeek-R1的優勢,同時克服其在生成最佳化GPU核心時遇到的困難,英偉達的工程師們想出了一個創新的方法——將推理時擴充套件技術與DeepSeek-R1相結合,構建了一種全新的工作流程。
他們使用DeepSeek-R1,在推理過程中藉助額外的計算能力來解決一個複雜問題:旨在自動生成數值正確且針對不同型別注意力機制進行最佳化的GPU注意力核心,整個過程無需任何顯式程式設計。
在某些情況下,R1生成的核心甚至比嫻熟的工程師開發出來的還要出色!
對此,網友評價道:「英偉達是在毀掉自己的護城河嗎?」

最佳化注意力核心的挑戰
深入瞭解推理時擴充套件技術如何發揮作用之前,先要認識一個LLM中至關重要的概念——注意力機制。
注意力機制就像是「聚光燈」,能讓AI模型在處理任務時,有選擇地聚焦在輸入資訊中最相關的部分,快速找到關鍵語句,做出更準確的預測,發現數據中的隱藏模式。
但是,注意力操作的計算複雜度與輸入序列長度的平方成正比。輸入的文字越長,模型處理起來就會越吃力,不僅計算量大幅增加,還可能出現執行時錯誤,比如記憶體不足的情況。
為了避免這些問題,提高計算效率,開發最佳化的底層實現,也就是GPU核心,十分必要。
另外,注意力機制有多種不同的變體,像因果注意力、相對位置嵌入、alibi等。工程師們在面對不同的任務時,往往需要把這些變體組合起來使用。
在多模態模型,比如視覺Transformer中,需要專門的注意力機制,像空間鄰域注意力(Spatial Neighborhood Attention),來處理計算機視覺、影片生成模型中常見的時空資訊。

開發一個最佳化的GPU注意力核心,對經驗豐富的軟體工程師來說,也是一項艱鉅的任務,費時費力。
儘管像DeepSeek-R1這樣的模型在程式碼生成任務中展現出了很大的潛力,但它們在第一次嘗試生成最佳化程式碼時,還是會遇到不少挑戰。
這使得在推理時必須使用其他策略來生成最佳化程式碼。
以下是為相對位置嵌入注意力核心輸入的示例使用者提示。

模型有時會產生幻覺,生成一些「不靠譜」的程式碼,要麼在語法上有錯誤,要麼把不同語言或框架的語法混在一起,導致無法執行或效率低下。
計算最優的GPU執行緒對映也不是一件容易的事,通常需要反覆調整最佳化,才能得到一個正確又高效的核心。
DeepSeek R1與推理時擴充套件「強強聯合」
為了攻克最佳化GPU注意力核心這個難題,英偉達的工程師們想出了一個巧妙的辦法,他們把DeepSeek-R1模型和推理時擴充套件技術結合起來,創造了一種新的工作流程。

一開始,工程師會手動輸入一個提示。然後,DeepSeek-R1會根據這個提示,在第一次遍歷中生成GPU程式碼,也就是核心程式碼。
生成的程式碼會交給一個特殊的驗證器,這個驗證器執行在英偉達H100 GPU上,仔細分析生成的核心程式碼。
如果發現程式碼有不足的地方,驗證器就會生成新的提示,再把這些提示作為輸入,反饋給DeepSeek-R1。模型根據新的提示,對程式碼進行改進,如此迴圈往復。
工程師們發現,這個過程持續15分鐘,就能得到一個性能更好的注意力核心。

根據斯坦福大學的KernelBench基準測試,它生成的核心在處理Level-1問題時,在數值上100%是正確的。在處理Level-2問題時,正確率也能達到96% 。
KernelBench Level-1問題解決率,是用來評估LLM為特定計算任務生成高效GPU核心能力的數值正確指標,它是一系列測試LLM GPU程式設計能力挑戰的一部分。
推理時間預算對生成正確核心的影響也很明顯。從測試結果來看,在Level-1問題中,如果每個問題分配的推理時間超過10分鐘,就能為100個問題中的大多數生成數值正確的程式碼。
這也意味著,給模型足夠的「思考時間」,它真的能給出更好的答案。

利用DeepSeek-R1模型,透過在推理時投入更多計算資源,可以生成比一些熟練工程師開發的最佳化核心還要好的結果,這為GPU核心的自動化生成開闢了一條新的道路。
目前這項技術還處於早期研究階段,雖然已經取得了一些令人振奮的成果,但要想讓它能穩定地產生更好的結果,還有很多工作要做。
研究者對DeepSeek-R1的最新進展及潛力感到興奮。
參考資料:
https://x.com/anneouyang/status/1889770178487132384
https://developer.nvidia.com/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/


