DeepSeek讓英偉達H20都被瘋搶,但AI推理爆發不只靠囤卡

明敏 發自 凹非寺

量子位 | 公眾號 QbitAI
什麼?H20都變搶手貨,漲價10萬那種?!
最近有市場訊息稱,原本不受青睞的英偉達H20諮詢量暴漲幾十倍,8卡H20機器的價格也較年前漲價十萬(單價110萬左右),有從業者預測“價格不會下來了”。
要知道,H20是中國特供版,視訊記憶體頻寬等方面明顯受限,效能及價效比都遠不如H100。
如今市場風向有了變化,業內人士爆料某網際網路大廠已經下單10-20萬卡,整體市場H20的訂單量都大幅增加。
背後原因,直觀來看是DeepSeek熱潮。更深入則是——
AI推理需求爆了。
H20儘管效能只有H100的1/10,但是做推理綽綽有餘,視訊記憶體夠、適合跑大規模引數模型,價格還便宜更多。
AI Infra廠商PPIO派歐雲聯合創始人兼CEO姚欣向量子位透露,去年年底H20還沒有這麼搶手,但是到了春節後又是另一番景象,AI算力供需正在極速變化。
與之相對應,英偉達CEO黃仁勳在最新一季財報釋出後也表示,當前AI模型所需的算力是此前模型的100倍,帶動算力需求增加的關鍵是AI推理
見微知著,AI算力行業風向已經發生變化,新的機遇也已經在醞釀。

DeepSeek重構算力邏輯,推理需求面臨爆發

先一句話總結,DeepSeek以演算法創新重構AI算力邏輯,推動AI計算從“訓練為主”向“推理為主”正規化轉變,AI推理需求因此迎來全面爆發。
首先來看DeepSeek做了什麼?
它今年開源的兩款模型,在架構和演算法上實現了訓練推理效率提升。
第一,DeepSeek-V3採用MoE(混合專家模型)架構,在AI Infra層面提出大規模跨節點專家並行(Expert Parallelism/EP)
EP使得batch size大大增加,從而提高GPU矩陣乘法的效率,提高吞吐。專家模型分散在不同的GPU上,每個GPU只需要計算很少的專家(因此更少的訪存需求),從而降低延遲。
同時,DeepSeek-V3的專家模型數量從上一版的160個增加到256個。“大量小專家”模型架構能進一步降低單次推理時啟用的引數量。
第二DeepSeek-R1-Zero邁出利用強化學習提升語言模型推理能力第一步。在沒有任何監督資料的情況下,透過純強化學習過程進行自我進化,從而獲得推理能力。DeepSeek-R1採用FP8混合精度訓練框架和動態學習率排程器等技術,將訓練成本降低到560萬美元,遠低於OpenAI。同時還能將模型能力蒸餾到更小的密集模型中。
這種低成本模式使得模型能夠更廣泛應用於AI推理場景。
其次,為啥DeepSeek可以成為推動算力趨勢轉變的導火索?
從大模型整體發展程序來看,預訓練Scaling Law已經放緩,推理Scaling Law成為新方向。
推理Scaling Law的核心是透過增加推理時計算資源(如推理時間、算力)來提升模型效能。以o1為代表的推理模型都是透過在推理階段引入多步驟的思維鏈和強化學習,顯著提升了推理能力,這導致推理計算需求的大幅增加。
o1模型固然好用,但是卻不開源。DeepSeek正是為此而來,它們為全行業提供了一個性能優秀的開源可替代方案,瞬間改變整體局面。
憑藉低成本、高效能的特點,DeepSeek引發全社會範圍熱潮。不僅是普通人能夠免費用,大中小企業也能將DeepSeek系列模型與自身業務融合。
尤其是ToB領域,優質開源模型解決了企業在資料維度的顧慮——沒有人願意將自己或使用者的資料免費貢獻給閉源模型做訓練。同時DeepSeek暫時沒有將模型商業化的考慮,更接近真正意義上的開源。這也點燃了企業擁抱AI的熱情,更加速了AI落地程序,推理需求空前爆發。
由此,量變引發質變,AI計算的需求以及底層邏輯發生變化。
相較於預訓練,推理計算在硬體門檻、叢集建設等方面要求都更低。
超大規模叢集不再是必需,小叢集甚至單機,將是未來AI Infra的主要特性。
PPIO姚欣結合DeepSeek一系列動向以及行業現狀給出分析,DeepSeek提出的跨節點專家並行系統,已經一定程度上體現出了分散式的思想,它把不常用的專家模型集中到一臺機器上,常用的專家模型分配更多算力。由此形成排程上的平衡。
這進一步扭轉了算力行業的深層邏輯。原本大家都在期待英偉達如何從硬體層面帶來更好的推理效能,如今透過EP的方式,可以用H800跑出H100的效能。
也解釋了為何DeepSeek可以影響英偉達的股價。因為透過系統最佳化,底層硬體的護城河沒有那麼深了。
由此看到,H20這樣原本不被大廠推崇的推理計算卡開始搶手。甚至更進一步,英偉達本身的地位也會受到影響。
姚欣判斷,未來,英偉達一家獨大的情況也會有所改變,理時代,推理晶片將百花齊放。比如根據DeepSeek研究人員的測試結果,推理任務中昇騰910C效能可達H100的60%。
這進一步影響算力供給側的結構和邏輯。再具體一點,就是AI Infra架構的轉變。
該朝著哪個方向做?即將爆發的AI應用落地浪潮已經給出指引——最佳化與降本

AI Infra扛起推理時代成本最佳化重任

相較於預訓練時代,推理時代對雲計算、AI Infra有著全新需求。
預訓練時代,雲廠商提供的服務更傾向於一個裸金屬的訓練環境。因為是集中式叢集,每一臺機器幾乎都是跑滿的,雲廠商能最佳化的空間有限。推理時代,每個企業更傾向於選擇公有云服務部署模型
這意味著雲廠商接下來的競爭點應該是從不同卡型到模型層的全棧最佳化。
不過為啥由AI Infra/雲廠商來做?
從技術底層到實際成本最佳化上,AI Infra/雲廠商有自己的生態位優勢。
從技術角度出發,並不是所有AI廠商都具備處理高併發、高流量、高彈性的網際網路服務經驗。
比如前不久DeepSeek突然公佈成本利潤率理論值可達545%,引發諸多業內爭議。
PPIO姚欣表示:
作為作為一個真正服務過4.5億使用者的創始人來說,在真實情況下,所有網際網路使用者請求都一定有波峰、波谷,一天的使用者請求變化應該是一條曲線。如果在最高峰的時候,突然變成一條直線了,這意味著,在那個時間段使用者請求進不來。
所以總結來說,春節期間DeepSeek的服務崩潰,滿足不了使用者、企業服務。
換言之,DeepSeek的服務和技術架構更進一步需要“彈性”算力,才可能解決這樣的問題。PPIO派歐雲在春節期間第一時間接入DeepSeek,利用分散式推理和大規模算力排程,從而實現了更大彈性的負載均衡,保證客戶的服務質量、穩定性。
另外,在基礎設施建設上,AI Infra廠商更有先天優勢。
其中一部分玩家透過自建IDC提供多種算力服務,代表玩家有阿里雲等;還有一部分玩家選擇透過分散式網路提供算力服務,它們不自建IDC、不購入GPU,而是透過獨特的算力共享排程的方式,代表玩家有PPIO派歐雲。
二者比較,前者能提供的綜合性服務更多,後者在價效比和資源排程上更有優勢。
如PPIO的分散式架構,打破了傳統集中式架構的瓶頸,不僅為企業大幅降低了運維壓力,還將系統的處理效率提升到了一個全新的高度。透過PPIO提供的AI推理平臺,企業可以免去自行部署後臺服務的繁冗過程,直接呼叫API服務即可,不再需要自行運維,成本直接減少了40%
速度方面,得益於PPIO遍佈全球的分散式雲服務網路,無論使用者身處何地,都能找到近距離的算力節點,獲得20毫秒級的低延遲體驗。PPIO透過獨特方式呼叫全國範圍的算力節點,能為企業使用者帶來更彈性、更穩定、更划算的AI推理服務。
據瞭解,PPIO在整個春節期間ToB方向的DeepSeek服務可用性做到了99.9%,無TPM限制。其中關鍵就在於底層足夠彈性。現階段,PPIO平臺的日均tokens消耗量已經突破了1300億,與“六小龍”日均tokens消耗量不相上下。
此外,在演算法層面,PPIO還提出KV Cache稀疏化壓縮演算法、Hydra Sampling投機取樣技術以及端到端FP8推理三大核心技術,進一步突破視訊記憶體、算力和頻寬對大模型推理效能的限制。由此,PPIO能夠迅速適配和最佳化各種開源大模型。比如,PPIO算力雲產品已為百川智慧提供大規模AI推理服務
“只有當AI Infra公司能提供足夠高效能和低成本的基礎建設,讓大量AI 應用的收入足以覆蓋所有的推理成本,才會迎來AI應用落地的大爆發,使用者也會迎來AI 應用的免費時代。”姚欣表示。
DeepSeek振臂一揮之後,還需要全產業上下游通力合作,才能進一步加速大規模應用落地。
如今,值得關注的玩家紛紛站出來,承接流量的同時,更進一步推進新浪潮發生。AI Infra玩家們的動作,還只是表現之一。
而隨著越來越多產業夥伴加入,更龐大的需求和市場還在醞釀之中。
趨勢轉變之後,又是一個新開始。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章