

此前, Meta 首席人工智慧科學家楊立昆(Yann LeCun)表示,DeepSeek 的成功帶來的最大啟示是保持 AI 模型開源的重要性,這樣每個人都能從中受益。他表示,這並不是中國的人工智慧“超越美國”,而是“開源模型戰勝了專有模型”。
那麼,事實確實如此嗎?本文整理自 InfoQ 策劃的 DeepSeek 系列直播第四期節目。在直播中,極客邦科技創始人 &CEO 霍太穩對話 PPIO 派歐雲聯合創始人 &CTO、TGO 鯤鵬會學員王聞宇,深入探討了 DeepSeek 爆火背後,開源策略對 AI 企業商業模式的影響,以及開源與閉源路線帶來的思考。
在王聞宇看來,除了在模型訓練演算法和工程層面的突破外,DeepSeek 在 AI 基礎設施方面的重要創新,使得許多 AI 基礎設施公司能夠探索降低成本和提升效能的方法。而推理成本的降低將使得 AI 大規模應用的門檻變低。當 AI 推理成本實現十倍、百倍甚至千倍的降低時,AI 應用將迎來爆發式增長。
下文為直播部分內容精選,完整直播回放 & 最新直播預約可關注“AI 前線影片號”檢視。
以下為王聞宇的分享實錄部分(經編輯):
我們先來回顧一下 DeepSeek 爆火的原因。在過去兩個月,DeepSeek 釋出了 V3 和 R1 兩個模型。V3 模型對標了 OpenAI 最強的多模態模型 4o,而 R1 則對標了 OpenAI 的深度思考模型 o1。DeepSeek 的這兩個模型不僅在效能上與 OpenAI 相媲美,甚至在某些場景下表現更優,比如在經典問題“3.11 和 3.9 哪個更大”上,DeepSeek 能答對,而 OpenAI 的模型卻會答錯。
總結 DeepSeek 成功的原因,主要有三點:
-
DeepSeek 的模型在評測資料集上的表現非常出色,V3 和 R1 的評分都超過了 OpenAI 的對應模型。這證明了其技術實力與 OpenAI 相當。
-
DeepSeek 的成本極低。從訓練角度看,其論文顯示總訓練成本約為 500 萬美元,相當於 Meta 一位高管的年薪。相比之下,OpenAI 的模型成本要高得多。在推理成本上,DeepSeek 的 R1 模型僅為 OpenAI 的 1/30,V3 模型為 4o 的 1/10。即使 OpenAI 在 DeepSeek 釋出後緊急推出了 O3 mini 模型,但成本依然高於 DeepSeek。
-
最後,DeepSeek 的開源策略是其備受關注的真正原因。它不僅對標了 OpenAI 的王牌模型,還透過開源“解密”了 OpenAI 的核心技術。DeepSeek 在開源中展現了諸多創新,例如混合質量模型 Moe、多頭潛在注意力機制 MLA,以及強化學習中的 GRPO 演算法,這些都優於 OpenAI 所使用的 PPO 演算法。此外,DeepSeek 還開發了 MTP 多 token 預測機制,進一步優化了效能。這些技術不僅揭示了 OpenAI 的技術思路,還在此基礎上進行了核心最佳化。
我認為,DeepSeek 成功的最大原因並非單純的效果媲美 OpenAI 或成本更低,而是它透過開源將這些技術公之於眾。如果 DeepSeek 沒有開源,它可能不會引起全球如此廣泛的關注。開源不僅讓技術更加透明,還推動了整個行業的技術進步。

有些公司專注於開源,而有些公司則選擇閉源。在我看來,大語言模型的開源與傳統開源專案有很大不同。傳統開源本質上是一種工程師之間的協作方式,但大語言模型的開源則不然。首先,大語言模型開源的核心是模型權重。其次,開源內容還包括技術論文、訓練細節以及部分工程程式碼,這些可以讓開發者復現模型。在模型開發過程中,大語言模型往往由單一公司主導,不存在協作機制。只有在開源後,社群才會參與推理、再訓練和微調(fine-tuning)。因此,大語言模型的開源性質與傳統開源存在顯著差異,這種差異也決定了它們的發展方向。
從 2023 年 LLaMA 釋出開始,開源模型一直在追趕閉源模型。隨著時間推移,開源模型的表現逐漸逼近閉源模型。截至 2024 年 7 月,開源模型的表現已經與閉源模型非常接近,差距正在縮小,未來這種差距會更小。

DeepSeek 的出現讓其它巨頭陷入焦慮。OpenAI 緊急釋出了 O3 mini,並公佈了 GPT 4.5 和 GPT 5 的路線圖,承諾在 2025 年釋出 GPT 5。Meta 也從猶豫是否開源 LLaMA 4 轉變為確定在 2025 年上半年開源,併成立了四個“作戰工作室”,專門應對中國模型的挑戰。百度也宣佈下一代模型將開源。2 月 18 日,埃隆·馬斯克將釋出 Grok 3。如今,各大公司都在加速發展,意識到開源帶來的競爭壓力。
開源對於整個社會和開發者來說,帶來了諸多好處:
第一,開源能夠快速降低推理成本。一旦模型向社會開放,眾多公司就會參與研究如何部署和最佳化,從而降低人工成本、提升模型效能,進而迅速拉低處理成本。
第二,開源賦予了開發者更大的靈活性。開發者可以選擇在公有云、專有伺服器或內網環境中部署模型,不用擔心效能限制或資料安全問題,能夠更加放心地使用。
第三,開源還具備很強的可玩性。開發者可以使用自己的特色資料進行微調(fine-tuning)或再訓練,從而創建出個性化的模型。
第四,社群的貢獻也不容忽視。開源專案釋出後,會迅速吸引大量開發者參與,他們利用各種資料集進行微調或模型蒸餾(distillation),創造出適用於不同場景的模型供他人選擇。開源的最大價值在於,它將原本只有頭部企業(如 OpenAI)才能參與的技術平民化,讓更多人能夠參與到其中。
開源大模型推動了技術平權。隨著更多人參與、更多需求被滿足以及不斷的迭代最佳化,開源專案逐漸形成了一個正向迴圈,其影響力也越來越大。開源專案的核心優勢不在於技術壁壘,而在於生態的開放性和包容性。這種開放性吸引了大量參與者,構建了強大的生態壁壘。因此,我預測在 2025 年,會有更多更好的開源模型出現。
開源專案的成功依賴於其開放性和生態建設,最終能夠勝出的開源大模型一定是極度開放和包容的,並且能夠構建起強大的生態壁壘。最終,開源大模型可能只會剩下少數幾個,甚至只有 1-2 個,就像伺服器作業系統的 Linux、移動作業系統的 Android 一樣,因為生態的壁壘,不可能容納很多家。
DeepSeek 的爆火對 AI 基礎設施(AI Infra)的影響非常顯著。在 1 月 17 日,英偉達的股價出現了單日 17% 的最大跌幅。當時有訊息顯示,從 DeepSeek 公開的資料看、訓練所用顯示卡數量極少,成本也極低。這使得投資者意識到,原來訓練大模型並不需要堆積大量的顯示卡,這一認知瞬間改變了市場對英偉達未來預期的判斷。

除了在模型訓練演算法和工程層面的突破外,DeepSeek 在 AI 基礎設施方面也有重要創新。例如,DeepSeek 在某些運算元中直接用 PTX(Parallel Thread Execution,可以簡單理解為 GPU 的組合語言)進行程式設計來提高效能。之前網上有文章稱 DeepSeek 繞開了 CUDA,其實這種說法並不準確,因為 PTX 也是 Cuda 生態的一部份。這充分說明了 DeepSeek 把效能做到了極致。
此外,DeepSeek 在訓練過程中大量使用了 FP8 精度浮點數,這大大加快了訓練速度,減少了 GPU 數量的需求。這種高效的訓練方式為 AI 基礎設施領域帶來了新的思路。


開源模型的出現,使得許多 AI 基礎設施公司能夠探索降低成本和提升效能的方法。比如我們公司,PPIO 派歐雲,就可以透過研究開源的模型權重,程式碼,論文,可以嘗試各種推理最佳化方案,做各種各樣的最佳化實驗,最終幾乎都能找到無損且效果良好的解決方案。但如果是閉源專案,就只有模型公司自己來最佳化效能。
這種模式下,不同公司會根據自身需求選擇不同的部署方案:有些追求高效能,用貴的卡,跑較少的 Batch Size,價格可能較高;反之,有些則追求低成本,用廉價的卡,跑較高的 Batch Size,效能相對較低。這種多樣化的選擇為開發者提供了靈活性,也促使各公司相互競爭,進一步降低推理成本。相比之下,閉源公司在這方面可能缺乏動力,這也是開源生態帶來的優勢之一。
以我們 PPIO 派歐雲公司為例,我們上線了 DeepSeek 滿血版的 API,採用全引數,未進行 INT8 量化,以確保效能無損。此外,我們還推出了專屬的 DeepSeek 容器服務,使用者只需一鍵操作,即可快速啟動 GPU,並部署專屬模式,給出專屬於開發者的 API 介面。另外對於普通使用者,低程式碼開發者,我們已經接入了多個應用 (如 Dify, FastGPT, Chatbox, CherryStudio 等),使用者可以在設定模型引數時選擇 PPIO 派歐雲的 API 服務。近期,我們還推出了邀請碼活動,新使用者將獲得 5000 萬 token(用我的邀請碼 MWMLW8),5000w 的 token 足夠開發者能享受我們的 API 服務較長時間了。
最近,DeepSeek 的應用趨勢正在發生變化。微信正在內灰度測試接入 DeepSeek,百度地圖也上線了基於地理位置的深度思考搜尋。這些應用主動接入 DeepSeek 的背後,核心原因之一在於其推理成本的大幅下降。

我之前提過 AI 推理第一性原理:AI 單位需求的推理成本,當實現了 10 倍 /100 倍 /1000 倍最佳化後,帶來 AI 推理應用的爆發。
推理成本的降低必然解鎖更多 AI 應用個場景,而無需擔心成本問題。從經濟學角度看,永恆的規律,“Affordability is all you need”(便宜就是你所要的),就像移動網際網路時代,大部分 APP 都是免費的,這吸引了大量使用者,而開發這些 App 的企業則透過廣告模式盈利。隨著 AI 推理成本的下降,未來會有更多 AI 應用採用免費模式,而非訂閱模式。這種模式將因為使用者的大規模看廣告的方來,獲得收入來實現盈利,這才是網際網路應有的形態。我認為,免費的 AI 時代即將到來。
隨著使用者數量的激增和應用場景的不斷拓展,推理的用量將很快超過訓練。據 TIRISARearch 預測,到 2026 或 2027 年,推理市場的規模可能會達到訓練市場的 20 倍。開源技術的結合和私有部署的普及,將為應用市場帶來巨大的進步。
總而言之,回顧一下我的所有觀點:
DeepSeek 的成功源於效果、成本和開源三者的結合。
開源與閉源之間的差距正在縮小,未來可能會進一步減小。
開源不僅加速了 AI 基礎設施技術的發展,還推動了效能提升和成本降低。
當推理成本降至足夠低時,AI 應用將進入免費時代。

以下為對話實錄部分(經編輯):
王聞宇: 模型效能的差異並不完全取決於開源或閉源,而更多決定於,選擇的 GPU,併發引數,還有推理最佳化技術所共同決定。
這裡說得併發引數,例如 Batch Size。在部署推理的時候,往往需要在 Batch Size 和效能指標(延遲,吞掉)之間尋找平衡。如果 Batch Size 過高,總 Token 數吐得更多,Token 單價便宜,但是單使用者體驗會變差,推理速度也會變慢。相反,如果 Batch Size 過高,雖然使用者體驗會更好,但總 Token 數吐得慢,導致 Token 單價上升。閉源模型也存在類似平衡問題,所以這點不是決定開源和閉源的區別。
這裡,真正的區別在於,部署方式和推理最佳化技術的方案選擇上,首先,推理最佳化技術對模型效能的影響非常關鍵,特別是開源模型,任何人都可以去研究,無論是之前 LLaMa 還是最近 DeepSeek,如果未經最佳化,效能都不會達到最優。透過採用無損最佳化技術、PD 分離、投機取樣、並行方案如 EP,DP,PP 管道並行等方法,模型效能可以大幅提升,甚至有 10 倍的最佳化空間。
以 DeepSeek 為例,其效能最佳化的關鍵在於幾個技術點:首先是 PD 分離,具體來說,如果不做 PD 分離,模型的 Profile 階段和 Decode 階段耗時不是一樣的,大量的 Profile 操作完成後,需要排隊等待 Decode,從而導致推理效率低下。根據官方的建議,這種情況下 Profile 和 Decode 的配置在 H800 下建議在 1:10。換句話說,如果使用一張 GPU 卡進行 Profile,那麼搭配 10 張 GPU 來進行 Decode,是比較推薦。這是 H800 下的建議,如果 GPU 不是 H800,我們時間下來不是 1:10 是最好的。其次,DeepSeek 採用了 MLA(Multi-head Latent Attention)技術,MTP(Multi-token Prediction)機制也是效能提升的關鍵。如果這些最佳化措施不到位,模型的吞吐量和效能都會受到嚴重影響。因此,模型的最終效能取決於最佳化的基礎和方法。還有做好 DP(Data Parallelism,資料並行),EP(Expert Parallelism, 專家並行),PP(Pipeline Parallelism,流水線並行)等並行方案,也有不小的提升。
對於閉源模型,最佳化可能僅限於模型公司內部,但對於開源模型,全球的開發者都可以參與最佳化,探索最佳化方案,降低成本從而降低 Token 價格,推動整個行業的發展。
王聞宇: 從硬體角度看,要分 GPU 和 TPU 來看,另外編譯器和硬體是緊密關聯。
以 DeepSeek 為例,現在要部署滿血版 DeepSeek 模型,擁有 671 億引數。如果使用單臺 H100 的 8 卡配置,或者單臺 H20 的 8 卡配置,在不做任何有損最佳化(比如壓縮或量化)的情況下,單臺機器是無法執行的,需要兩臺機器並聯才能滿足需求。這是因為模型引數量巨大,單臺機器的記憶體和計算速度不足以支撐其執行。但如果使用 H200 或 MI300,一臺 8 卡機器就可以執行。因此,制約模型執行的並非開源與否,而是模型引數量和最佳化技術。如果在不損失精度的前提下保留引數量,併為上下文和快取留出空間,那麼確實需要更強的算力來支援。
但是部份場景更適合於選擇專用硬體,比如 TPU,其設計原理與 GPU 有所不同。例如,Groq 使用了大量的 SRAM(快取記憶體儲存器) 替代 HBM(高頻寬、堆疊式儲存器),這使得其成本大幅上升,但吞吐速度也顯著提高。這種硬體適合對成本不敏感、但對效能要求極高的場景,更適合選擇 Groq 這類 TPU。然而,專用硬體的最大問題是隨著模型的快速迭代(AI 領域變化迅速,模型架構不斷更新),硬體的固化設計可能無法適應新的模型架構,比如將來如果 Transformer 演算法有大的迭代的時候,可能就不能適應了。
我認為,未來對於通用場景,GPU 仍將是主流選擇,因為其靈活性和通用效能夠適應快速變化的模型需求。而對於一些特定的、垂直需求的場景,專用硬體如 NPU /TPU 會逐漸佔據一定市場份額。
王聞宇: 當前以 GPU 為主的硬體主要有三個瓶頸,分別是算力、視訊記憶體頻寬、視訊記憶體容量,透過三類技術進行解決。
-
無損加速技術
這一類技術致力於透過最佳化計算過程,減少不必要的計算和 I/O,提升算力利用率。一個典型的技術是 FlashAttention,它透過對 Q/K/V(查詢、鍵、值)的切塊和數學最佳化,將原本需要三次迴圈的矩陣計算壓縮為一次迴圈,從而有效提高計算和訪存效率。同時,FlashAttention 還透過運算元融合技術,將旋轉位置編碼、MASK 等計算邏輯融合到單個 kernel 中,進一步減少了不必要的 GPU 訪存,優化了計算效能。除 FlashAttention 外,PageAttention、Chunked Prefill 在保證不影響模型精度前提下,提升了推理效能。
-
有損加速技術
這一類技術通常會犧牲一定的精度來換取效能提升,包括量化、稀疏化、KV Cache 壓縮等技術。對於大模型推理中的 Decode 階段,視訊記憶體頻寬成為瓶頸所在,主要表現在 GPU 的全域性記憶體和共享記憶體的資料交換過程中。此時,量化 和 KV 壓縮這樣的技術可以顯著減輕 I/O 壓力。例如,常見的 KV Cache 通常採用 BF16 格式儲存,每個資料佔用 16 個二進位制位。如果將其壓縮為 FP8 格式,每個資料僅佔 8 個二進位制位,這不僅能減少 Decode 階段的 GPU I/O 開銷,還能減少 GPU 記憶體佔用,提高處理並行度,進一步提升推理效能。
-
系統架構最佳化
系統層面的架構最佳化,透過合理排程、快取和平行計算等技術,減少無效開銷,提升硬體資源利用效率。常見的架構最佳化技術包括 PD 分離、投機取樣、Constrained Decoding 和 Prefix Cache 等。推理過程大致可分為 Prefill 和 Decode 兩個階段,其中 Prefill 階段瓶頸是計算,Decode 階段瓶頸是視訊記憶體訪問。實際硬體中,很難同時解決這這兩個瓶頸問題,因此對應的最佳化技術應運而生。PD 分離是將 Prefill 和 Decode 分離到不同的機器上,透過分散式處理技術實現算力利用率最大化。同時,投機取樣透過使用草稿模型提高 Decode 並行度,有效減輕 I/O 訪存壓力。Constrained Decoding 和 Prefix Cache 等技術則能減少重複計算,降低無效 token 的計算量。此外,引擎中的佇列排程、優先順序策略和網路傳輸最佳化等技術,也能在不同程度上提升推理效能。
這些最佳化技術在學術界和工業界都得到了廣泛應用,不斷有新的研究成果出現。LLM 推理的降本空間很大,即使模型和硬體不變,透過最佳化也能顯著降低成本。這也是 Infra 公司的核心價值所在。
王聞宇:最近確實有訊息稱 DeepSeek 的 API 價格上漲了 3 倍,但這並非單純的漲價行為。DeepSeek 在上線初期就明確釋出了價格策略,並且在 2 月 8 日調整了價格。DeepSeek 團隊早在釋出第一天就表示,為了推廣服務,初期會以 V2 的價格進行促銷,而 2 月 8 日之後將恢復原價。因此,這次的價格調整是基於既定的價格策略,並非突發的漲價。
DeepSeek 背後擁有強大的技術團隊,他們在量化交易領域有著豐富的經驗,尤其在毫秒級延遲最佳化方面非常擅長。其團隊對硬體最佳化非常有心得,利用 PTX 和 CUDA 深度最佳化提升效能。因此,DeepSeek 的價格調整是基於成本核算和市場策略的綜合考慮。
此外,DeepSeek 採用 NSA(Native Sparse Attention)技術,這一技術透過稀疏注意力演算法將 64k 長文字的推理速度提升了 11.6 倍。這一成果表明,透過模型結構的最佳化,DeepSeek 可以顯著降低推理成本。相比傳統的 Softmax Attention 技術, Sparse Attention、Linear Attention 和 Tensor Product Attention 等技術在推理時的計算成本優勢非常明顯。
此外,DeepSeek 的開源特性也使得其他公司和開發者可以根據需求探索不同的演算法來進一步降低成本。雖然 DeepSeek 的官方價格可能會讓部分使用者感到壓力,但隨著技術的不斷進步和新型算力解決方案的出現(例如 B100 等新晶片的釋出),推理成本有望進一步降低。因此,未來 DeepSeek 的價格不僅不太可能上漲,反而可能會隨著技術的發展和市場競爭的加劇逐漸降低。
王聞宇: 這個評測是由一個比較著名的獨立第三方評測機構 SuperClue 進行的。
他們在評測准入頁面上提到,評測是基於其內部封閉的資料集進行的。網上有些資料暗示他們可能擁有很多資料,但這些資料集並未公開,因此我們也不清楚具體內容。評測過程是讓模型回答問題,然後判斷答案是否正確。
我們之所以能在評測中排名第一,我認為主要有兩個原因。
首先,我們的模型是真正的“滿血版”,保留了所有引數,沒有進行 INT8/INT4 量化,而是以原始的 FP8 精度執行推理。FP8 提供了更大的動態範圍,相比 INT8 和 INT4,它能夠更好地保留原始數值資訊,從而避免了由於量化帶來的精度損失。從行業情況來看,很多公司使用了 INT8 等低精度量化,因為國產 GPU 在硬體層面不支援 FP8,這可能是其他公司在評測中表現稍遜一籌的原因。
其次,我們的模型上線流程非常嚴格,公司在出海時已經做了大量模型託管服務,所以有一套嚴格的商業流程。在上線每個模型之前,我們會使用多種資料集進行評測,包括公司內部的專有資料集以及公開資料集(如 GSM8K)。此外,我們還會進行人工評估以確保模型的效能和質量。我們會確保評測結果與官方資料或第三方資料相近,才會正式上線模型。我們對模型的嚴格要求和無損處理,讓我們在 SuperCLUE 資料集上的表現非常出色。
王聞宇: 在中國,DeepSeek 的出現確實是一個重要的拐點。從市場推廣角度看,除了 DeepSeek 之外,許多公司並沒有真正將核心能力開源,而是透過開源小型專案模型來吸引關注和客戶,隨後再推廣其閉源的大型模型。這種策略更多是將開源作為一種市場推廣手段,而非真正開放核心技術。而 DeepSeek 則是唯一一家真正將最核心能力開源的公司,尤其是其 V3 版本,不僅開源,還達到了與 OpenAI 媲美的效果。
對於國內市場而言,DeepSeek 的開源還解決了資料管控的問題。由於國內對內容管控的要求較高,許多國際開源模型(如 LLaMA 等)的資料結果不可控,容易被下架。DeepSeek 的開源使得國內企業無需翻牆,極大地降低了使用門檻。此外,DeepSeek 的成本遠低於 OpenAI,這使得更多的企業能夠負擔得起,從而推動了 AIGC 應用的普及。
從資本角度看,DeepSeek 的成功也改變了全球對中國 AI 技術的信心。此前,全球資本對中國 AI 持悲觀態度,認為中國只能追趕 OpenAI 等國際巨頭。然而,DeepSeek 的出現證明了中國公司能夠開發出具有國際競爭力的 AI 模型,這不僅提升了中國 AI 技術的全球地位,也吸引了更多海外資本的關注。這種信心的提升也反映在股市上,特別是港股市場的整體上漲,部分原因可以歸結於 DeepSeek 帶來的積極影響。海外投資者,尤其是中東、新加坡和歐洲的資本,開始對中國 AI 技術表現出更大的興趣,這為國內創業者提供了更多的資金支援。
此外,我認為 DeepSeek 的出現不僅推動了技術的普及,還可能開啟了新的一波 ToC 創業視窗。就像當年移動網際網路時代一樣。我最近剛從美國灣區回來,感覺那邊的 ToC 創業視窗已經開啟,我相信中國這邊很快也會開啟。因此,DeepSeek 的出現可能會引領我們進入一個新的創業者黃金時代,這不僅對開發者來說是一個利好訊息,也對整個行業的發展具有深遠意義。
2 月 11 日 -2 月 27 日,AI 前線影片號聯合霍太穩影片號透過 12 場直播,深度解析 DeepSeek 爆火背後的技術突破、商業化路徑與行業影響。
今晚 20:30,我們將連線積夢智慧 CEO、TGO 鯤鵬會榮譽會長謝孟軍,探討創業公司如何更好地打造差異化競爭優勢,普通人又如何借 AI 之力成為“超級個體”。歡迎提前預約👇
