導讀
◆短短30天,中國初創企業深度求索(DeepSeek)先後釋出兩款效能比肩GPT-4o的大模型,“1/18的訓練成本、1/10的團隊規模、不分伯仲的模型效能”令矽谷大受震撼。
原標題:DeepSeek顛覆了什麼?——大模型“國產之光”破局的啟示
一家人工智慧初創企業淺淺扇動兩下翅膀,即掀起全球科技界的一陣“海嘯”。
短短30天,中國初創企業深度求索(DeepSeek)先後釋出兩款效能比肩GPT-4o的大模型,“1/18的訓練成本、1/10的團隊規模、不分伯仲的模型效能”令矽谷大受震撼。
最新一期《經濟學人》封面文章第一時間讓位給這一土生土長的國產大模型:《低成本中國模型的成功動搖美國科技優勢》。很快,華爾街也同樣感受到了這種被動搖的震感。
事實上,這匹黑馬的貢獻絕非“低成本”這一個標籤所能概括。它不僅重新定義了大模型的生產函式,還將重新定義計算。
不論開源與閉源未來的優勢如何,這股衝擊波都將迫使全球科技界重新思考:當“規模定律”與“生態壁壘”不再絕對,什麼才是下一賽季AI競爭的核心?或許我們能從中獲得新的啟示。
擊穿三大定式
1月下旬,DeepSeek在中區、美區蘋果App Store下載榜單中登頂,超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發的模型產品。具體而言,它顛覆了什麼?
——打破“越強越貴”的成本詛咒
價格感人是讓DeepSeek快速出圈的第一個標籤。DeepSeek-R1的API服務定價為每百萬輸入tokens 1元(快取命中)/4元(快取未命中),每百萬輸出tokens 16元,而o1模型上述三項服務的定價分別是55元、110元、438元。
凡是使用過幾款大模型的使用者很快就能形成這樣一個共識:就推理能力而言,DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型,甚至在回答問題之前還能給出它的推理過程和思考鏈路。AI投資機構Menlo Ventures負責人Deedy對比谷歌Gemini和DeepSeek-R1後表示,DeepSeek-R1更便宜、上下文更長、推理效能更佳。低成本比肩o1模型,令矽谷的“燒錢模式”一時間遭到猛烈質疑。
然而在過去,大模型服務是標準的“一分錢一分貨”,想要用上更優效能的產品必須支付更高昂的費用,以覆蓋整個模型訓練過程中更高算力成本的支出。
——超越“效能-成本-速度”的不可能三角
當矽谷仍在為GPU萬卡叢集豪擲千億資金時,一群土生土長的中國年輕人用557.6萬美元證明:AI大模型的比拼或許並不只靠規模,更重要的是看實際效果。有句話形象地概括出DeepSeek的優勢:“不是GPT用不起,而是DeepSeek更具價效比。”
傳統模型訓練,需要在效能、成本、速度之間權衡,其高效能的獲得,需要極高的成本投入、更漫長的計算時間。而DeepSeek重構了大模型的“成本-效能”曲線,同時壓縮了計算週期。
根據DeepSeek技術報告,DeepSeek-V3模型的訓練成本為557.6萬美元,訓練使用的是算力受限的英偉達H800 GPU叢集。相比之下,同樣是開源模型的Meta旗下Llama-3.1模型的訓練成本超過6000萬美元,而OpenAI的GPT-4o模型的訓練成本為1億美元,且使用的是效能更加優異的英偉達H100 GPU叢集。而使用過程中,DeepSeek給出反饋的時長也大部分控制在5秒至35秒之間,透過演算法輕量化、計算效率最大化、資源利用率最佳化,成功壓縮了計算時間,降低了延遲。
——走出“引數膨脹”陷阱
ChatGPT橫空出世後700多天裡,全球人工智慧巨頭不約而同走上了一條“大力出奇跡”的“暴力美學”路線,引數越“煉”越大,給算力、資料、能耗帶來了極大壓力。很長一段時間,引數幾乎成為大模型廠商比拼的最大焦點。
而另闢蹊徑的DeepSeek恰巧處於對角線的另一端:並不盲目追求引數之大,而是選擇了一條透過探索更高效訓練方法以實現效能提升的“小而精”路線,打破了“引數膨脹”的慣性。
例如DeepSeek-R1(4B引數)在數學推理、程式碼生成等任務上具有比肩70B引數模型(如Llama-2)的能力,透過演算法最佳化、資料質量提升,小引數模型一樣能實現高效能,甚至能夠“四兩撥千斤”。
實現三大躍升
“DeepSeek出圈,很好地證明了我們的競爭優勢:透過有限資源的極致高效利用,實現以少勝多。中國與美國在AI領域的差距正在縮小。”面壁智慧首席科學家劉知遠說。
算力封鎖下的有力破局,得益於DeepSeek技術架構、資料策略、工程實踐三方面的關鍵突破。
——技術架構:重新定義引數效率
大模型的千億引數不應是冰冷的數字堆砌,而應是巧奪天工般地重組整合。
傳統大模型Transformer架構好比一條承載車輛的高速公路,當車輛(資料)數量足夠多的時候,每輛車必須和前後所有車溝通完成才能繼續行駛(計算),導致堵車(計算慢、能耗高)。而DeepSeek創新的架構則把一條序列的高速路,變成了一個輻射狀的快遞分揀中心,先把貨物(資料)按型別分類打包,再分不同路線同時出發開往不同目的地,每輛貨車(計算)只需選擇最短路徑。因此既能提高速度又能節約能耗。
——資料策略:質量驅動的成本控制
DeepSeek研發團隊相信,用“煉資料”取代“堆資料”,能使訓練更具效率。
傳統的資料策略好比去農場隨便採撿,常有價值不高的爛菜葉(低質量資料)。而DeepSeek創新的資料蒸餾技術,有針對性地篩選掉質量不高的爛菜葉:一方面自動識別高價值資料片段(如程式碼邏輯推理鏈),相比隨機取樣訓練效率提升3.2倍,另一方面透過對抗訓練生成合成資料,將高質量程式碼資料獲取成本從每100個tokens的0.8元降低至0.12元。
——工程實踐:架起“超級工廠”流水線
大模型傳統的訓練方式好比手工造車,一次只能裝配一臺,效率低下。而DeepSeek的3D並行相當於一方面透過流水線並行把造車流程拆分為10個步驟,同時組裝10輛車(資料分塊處理),另一方面透過張量並行,把發動機拆成零件,分給10個工廠同時生產(模型分片計算)。
至於推理過程,傳統模型好比現點現做的餐廳,客戶等菜時間長,推理過程慢。而DeepSeek採用的INT4量化,能把複雜菜品提前做成預製菜,加熱(計算)時間減半,口味損失不到5%,實現了大模型的低成本工業化。
超越技術的啟示
拆解DeepSeek的成功公式不難發現,透過底層架構創新降低AGI成本,同時以開源策略構建生態護城河,提供了中小型機構突破算力限制的可行路徑。此外,我們還能從中得到一些超越技術的啟示。
一直以來,驅動DeepSeek的目標並非利潤而是使命。“探索未至之境”的願景也指向一種與之匹配的極簡且清爽的組織架構。
一名人工智慧科學家表示,在人工智慧大模型領域,大廠、高校、傳統科研機構、初創公司在資源稟賦上其實各有優勢,但結構性的侷限很難扭轉。DeepSeek這種型別的初創公司能很好地彌補其中的一個缺位——具有大工程能力、不受制於短視商業邏輯的創新定力、創業團隊扁平化組織機制帶來的絲滑流暢的協作度。
據不具名人士透露,其V3模型的關鍵訓練架構MLA就源於一位年輕研究員的個人興趣,經過研判後DeepSeek組建了專項團隊開展大規模驗證與攻關。而R1模型果斷調整強化學習路線,領先於其他機構實現了近似o1的推理能力,核心原因之一也歸功於其青年團隊對前沿技術的敏銳嗅覺與大膽嘗試。
“我們創新缺少的不是資本,而是信心,以及組織高密度人才的能力,調動他們高效地進行創造力與好奇心驅動的創新。”DeepSeek創始人梁文鋒說。
在DeepSeek身上,我們看到了皮克斯動畫工作室的影子。這個年輕的中國初創企業與那個創作27部長片有19部獲得奧斯卡最佳動畫、同樣以創新為鮮明標籤的組織,有著不謀而合的組織機制與正規化選擇,以及由此帶來的高企的創新成功率與人才留存率。
不同於先發者略顯封鎖的護城堡壘,DeepSeek贏得讚譽的還有它的開源路線。將程式碼、模型權重和訓練日誌全部公開,不僅需要格局,更需要勇氣與實力。
“在顛覆性技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”梁文鋒這樣解釋選擇開源的原因,“開源、發論文,其實並不會失去什麼。對於技術人員來說,被follow(追隨模仿)是很有成就感的事。”
從技術到願景,DeepSeek堅定選擇的始終是一條難且正確的路。這也是為什麼,即便別國在人工智慧領域已坐享先發優勢,後發者依然有機會憑藉技術創新、成本革命打破大模型競爭的傳統邏輯,打破人工智慧行業競爭格局,打破“他國更擅長從0到1的原始創新,而中國更擅長從1到10的應用創新”的成見,重塑競爭優勢的奧秘。
北京時間2月1日凌晨,在OpenAI釋出其推理系列最新模型o3-mini時,我們從中看到了一個熟悉的字眼:“Deep research”。這是否是國產之光“被follow”的開端儘管不好斷言,但我們至少身體力行走出了一條“大力出奇跡”之外,另一條具有自主創新基因的制勝之道。
正如梁文鋒此前接受採訪時所說,“中國要逐步成為貢獻者,而不是一直‘搭便車’。”

新增徐老師微信
立即諮詢
國際在職“MBA/EMBA/DBA”


點選底部“閱讀原文”檢視更多
在職“MBA/EMBA/DBA”課程
↓↓↓↓↓↓↓↓↓↓↓↓