做出一家讓矽谷都震撼的“國貨之光”,需要多聰明?

提問:前幾天,不管在中國還是在美國,你有沒有刷到過一家中國公司,做AI的,叫DeepSeek? 
昨天剛開完會,公司一個小夥伴突然來精神了,說:
“欸,那個前幾天很火的DeepSeek居然出APP了。”
一搜,還真有。

真低調。

可低調的背後,是一口氣刷了中國的屏,還刷了美國的屏的爆火。
2025剛開始那幾天,國內突然出了個熱搜:
“雷軍千萬年薪,挖角DeepSeek的核心研究員,95後AI天才少女羅福莉”。
很多人在這句話裡,看到了“雷軍”,看到了“千萬年薪”,看到了“95後AI天才少女”。但其中很多關注AI的人,還看到了:“DeepSeek”

因為,在更早的聖誕期間,這家中國的,做AI的,甚至不是大廠的公司,突然刷了美國的屏。
2024年12月26日,中國的AI公司DeepSeek(中文名叫“深度求索),釋出了一個最新AI大模型DeepSeek-V3,並同步開源。
很快,無論是中國的AI圈,還是矽谷的大佬,美國的新聞,都開始談論它。
國內很多媒體喊它“中國AI界拼多多”,“國貨之光”。說,它證明了“就算算力被封鎖,中國也有可能搞出很好用的大模型”
而在國外,在矽谷,更多人喊它“來自東方的神秘力量”說,這下“美國從0到1,中國從1到N”的說法,可能要被破了……
這個突然橫空出世的中國AI公司,真那麼厲害嗎?厲害在哪?怎麼做到的?到底什麼來頭?
我也很好奇。這幾天看了一些資料,也問了一些行業裡的朋友。越瞭解,我越有一種感覺:
刷屏美國的DeepSeek,不一定“神秘”,但確實有點聰明。

“來自東方的神秘力量”

提問:當美國在刷屏聊這家公司的時候,都在聊什麼?
拋開各種一會兒“震驚”,一會兒“難以置信”的那些情緒不說,事實說來說去,大概就是4件事。
首先,效能,嚇人的好。
DeepSeek的大模型,很多科目在跑分測試中,都一舉超越了很多頭部的開源模型。
如果單看“理科”,比如程式碼編寫和數學運算方面,更是直接可以上手,和全球頂尖的閉源模型掰手腕。
比如OpenAI的GPT-4o,Meta的LLama-3.1-405B,阿里Qwen2.5-72B……
這麼強,價格,還嚇人的低。
人家美國的大模型扛把子,比如Claude 3.5 Sonnet,API價格是每百萬輸入token3美元。國產的DeepSeek-V3呢?優惠狠起來,只要0.1元人民幣。
這麼恐怖的價效比,怎麼做到的?
梁文鋒曾在暗湧的採訪中說:“我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。”
嚇人的價效比背後,是低得更嚇人的成本。
先大概看個賬單:
DeepSeek-V3的預訓練過程,花了557.6萬美元,耗費了280萬GPU小時,2048塊GPU,並且還是英偉達針對中國市場的低配版:H800 GPU。
那別人呢?很多財經新聞指出,OpenAI,谷歌,Meta,都花數億,甚至數十億美元。
而OpenAI的早期成員Andrej Karpathy在社交平臺上說:“要做到這種水平,通常需要3080萬GPU小時,和16000塊GPU。”
280萬,2048塊,幾百萬美元。
3080萬。16000塊。幾億甚至幾十億美元。
直接差出1個零,甚至幾個零。
難怪Meta AI研究科學家田淵棟發文說:“對DeepSeek-V3'極有限的預算'和'強勁的表現'深感驚喜。”
然而,到這裡,依然還不是讓他們最“驚”的。
美國的CNBC主播在新聞裡說:“這家公司的大模型,在很多方面都不輸於Meta的LLaMa 3.1和OpenAI的GPT 4o,順便說一下,這些都是最新最強的模型……並且,朋友們,別忘了這個事實:這家公司來自中國。
超高效能,超低價格,超低成本,還是來自中國的AI公司。
很快,在矽谷,DeepSeek開始被這麼提起:
“來自東方的神秘力量”。

“小院高牆”
這個突然橫空出世的中國AI公司,到底,什麼來頭?
是不是,背後有高人?
OpenAI的前政策主管Jack Clark就曾說:DeepSeek“僱傭了一批高深莫測的奇才”。
而DeepSeek創始人梁文鋒在一次採訪裡對此的回應是:“並沒有什麼高深莫測的奇才。都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。”
那,是不是,背後有資本?
畢竟,做大模型,從來都是少數人的遊戲。
有新聞披露,在很多普通人都還沒聽說過AI的2019年,DeepSeek就已經囤了超過1萬張的英偉達顯示卡,用於算力基建了。
真厲害。但是,有超過1萬張,就足以讓DeepSeek有優勢嗎?光看2024年一年,擁有的等效H100GPU數量,Meta,是55萬-65萬,微軟,是75萬-90萬。谷歌,更是100萬-150萬……
人,錢,都沒有什麼特別的。那,東方,還有什麼西方沒有的?
“小院高牆。”
這個2018年由美國智庫提出的科技防禦策略,衍生出來的新聞,關鍵詞基本都長這樣:
管制,禁運,封鎖,實體清單……
在美國CNBC的一個採訪中,一位連線專家在聊起DeepSeek時說:
“顯然,他們沒有使用最新的晶片,也沒有那麼大的算力,他們甚至在這方面沒怎麼花錢,但他們卻建立了一個可以和OpenAI和Meta的模型競爭的模型。”
“他們是在哪個地方做得這麼好呢?”
很多人,開始連夜翻技術文件。
是的。被稱為“來自東方的神秘力量”的DeepSeek,在最核心的技術上,卻一點都沒有玩神秘:
他釋出的大模型,都是開源的。
每一步,怎麼做的,什麼原理,甚至程式碼,都寫在公開的技術文件裡。
所有人,隨便看。

“技術文件”
DeepSeek的技術文件,一共53頁。
翻開,不是長這樣:
就是長這樣:
啊?這怎麼看?
我明白。我理解。這樣一份文件,對於大多數普通人來說,確實難啃。
好在,很多技術大牛,已經連夜劃了重點。
比如,最常見的這段:
這得益於採用了 Multi-head Latent Attention ( MLA ) 和DeepSeek MoE架構,實現了高效的推理和經濟高效的訓練。又引入了輔助損失自由負載平衡策略和多 token 預測訓練目標,提升了模型效能。同時,在14.8萬億個高質量 token上進行了預訓練時,透過監督微調和強化學習階段充分挖掘了其潛力。
看著還是太乾?沒事兒,再劃成3個關鍵詞:
MoE,MLA,無輔助損失的負載平衡策略和多令牌預測訓練目標。
這,就是要看懂DeepSeek的“神秘力量”,至少,需要看懂這3個詞。
我爭取,用普通話,幫你把它們從頭說一遍。
我猜,聽完你會覺得很眼熟。
從哪裡說起呢?
就從,你對大模型的要求說起吧。

“神秘力量”
提問:這兩年,你有沒有用過什麼AI大模型?
比如,美國的ChatGPT?中國的文心一言?通義千問?……
你用它的時候,都對它有什麼期待?
至少,我問它個什麼,它的回答得靠譜吧?靠譜之外,一個回答不能讓我等上1分鐘吧?……
又快,又好。
這,就是一個好的大模型產品,至少要做到的2件事。
而這2件事,傳到做大模型產品的技術專家的耳朵裡,就會自動被翻譯成另外2個詞:
大模型的複雜度,大模型的推理效率。
什麼是複雜度?至少,這個大模型的腦子得足夠聰明,能應對足夠多,足夠複雜的問題。
腦子要聰明,要多幾根“筋”。大模型要聰明,就得多幾億個“引數”。
這次釋出的DeepSeek-V3大模型,引數就有6710億個。
真多。可是,這麼多“腦筋”一起動,得多費勁啊?
確實費勁。所以,得燒錢,買卡,堆算力……
但是,你都看見了。DeepSeek沒這麼幹。它們幹了很多其它的。
其中,最常被人提到的,是這3件:
第一,把一堆“專家”給分開。
想象一下,大模型,就像一個專家大本營。為了能儘可能地幫你幹各種活兒,裡面駐紮了各種領域的專家。
每次你一派活兒,就要呼啦啦地召喚這個專家大本營。很是勞師動眾。
DeepSeek,做了一點最佳化:把專家們分門別類,每次有活兒,只喊其中一組相應的專家團出來就好。
這,就是MoE架構,也叫混合專家技術。
這麼分,本來每次有活兒,得驚動6710億個引數,現在只要37億個引數就可以了。多省力。
真聰明。可是,一個大模型,就算調的專家少了,每天要乾的活兒還是超級多。有沒有辦法更省力?
DeepSeek又想到了個辦法:把要乾的活兒,壓少一些。
比如,搞個東西,讓模型可以在幹活兒時,學會“抓大放小”。精確到“元”就夠的,就絕不精確到“毛”。大不了算完再派個專家,統一驗算一遍。
這個東西,就叫MLA,也叫資訊過濾器。能讓模型只關注資訊中的重要部分,不會被不重要的細節分散注意力。
有意思。這麼一來,對算力的依賴肯定又能少好多。
可DeepSeek依然沒滿足。“專家”和“活兒”都盤了,那中間的“派活”呢?
我能不能再搞個機制,讓每個專家,都能被合理分工。不至於要麼給我閒著,要麼忙到爆炸?
於是,就有了:無輔助損失的負載平衡策略和多令牌預測訓練目標。
現在,再看回這3個詞,你什麼感覺:
MoE,MLA,無輔助損失的負載平衡策略和多令牌預測訓練目標。
分專家,壓活兒,合理分工。
嗯,很聰明。可是,不是在說“神秘力量“嗎?
這算什麼神秘力量?

“工程”
提問:怎麼才算“神秘力量”?
能突破“小院高牆”?能打破“國外從0到1,中國從1到N”的觀念,帶來顛覆性創新?
如果是這個標準,那OpenAI創始人奧特曼,可能覺得,不算。
在DeepSeek大模型釋出後,他曾說:
“DeepSeek-V3,只是在複製已知有效的東西。但當你不知道某件新奇、有風險且困難的事情是否會成功時,去做他是極其困難的。”
為什麼這麼說?是不是在酸?是不是在內涵?
這樣,不如我們先簡單倒個帶:
你說,“把一堆‘專家’給分開”,算不算創新?
你說,“把要乾的活兒,壓少一些”,算不算創新?
你說:“把活兒分派得合理些”,算不算創新?
或者更直接一點:“用幾百萬的成本,做到人家花幾十億才做到的事”,算不算創新?
看另一個技術大佬,知名AI博主Tim Dettmers,對DeepSeek的評價。
他說:“這是資源限制下的工程。
他還說:“這一切看起來都那麼優雅:沒有花哨的‘學術解決方案,只有純粹的,紮實的工程。尊重。”
工程,工程。
什麼是工程?
直接搜“工程”,你會看到這個定義:
“工程是一個具有規定開始和結束時間的任務,需要使用一種或多種資源,並由多個互相獨立、互相聯絡、互相依賴的活動組合。”
但如果,當你收到客戶投訴“收到的薯片有包裝是空的”時,別人會和你說:
“裝監控”,“做影片識別”,或者,“花100萬,研發一條新的流水線”……
但工程師,可能會和你說:
“花100塊,在現在的流水線最後,裝個大吹風機,吹出剛好能吹跑空包裝的就行。”
工程,就是就算在有限資源下,也一定要把事做成,並且還要把效率做到最高。
回看DeepSeek的創新,有些,確實是獨創。比如,無輔助損失負載均衡,就來自DeepSeek八月的論文。
也有些,是“在已有的流水線上裝上吹風機”。比如,最佳化前就已經存在的MoE,MLA……
花100萬做個新流水線,花100塊加個大吹風機。
從0到1,從1到N。
刷屏美國的DeepSeek,不一定神秘,但確實聰明。
恭喜。
也祝福,2025年,更多的“從1到N,和,“0到1

*個人觀點,僅供參考。

主筆/ 尤安  編輯 / 二蔓  版面 / 黃

這是劉潤公眾號的第2489篇原創文章

品牌推廣 培訓合作 | 商業諮詢 | 潤米商城 | 轉載開白
請在公眾號後臺回覆  合作 


相關文章