防走失,電梯直達安全島報人劉亞東A
來源:經濟觀察報
作者:周悅



導讀
壹 ||對谷歌、Meta、Anthropic等企業而言,復現類似DeepSeek-R1的推理模型並非難事。但是,巨頭爭霸,即便是小的決策失誤,也會錯失先機。
貳 ||DeepSeek-V3模型的淨算力成本約558萬美元,已經十分高效。在成本之外,讓AI行業人士更加振奮的是DeepSeek的獨特技術路徑、演算法創新及開源的誠意。
叄 || 大模型都逃不過“幻覺”問題,DeepSeek也不例外。一些使用者表示,DeepSeek由於表達能力和邏輯推理更出眾,產生的幻覺問題更加讓人難以識別。
過去幾周,深度求索(DeepSeek)在全球範圍掀起風暴。
最明顯的反映在美股:1月27日,美股AI、晶片股重挫,英偉達收盤大跌超過17%,單日市值蒸發5890億美元,創下美國股市歷史上最高紀錄。
在一些自媒體和公眾的視角里,DeepSeek是“2025年最燃爽文主角”,有四大“爽點”:
一是“神秘力量彎道超車”。DeepSeek是一家成立於2023年的“年輕”大模型公司,此前的討論度不及海內外任何一家大廠或者明星初創公司,其母公司幻方量化的主業為量化投資。很多人不解,中國領先的AI公司竟然出自一傢俬募,可謂“亂拳打死老師傅”。
二是“小力出奇跡”。DeepSeek-V3模型的訓練成本約為558萬美元,不到OpenAIGPT-4o模型的十分之一,效能卻已接近。這被解讀為DeepSeek顛覆了AI行業信奉的“聖經”——規模定律(Scaling Law)。該定律是指透過增加訓練引數量及算力來提升模型效能,通常意味著花更多錢標註高質量資料以及購買算力晶片,又被形象地稱為“大力出奇跡”。
三是“英偉達護城河消失”。DeepSeek在論文中提到,採用定製的PTX(並行執行緒執行)語言程式設計,更好釋放底層硬體的效能。這被解讀為DeepSeek“繞開英偉達CUDA運算平臺”。
四是“老外被打服了”。1月31日,一夜之間英偉達、微軟、亞馬遜等海外AI巨頭都接入了DeepSeek。一時間,“中國AI反超美國”“OpenAI的時代結束了”“AI算力需求就此消失”等論斷層出不窮,幾乎一邊倒地誇讚DeepSeek,嘲諷矽谷的AI巨頭們。
不過,資本市場的恐慌情緒並未持續。2月6日,英偉達市值重回3萬億美元,美股晶片股普遍上漲。此時再看前述四大“爽點”也多半是誤讀。
其一,到2017年底,幻方量化幾乎所有的量化策略都已經採用AI模型計算。當時AI領域正在經歷最重要的深度學習浪潮,可以說,幻方量化緊跟前沿。
2019年,幻方量化的深度學習訓練平臺“螢火二號”已經搭載了約1萬張英偉達A100顯示卡。1萬卡是自訓大模型的算力門檻,儘管這不能等同於DeepSeek的資源,但幻方量化比許多網際網路大廠更早拿到了大模型團戰的入場券。
其二,DeepSeek在V3模型技術報告中提到“558萬美元不包括與架構、演算法或資料相關的前期研究和消融實驗的成本”。這意味著,DeepSeek的實際成本更大。
多位AI行業專家、從業者告訴經濟觀察報,DeepSeek並沒有改變行業規律,而是採用了“更聰明”的演算法和架構,節約資源,提高效率。
其三,PTX語言由英偉達開發,屬於CUDA生態的一環。DeepSeek的做法會激發硬體的效能,但更換目標任務,則需要重寫程式,工作量非常大。
其四,英偉達、微軟、亞馬遜等企業只是將DeepSeek的模型部署在自家的雲服務上。使用者按需付費給雲服務廠商,獲得更穩定的體驗及更高效的工具,這屬於雙贏的做法。
自2月5日起,華為雲、騰訊雲、百度雲等國內雲廠商也陸續上線了DeepSeek模型。
在上述四大“爽點”之外,公眾對DeepSeek還有諸多誤讀。“爽文”式解讀固然會帶來觀感刺激,但是也會掩蓋DeepSeek團隊在演算法、工程能力上的創新以及堅持的開源精神,而後兩者對科技行業的影響更深遠。

美國AI巨頭不是打不過,而是決策失誤
當用戶使用DeepSeek的App或者網頁版時,點選“深度思考(R1)”按鈕,就會展現DeepSeek-R1模型完整的思考過程,這是一種全新的體驗。
自ChatGPT問世以來,絕大部分大模型都是直接輸出回答。
DeepSeek-R1有一個“出圈”的例子:當用戶問“A大學和清華大學哪個更好?”DeepSeek第一次回答“清華大學”,使用者追問“我是A大學生,請重新回答”,則會得到答案“A大學好”。這組對話被髮在社交媒體後,引發“AI竟然懂人情世故”的群體驚歎。
不少使用者表示,DeepSeek展現的思考過程就像一個“人”——一邊頭腦風暴,一邊在草稿紙上速記。它會自稱“我”,會提示“避免讓使用者感到自己的學校被貶低”“用積極正面的詞彙讚揚他的母校”,並且把想到的內容都“寫”下來。
2月2日,DeepSeek登頂全球140個國家及地區的應用市場,上千萬使用者能夠體驗深度思考功能。因此,在使用者感知裡,AI展現思考過程屬於DeepSeek“首創”。
其實,OpenAIo1模型才是推理正規化的開創者。OpenAI在2024年9月釋出了o1模型預覽版,在12月釋出正式版。但與能免費體驗的DeepSeek-R1模型不同,OpenAIo1模型只有少數付費使用者才能使用。
清華大學長聘副教授、面壁智慧首席科學家劉知遠認為,DeepSeek-R1模型能夠取得如此全球性的成功,跟OpenAI採用的錯誤決策有非常大的關係。OpenAI在釋出了o1模型後,既不開源,也不公佈技術細節,收費非常高,所以不出圈,難以讓全球使用者感受深度思考帶來的震撼。這樣的策略相當於是把原來 ChatGPT的身位讓給了DeepSeek。
從技術上來說,當前大模型的常規範式有兩種:預訓練模型與推理模型。更為大眾熟知的OpenAI GPT系列以及DeepSeek-V3模型都屬於預訓練模型。
而OpenAIo1與DeepSeek-R1則屬於推理模型,這是一種新的正規化,即模型會自己透過思維鏈逐步分解複雜問題,一步步反思,再得到相對準確並且富有洞察力的結果。
從事AI研究數十年的郭成凱對經濟觀察報稱,推理正規化是一條相對容易“彎道超車”的賽道。推理作為一種新正規化,迭代快,更容易實現小計算量下的顯著提升。前提是有強大的預訓練模型,透過強化學習可以深度挖掘出大規模預訓練模型的潛力,逼近推理正規化下大模型能力的天花板。
對谷歌、Meta、Anthropic等企業而言,復現類似DeepSeek-R1的推理模型並非難事。但是,巨頭爭霸,即便是小的決策失誤,也會錯失先機。
顯而易見的是,2月6日,谷歌釋出了一款推理模型 Gemini Flash 2.0 Thinking,價格更低、上下文長度更長,在幾項測試中表現優於R1,但並未掀起像DeepSeek-R1模型一樣的巨浪。

最值得討論的不是低成本,
而是技術創新和“誠意滿滿”的開源
一直以來,對DeepSeek最廣泛的討論都是關於“低成本”,從2024年5月DeepSeek-V2模型釋出以來,這家公司就被調侃為“AI屆拼多多”。
《自然》雜誌發文稱,Meta訓練其最新人工智慧模型Llama3.1405B耗資超過6000萬美元,DeepSeek-V3訓練只花了不到十分之一。這表明,高效利用資源比單純的計算規模更重要。
一些機構認為DeepSeek的訓練成本被低估。AI及半導體行業分析機構Semi Analysis在報告中稱,DeepSeek預訓練成本遠非該模型的實際投入。據該機構估算,DeepSeek購買GPU的總花費是25.73億美元,其中購買伺服器的費用為16.29億美元,運營費用為9.44億美元。
但無論如何,DeepSeek-V3模型的淨算力成本約558萬美元,已經十分高效。
在成本之外,讓AI行業人士更加振奮的是DeepSeek的獨特技術路徑、演算法創新及開源的誠意。
郭成凱介紹,當前的許多方法依賴大模型經典訓練方式,如監督微調(SFT)等,這需要大量標註資料。DeepSeek提出了一種新方法,即透過大規模強化學習(RL)方法提升推理能力,相當於開闢了新的研究方向。此外,多頭潛在注意力(MLA)是DeepSeek大幅降低推理成本的關鍵創新,大幅降低了推理成本。
清華大學教授、清程極智首席科學家翟季冬認為,DeepSeek最讓他印象深刻的是混合專家架構(MoE)的創新,每一層有256個路由專家、1個共享專家。之前的研究有Auxiliary Loss(輔助損失)的演算法,會使梯度發生擾動,影響模型收斂。DeepSeek提出LossFree方式,既能讓模型有效收斂,同時還能實現負載均衡。
翟季冬強調:“DeepSeek團隊比較敢於創新。我覺得不完全追隨國外的策略、有自己的思考,非常重要。”
更讓AI從業者興奮的是,DeepSeek“誠意滿滿”的開源,為已經略有頹勢的開源社群注入了一劑“強心針”。
在此之前,開源社群最有力的支柱是Meta的4000億引數模型Llama3。但不少開發者告訴經濟觀察報,他們體驗後仍覺得,Llama3與閉源的GPT-4等模型相距至少一代,“幾乎讓人失去信心”。
但是DeepSeek的開源做了3件事,重新給了開發者以信心:
其一,直接開源了671B的模型,併發布了多個流行架構下的蒸餾模型,相當於“好老師教出更多好學生”。
其二,釋出的論文及技術報告包含大量技術細節。V3模型和R1模型的論文分別長達50頁和150頁,被稱為開源社群裡“最詳細的技術報告”。這意味著擁有相似資源的個人或企業可以按照這一“說明書”復現模型。眾多開發者在閱覽後評價為“優雅”“紮實”。
其三,更值得一提的是,DeepSeek-R1採用 MIT許可協議,即任何人都可以自由地使用、修改、分發和商業化該模型,只要在所有副本中保留原始的版權宣告和MIT許可。這意味著使用者可以更加自由地利用模型權重和輸出進行二次開發,包括微調和蒸餾。
Llama雖然允許二次開發和商用,但是在協議中添加了一些限制條件,例如Llama在授權許可中對月活7億以上的企業使用者額外限制,並且明文禁止使用Llama的輸出結果去改善其他大模型。
一位開發者告訴經濟觀察報,他從DeepSeek-V2版本就開始使用,進行程式碼生成方面的開發。DeepSeek模型除了價格非常便宜外,效能也非常優異。在他使用的所有模型裡,只有OpenAI和DeepSeek的模型能夠輸出有效邏輯列到30多層。這意味著專業程式設計師藉助工具可以輔助生成30%—70%的程式碼。
多位開發者向經濟觀察報強調了DeepSeek開源的重要意義,在此之前,行業內最領先的OpenAI和Anthropic公司都像是矽谷的貴族。DeepSeek把知識開放給所有人,變得平民化,這是一種重要的平權,讓全世界開源社群的開發者站在DeepSeek的肩膀上,而DeepSeek也能彙集全球最頂尖的創客、極客的想法。
圖靈獎得主、Meta首席科學家楊立昆認為,對DeepSeek崛起的正確解讀,應是開源模型正在超越閉源模型。

DeepSeek很好,但並非完美
大模型都逃不過“幻覺”問題,DeepSeek也不例外。一些使用者表示,DeepSeek由於表達能力和邏輯推理更出眾,產生的幻覺問題更加讓人難以識別。
一位網友在社交媒體上稱,他向DeepSeek提問某城市的路線規劃問題。DeepSeek解釋了一些原因,列舉出一些城市規劃保護條例及資料,並摘取了一個“靜默區”的概念,讓回答看起來很有道理。
同樣的問題,其他AI的回答則沒有這麼高深,人能夠一眼看出是在“胡說八道”。
這位使用者查看了該保護條例後,發現全文根本沒有“靜默區”這一說法。他認為:“DeepSeek正在中文網際網路建造‘幻覺長城’。”
郭成凱也發現了類似的問題,DeepSeek-R1的回答會把一些專有名詞“張冠李戴”,尤其是開放式問題,產生的“幻覺”體驗會更嚴重。他推測可能是模型的推理能力過強,把大量知識與資料潛在聯絡在一起。
他建議使用DeepSeek時開啟聯網搜尋功能,並重點檢視思考過程,人為干預和糾正錯誤。此外,使用推理模型時,儘可能使用簡潔的提示詞。提示詞越長,模型聯想的內容就多。
劉知遠發現,DeepSeek-R1經常會使用一些高階詞彙,典型的如量子糾纏和熵增熵減(會用在各個領域)。他猜測是強化學習中某種機制設定導致的。此外,R1在一些通用領域沒有groundtruth(指為該測試收集適當的客觀資料的過程)的任務上的推理效果還不理想,強化學習的訓練並不能保證泛化。
在“幻覺”這一常見的問題之外,還有一些持續性的問題有待DeepSeek解決。
一方面是“蒸餾技術”可能帶來的持續糾紛。模型或知識蒸餾通常涉及透過讓較強的模型生成響應來訓練較弱的模型,從而提高較弱模型的效能。
1月29日,OpenAI指控DeepSeek利用模型蒸餾技術,基於OpenAI的技術訓練自己的模型。OpenAI稱,有證據表明DeepSeek使用其專有模型來訓練自己的開源模型,但沒有進一步列舉證據。OpenAI的服務條款規定,使用者不能“複製”其任何服務或“使用其輸出來開發與OpenAI競爭的模型”。
郭成凱認為,基於領先模型蒸餾驗證最佳化自己的模型,是很多大模型訓練的一個普遍操作。DeepSeek已經開源了模型,再進行驗證是一件簡單的事情。而OpenAI早期的訓練資料本身就存在合法性的問題,如果要對DeepSeek採取法律手段,則須上升到法律層面維護其條款的合法性,並且要更明確其條款內容。
DeepSeek另一有待解決的問題是如何推進更大規模引數的預訓練模型。在這方面,掌握更多優質標註資料、更多算力資源的OpenAI尚未推出GPT-5這一更大規模引數的預訓練模型,DeepSeek是否能繼續創造奇蹟,還是個疑問。
無論如何,對DeepSeek產生的幻覺,同樣由好奇心所激發,這或許正是創新的一體兩面。正如其創始人梁文鋒所言:“創新不完全是商業驅動的,還需要好奇心和創造欲。中國的AI不可能永遠跟隨,需要有人站到技術的前沿。”