


人工智慧正處於創新爆發期,唯有持續創新,才能留在舞臺中心
文|《財經》執行主編 馬克
DeepSeek春節前夕爆火,迄今熱度不減。DeepSeek徹底走開源路線,它的大模型既效能優異,訓練成本和使用成本又都超低,讓人工智慧從業者燃起了“我也能行”的希望,讓各行各業燃起了“趕緊把人工智慧用起來吧”的熱情。
伴隨著這些振奮人心的訊息,也有一些真假難辨的說法同時在流傳,例如DeepSeek顛覆了人工智慧的發展方向,DeepSeek的水平已經超過人工智慧行業的領頭羊OpenAI;或者,DeepSeek是個巨大泡沫,它只是“蒸餾”了OpenAI的模型。
為搞清楚這些說法,這些天我研讀了很多資料,也請教了一些專家,對DeepSeek究竟創新了什麼、能否持續創新有了初步答案。
先說第一個問題的結論:DeepSeek的大模型採用了更加高效的模型架構方法、訓練框架和演算法,是巨大的工程創新,但不是從0到1的顛覆式創新。DeepSeek並未改變人工智慧行業的發展方向,但大大加快了人工智慧的發展速度。
為何會得出這個結論?我們需要先了解人工智慧技術的發展脈絡。

人工智慧發端於上世紀40年代,已經發展了近80年,奠基人是英國計算機科學家艾倫·圖林(Alan Turing)。以他的名字命名的圖林獎是計算機科學界的諾貝爾獎。
如今,主導人工智慧行業的是大模型技術,主導應用是生成式AI——生成語義、語音、影像、影片。無論DeepSeek系列,還是OpenAI的GPT系列,還是豆包、Kimi、通義千問、文心一言,都屬於大模型家族。
大模型的理論基礎是神經網路,這是一種試圖讓計算機摹仿人腦來工作的理論,該理論和人工智慧同時發端,但頭40年都不是主流。20世紀80年代中後期,多層感知機模型和反向傳播演算法得到完善,神經網路理論才有了用武之地。多人對此作出關鍵貢獻,其中最為我們熟知的是去年獲得諾貝爾物理學獎的傑弗裡・辛頓(Geoffrey Hinton),他擁有英國和加拿大雙重國籍。
神經網路理論後來發展為深度學習理論,關鍵貢獻者除了被譽為“深度學習之父”的傑弗裡・辛頓,還有法國人楊·勒昆(Yann LeCun,中文名楊立昆)、德國人尤爾根・施密德胡伯(jürgen schmidhuber)。他們分別提出或完善了三種模型架構方法:深度信念網路(DBN,2006)、卷積神經網路(CNN,1998)、迴圈神經網路(RNN,1997),讓基於多層神經網路的機器深度學習得以實現。
但到此為止,都是小模型時代,DBN和RNN的引數量通常是幾萬到幾百萬,CNN引數量最大,也只有幾億。因此只能完成專門任務,比如基於CNN架構的谷歌AlphaGo,打敗了頂尖人類圍棋手柯潔和李世石,但它除了下圍棋啥也不會。
2014年,開發AlphaGo的谷歌DeepMind團隊首次提出“注意力機制”。同年底,蒙特利爾大學教授約書亞·本吉奧(Yoshua Bengio)和他的兩名博士生髮表更詳盡的論文,這是神經網路理論的重大進步,極大增強了建模能力、提高了計算效率、讓大規模處理複雜任務得以實現。
約書亞·本吉奧、楊·勒昆、傑弗裡・辛頓一起獲得了2019年的圖林獎。
2017年,谷歌提出完全基於注意力機制的Transformer架構,開啟大模型時代。迄今,包括DeepSeek在內的主流大模型都採用該架構。強化學習理論(Reinforcement Learning,RL)、混合專家模型(Mixture of Experts,MOE,又譯稀疏模型)也是大模型的關鍵支撐,相關理論均在上世紀90年代提出,21世紀10年代後期由谷歌率先用於產品開發。
順便澄清一個普遍誤解,MOE並不是和Transformer並列的另一種模型架構方法,而是一種用來最佳化Transformer架構的方法。
今天的主流大模型,引數量已達萬億級,DeepSeek V3是6710億。如此大的模型,對算力的需求驚人,而英偉達的GPU晶片正好提供了算力支援,英偉達在AI晶片領域的壟斷地位,既讓它成為全球市值最高的公司,也讓它成為中國AI公司的痛點。
谷歌在大模型時代一路領先,但這幾年站在風口上的並不是谷歌,而是2015年才成立的OpenAI,它的各類大模型一直被視為業界頂流,被各路追趕者用來對標。這說明在人工智慧領域,看似無可撼動的巨頭,其實並非無法挑戰。人工智慧技術雖然發展了80年,但真正加速也就最近十幾年,進入爆發期也就最近兩三年,後來者始終有機會。DeepSeek公司2023年7月才成立,它的母體幻方量化成立於2016年2月,也比OpenAI年輕。人工智慧就是一個英雄出少年的行業。
開發出能像人一樣自主思考、自主學習、自主解決新問題的通用人工智慧系統(Artificial General Intelligence,AGI),是AI業界的終極目標,無論奧特曼還是梁文峰,都把這個作為自己的使命。他們都選擇了大模型方向,這是業界的主流方向。
沿著大模型方向,要花多久才能實現AGI?樂觀的預測是3-5年,保守的預測是5-10年。也就是說,業界認為最遲到2035年,AGI就可實現。
大模型的競爭至關重要,大模型是各行各業人工智慧應用的最上游,它就像人的大腦,大腦指揮四肢,大腦的質量決定整個人的學習、工作、生活質量。
當然,大模型並非通往AGI的唯一路徑。正如上世紀90年代後“深度學習-大模型”路線顛覆了人工智慧頭幾十年的“規則系統-專家系統”路線,“深度學習-大模型”路線也有可能被顛覆,只是我們現在還看不到誰會是顛覆者。

如今,DeepSeek又成了挑戰者,它真的已經超越OpenAI了嗎?並非如此。DeepSeek在區域性超過了OpenAI的水平,但整體而言OpenAI仍然領先。
先來看雙方的基礎大模型,OpenAI是2024年5月釋出的GPT4-o,DeepSeek是2024年12月26日釋出的V3。斯坦福大學基礎模型研究中心有個全球大模型綜合排名,最新排名是今年1月10日,一共六個指標,各指標得分加總後,DeepSeek V3總分4.835,名列第一;GPT4-o(5月版)總分4.567,僅列第六。第二到第五名都是美國模型,第二名是Claude 3.5 Sonnet,總分4.819,開發這個模型的Anthropic公司2021年2月才成立。

推理模型是大模型的新發展方向,因為它的思維模式更像人,前面說了,開發出能像人一樣自主思考、自主學習、自主解決新問題的通用人工智慧是AI業界的終極目標。
2024年9月12 日,OpenAI釋出世界上第一款推理大模型獵戶座1號(orion1 ,o1),o1在解決數學、程式設計和科學問題上的能力提升驚人,但OpenAI走閉源路線,不公佈技術原理,更別提技術細節。一時間,如何復刻o1,成為全世界AI從業者的追求。
僅僅四個月後,今年1月20日,DeepSeek釋出世界第二款推理大模型R1,名字樸實無華,R就是推理(Reasoning)的縮寫。測評結果顯示,DeepSeek-R1與OpenAI-o1水平相當。但OpenAI 2024年12月20日推出了升級版o3,效能大大超過o1。目前還沒有R1和o3的直接測評對比資料。
多模態也是大模型的重要發展方向——既能生成語義(寫程式碼也屬於語義),也能生成語音、影像、影片,其中影片生成最難,消耗的計算資源最多。DeepSeek 2024年10月釋出首個多模態模型Janus,今年1月28日釋出其升級版Janus-Pro-7B,其影像生成能力在測試中表現優異,但影片能力如何尚無從知曉。GPT-4是多模態模型但不能生成影片,不過OpenAI擁有專門的影片生成模型Sora。
把模型做小做精,少消耗計算資源是另一個業界趨勢,混合專家模型的設計思路就是這個目的,推理模型也能減少通用大模型的驚人消耗。在這方面,DeepSeek的表現明顯比OpenAI優異,這些天最被人津津樂道的就是DeepSeek的模型訓練成本只有OpenAI的1/10,使用成本只有1/30。DeepSeek能夠做到如此高的價效比,是因為它的模型裡面有傑出的工程創新,不是單點創新,而是密集創新,每一個環節都有傑出創新。這裡僅舉三例。
★模型架構環節:大為最佳化的Transformer + MOE組合架構。
前面說過,這兩個技術都是谷歌率先提出並採用的,但DeepSeek用它們設計自己的模型時做了巨大最佳化,並且首次在模型中引入多頭潛在注意力機制(Multi-head Latent Attention,MLA),從而大大降低了算力和儲存資源的消耗。
★模型訓練環節:FP8混合精度訓練框架。
傳統上,大模型訓練使用32位浮點數(FP32)格式來做計算和儲存,這能保證精度,但計算速度慢、儲存空間佔用大。如何在計算成本和計算精度之間求得平衡,一直是業界難題。2022年,英偉達、Arm和英特爾一起,最早提出8位浮點數格式(FP8),但因為美國公司不缺算力,該技術淺嘗輒止。DeepSeek則構建了FP8 混合精度訓練框架,根據不同的計算任務和資料特點,動態選擇FP8或 FP32 精度來進行計算,把訓練速度提高了50%,記憶體佔用降低了40%。
★演算法環節:新的強化學習演算法GRPO。
強化學習的目的是讓計算機在沒有明確人類程式設計指令的情況下自主學習、自主完成任務,是通往通用人工智慧的重要方法。強化學習起初由谷歌引領,訓練AlphaGo時就使用了強化學習演算法,但是OpenAI後來居上,2015年和2017年接連推出兩種新演算法TRPO(Trust Region Policy Optimization,信任區域策略最佳化)和PPO (Proximal Policy Optimization,近端策略最佳化),DeepSeek更上層樓,推出新的強化學習演算法GRPO( Group Relative Policy Optimization 組相對策略最佳化),在顯著降低計算成本的同時,還提高了模型的訓練效率。

(GRPO演算法公式。Source:DeepSeek-R1論文)
看到這裡,對於“DeepSeek只是‘蒸餾’了OpenAI模型”的說法,你肯定已經有了自己的判斷。但是,DeepSeek的創新是從0到1的顛覆式創新嗎?
顯然不是。顛覆式創新是指那種開闢了全新賽道,或導致既有賽道徹底轉向的創新。比如,汽車的發明顛覆了交通行業,導致馬車行業消失;智慧手機取代功能手機,雖沒有讓手機行業消失,但徹底改變了手機的發展方向。
回顧人工智慧簡史,我們清楚看到,DeepSeek是沿著業界的主流方向前進,他們做了許多傑出的工程創新,縮短了中美AI的差距,但仍處於追趕狀態。白宮人工智慧顧問大衛·薩克斯(David Sacks)評價說:DeepSeek-R1讓中美的差距從6-12月縮短到3-6個月。
薩克斯說的是模型效能,但更加意義非凡的是價效比——訓練成本1/10、使用成本1/30,這讓尖端AI技術飛入尋常百姓家成為現實。最近兩週,各行各業的領頭羊紛紛接入DeepSeek大模型,部署本行業的應用,擁抱AI的熱情前所未有。
但我必須再次提醒,大模型技術進步很快,不能對階段性成果過於樂觀。同時大模型在人工智慧生態中處於最上游,是所有下游應用的依託,因此基礎大模型的質量決定了各行各業人工智慧應用的質量。

在DeepSeek的刺激下,薩姆·奧特曼(Sam Altman)2月13日透露了OpenAI 的發展計劃:未來幾周內將釋出GPT-4.5,未來幾個月內釋出GPT-5。GPT-5將整合推理模型o3的功能,是一個包含語義、語音、視覺化影像創作、搜尋、深度研究等多種功能的多模態系統。奧特曼說,今後使用者不用再在一大堆模型中做選擇,GPT-5 將完成所有任務,實現“魔法般的統一智慧”。果如所言,GPT-5離通用人工智慧就又進了一步。
從使用者角度,一個模型解決所有需求肯定大為方便,就像早年手機只能打電話,你出門還得帶銀行卡、購物卡、交通卡等一大堆東西,現在一部智慧手機全搞定。但全搞定的同時,所需要的計算資源也會高得驚人,iPhone16的算力是當年功能機的幾千萬倍。奇蹟在於,我們使用iPhone16的成本反而比使用諾基亞8210的成本更低。希望這樣的奇蹟也能發生在人工智慧行業。
除了OpenAI,美國還有眾多頂尖人工智慧公司,他們的水平差距不大。從前面講到的那個斯坦福大學排名就能看出來,總分第一名和第十名的分差只有0.335,平均到每個指標差距不到0.06。並且各種測評榜的排名雖是重要參考,但不等於實際能力的高下。對DeepSeek而言,不僅OpenAI,Anthropic、谷歌、Meta、xAI也都是強勁對手。2月18日,xAI釋出了馬斯克自稱“地球最強AI”的大模型Grok-3。這個模型用了超過10萬塊H100晶片來訓練,把大模型的scaling law(規模法則,計算和資料資源投入越多模型效果越好)推向極致,但也讓scaling law的邊際效益遞減暴露無遺。
當然,中國也不是DeepSeek一家在戰鬥,中國也有眾多優秀人工智慧公司。事實上,這些年來全球人工智慧一直是中美雙峰並峙,只是美國那座峰更高一些。
儘管如此,我對梁文峰和DeepSeek團隊仍有信心。從梁文峰為數不多的採訪中可以看出,他是一個既充滿理想主義,又腳踏實地、有敏銳商業頭腦的人。他自己肯定懂技術,但應該不是技術天才,他有可能是喬布斯、馬斯克那樣能把技術天才聚集在一起做出偉大產品的技術型企業家。
梁文峰在接受《暗湧》專訪時說:“我們的核心技術崗位,基本以應屆和畢業一兩年的人為主。我們選人的標準一直都是熱愛和好奇心。招人時確保價值觀一致,然後透過企業文化來確保步調一致。”
“最重要的是參與到全球創新的浪潮裡去。過去三十多年IT浪潮裡,我們基本沒有參與到真正的技術創新裡。大部分中國公司習慣follow(追隨),而不是創新。中國AI和美國真正的gap(差距)是原創和模仿。如果這個不改變,中國永遠只能是追隨者。”
“創新首先是一個信念問題。為什麼矽谷那麼有創新精神?首先是敢。我們在做最難的事。對頂級人才吸引最大的,肯定是去解決世界上最難的問題。”
喬布斯有句名言:只有瘋狂到認為自己可以改變世界的人才能改變世界。從梁文峰身上,我看到了這句話的影子。
但是,我們對中國AI超越美國千萬不能盲目樂觀,DeepSeek並沒有顛覆算力演算法資料三要素的大模型發展路徑,DeepSeek的很多創新都是因為晶片受限而不得不為,比如英偉達H100的通訊頻寬是每秒900GB,H800就只有每秒400GB,但DeepSeek只能用H800來訓練模型。
這些天我看了大量太平洋兩岸對DeepSeek的評論,“necessity is the mother of invention(迫不得已是創新之母)”,這句源自古希臘的諺語被不同的牛人說了好幾次。但是反過來想,DeepSeek能與OpenAI的同款產品打成平手,靠的是用逼出來的演算法優勢彌補算力劣勢,可對手已被點醒,如果他們開發出同樣好的演算法,再加上更好的晶片,那中美大模型的差距是否會再次擴大?
另一方面,雖然DeepSeek已可適配國產晶片,但考慮到效能差距,算力劣勢短期內無解。除非我們能再現電動車反轉燃油車的場面,實現換道超車。比如,用量子晶片替代矽基晶片。
陷入這種思考真是一個悲劇——技術創新本應造福全人類,卻被地緣政治因素扭曲。所以,我們更應該為DeepSeek堅決走開源路線而鼓掌。

責編 | 秦李欣
題圖|黎立


