

1957年10月4日,蘇聯成功發射了"斯普特尼克1號"人造衛星。訊息傳出後,從華盛頓到倫敦,整個西方都陷入了震驚和恐慌——因為這意味著:西方國家開始在技術上落後於非西方的國家。
從此之後,"斯普特尼克時刻"也就成了一個專有詞彙,特指那些使得西方國家陷入技術落後局面的事件。
現在,"斯普特尼克時刻"又來了:頂著各種制裁,用著遠低於美國科技企業的預算,一家中國企業開發的AI大模型,竟然實現了近似於GPT-4o大模型的效果。
更重磅的是:就在今天中午時分,DeepSeek已經登頂了中國和美國的應用商店,拆過了ChatGPT,成為了最受歡迎的AI應用。這個歷史性的時刻,至少在目前十年內絕無僅有。
這家中國企業,叫幻方量化。他們開發的AI大模型,就是這幾天爆火的Deepseek(深度求索)。《黑神話:悟空》背後的那個男人,Yocar馮驥將其稱為“國運級別的科技成果”。
今天,我們就來聊聊Deepseek,看它為何能成為AI界的"斯普特尼克"。

底層技術路線的突破
從技術原理上來說,Deepseek的成功,尤其是最新一代deepseek R1的成功,來自於它所採用的RL強化學習策略,這是它以極低的成本卻可以實現和GPT-4o差不多效果的根本原因。
要理解這種顛覆性,得先看清傳統AI的侷限。
在之前的文章裡,我們就認為當下AI的故事很可能已經講不下去了——因為以GPT為代表的傳統AI,其策略的本質是"在人類監督下的猜字謎遊戲"——GPT們其實並不會思考,它們雖然會生成看上去還挺靠譜的回答,但它們做出這些回答並不是它們瞭解事物執行的原理,而是這樣回答有更大機率被人類所接受。
這種猜字謎的遊戲,最多也就是生成一些"看似靠譜實則無法深究"的東西,根本沒有辦法投入現實、轉化為生產力工具。早期繪畫AI經常把人畫出六個指頭也是類似的原因——AI根本不知道人的手掌上應該有幾個指頭,它只是生成一個"乍一看還可以"的東西。
但deepseek不一樣,deepseek是真的會思考的。

以現在爆火的deepseek R1來說,它完全拋棄了那種"猜字謎"的訓練方式,轉而採用了之前在圍棋和智慧駕駛領域常用的RL策略(強化學習)。
如果說以前的策略是人類告訴AI什麼是對的什麼是錯的,AI只是在人類的指導下對人類進行模仿。那麼RL就是人類僅僅起一個"引進門"的作用,剩下的"修行"就全部靠AI自己慢慢學習了。
這種"修行"在最初階段或許很笨拙,但越訓練AI的能力就越強——關鍵在於AI不需要遵循人類的生理極限。人類要吃飯睡覺,但AI不用,在高效能晶片的加持下,AI訓練一年所見識過的棋局、遊戲,往往比一個職業棋手、職業電競玩家十輩子見過的都多——老司機哪怕開一輩子車,最多也就開個幾百萬公里。但自動駕駛AI只要開始訓練,公里數就是以億為單位計算了。
簡而言之就是:RL策略,是真正地讓AI學會認識世界、瞭解事物規律,而不是亦步亦趨地迎合人類的口味——這也就是為什麼很多人在看到deepseek的成功後都認為2025年將會是RL強化學習的元年。
沒辦法,RL策略現在看來確實是太誘人了。

技術突破帶來的降本增效
當技術路線換道超車,成本結構就會發生核爆式變革。
因為底層的技術路線上顛覆了以GPT為代表的傳統AI,所以deepseek R1把價效比拉高到了一個不可思議的程度——相比起矽谷那群人動輒數億數十億美金的投資和數萬張顯示卡的超級叢集,我們僅僅靠著2000多張顯示卡和600萬美元左右的成本就實現了近似乃至更好的效果。
用美國META公司一位匿名員工的話來說:"META內部一個負責AI專案的高管年薪拿出來,就足夠訓練deepseek了,而這樣高薪的高管,META有幾十個。"
……我只能說:跟著這群蟲豸在一起,怎麼能搞好AI呢?
同時,這波操作直接改寫了遊戲規則。deepseek的顛覆式創新也向外界傳播了一個資訊:不需要那麼高的投入,也不需要那麼多英偉達的GPU,你也可以做出很棒的大模型——OpenAI訓練GPT-4耗費約6300萬美元和25000張A100顯示卡,而Deepseek R1僅用600萬美元達到可比效果,甚至可能用的還是國產顯示卡。

資料最能說明問題:RL策略使模型在對話輪次、任務複雜度等維度實現80%的收斂速度提升,資料利用率提高5倍以上。
黃仁勳一覺醒來,感覺自己家的地基被人刨了,因為AI的泡沫眼看著就要被戳破了——在傳統技術路徑下,90%的算力消耗在試錯過程中,而Deepseek的自主學習機制能將無效訓練降低60%。RL策略對平行計算的需求較傳統架構下降40%,這使得國產顯示卡在特定計算任務中能達到英偉達GPU 75%的能效比。
這就帶來了更大的打擊:算力市場上的格局將會被重構——隨著華為昇騰910B等國產晶片在RL框架中表現持續最佳化,美國試圖透過A100/H100禁運遏制中國AI發展的策略正加速失效——國產顯示卡又不是不能用,那我為啥還要高價進口呢?既然如此,那麼美國的"小院高牆"的制裁路線還有意義嗎?靠晶片靠GPU還能卡住東方大國的脖子嗎?

deepseek的爆火背後的幾點觀察
毫無疑問,deepseek確實是取得了巨大的成功,而且使用體驗的確遠超GPT系列的大模型,尤其是R1版本特有的思考過程,真的不再是單純模仿人類,而是真的有自己的想法,甚至比人類更全面、更周密。
綜上所述,老局有這麼幾點觀察:
第一,RL路線的含金量已經不再需要懷疑,必然會是下一個階段AI大模型的核心策略。這也意味著我們向著真正的“人工智慧”開始了前進。
第二,靠著堆顯示卡、堆資本來發展AI的“Scaling law”的價值需要被重新審視,這不意味著Scaling law的崩盤,反而可能是Scaling law的二階段形態。因為雖然定價已經虛高了,並不需要這麼多錢也可以實現很棒的效果,但不意味著英偉達就是割韭菜——不得不承認,如果有更好的條件,AI必然會有更大的進步。
第三,AI行業可能真的沒有什麼核心的護城河,模型技術的超越將會是常態。今天deepseek超越了OpenAI,明天指不定有人也能超越deepseek——整個行業的格局沒有固化,中美AI競爭的大局還早著呢。
第四,deepseek的成功確實意味著之前一個階段里美國的“小院高牆”制裁策略失效了。但對我們來說,硬體上的突破和國產替代之路遠未結束。國產GPU還要繼續發力,這是基礎性的力量,不能因為deepseek的成功,就覺得咱們已經不需要再警惕英偉達的技術優勢了。

····· End ·····
星海情報局 系統研究
中國製造與國產替代
專注中國產業崛起故事
▲關注產業資訊,破解科技密碼
追趕先進技術風口,看中國製造的星辰大海

入駐媒體平臺
36Kr/ 觀察者網風聞社群/ 網易
虎嗅/ 雪球/ 騰訊新聞
