做公眾號裡的《紐約客》
戳藍字一鍵關注渡十娘
轉發也是一種肯定
文字|Jerry Wang
編輯|渡十娘

作者簡介:Jerry Wang: 前瞻技術的觀察人員

約莫16年前,當妻子試著教5歲的兒子Justin騎腳踏車時,因為害怕兒子摔傷,就一直從後面邊跑邊抓著車。經過幾天沮喪的嘗試,Justin仍然學不會。筋疲力盡的妻子便讓我來教他。作為一個懶慣了的父親,我只是扶著腳踏車大約5秒鐘,然後就放手了。沒想到,Justin雖然還在搖搖晃晃,卻興高采烈地踩著踏板繼續向前騎行,就在那刻,兒子學會了騎腳踏車。
在2025年1月22日DeepSeek發表的論文中,我們其實也見證了這樣一個時刻。在大語言模型的訓練過程中,這樣一個“頓悟”的現象,竟然自然而然地出現了。DeepSeek的研究人員“放手”,讓模型自己去解決一個數學問題。模型確實做到了。它透過一系列的思考過程,嘗試一步步解決問題,在發現了自己思維中的潛在缺陷後,立刻加以糾正。由於模型設定在“自言自語”模式,所以研究人員可以看到模型與自己進行的整串對話。令他們驚訝的是,模型最後不僅找到了更好的解決方案,而且在那個神奇的時刻,它連說話的方式竟然也像人類一樣.

這真是太酷了:模型,其實就是個軟體程式,現在竟然學會了花更多時間思考問題、嘗試不同的解決方法,而不是直接給出答案。這說明模型僅僅透過從自己解決問題的過程當中學習,就變得更聰明瞭。DeepSeek使用的這個方法並不新鮮。“強化學習”(reinforcement learning,RL),已被計算機科學研究人員使用多年。但在過去,人工反饋一直是不可或缺的要件。模型需要人教它知道什麼是對的、什麼是錯的,這個過程叫做“監督式微調”(supervised fine-tuning",SFT)。但是DeepSeek證明了SFT不是必要的。引用DeepSeek在論文中自己的說法:“……這是首度有公開研究,驗證了大語言模型的推理能力可以純粹透過強化學習作為自我激勵的機制,而不需要監督式微調。”
光這一手已經夠帥了!但是戲還沒完。
在同一篇論文的第二部分,研究人員讓兩個系列的小型開源模型(分別來自阿里巴巴的Qwen和Meta的Llama)用觀察的方式,向較大型、已經透過先期訓練 (pre-training) 階段的DeepSeek模型學習。之後研究人員再將這些小模型的表現與推理相關的基準測試結果進行了對比。他們發現的結果令人驚歎:這些小模型的訓練時間雖然要少得多,但在測試中的表現非常出色,有時甚至比大模型還要好!徒弟現在成了師傅了!
這裡使用的技術叫做“蒸餾” (distillation),也不是什麼新技術。但是DeepSeek的獨到之處,在於他們證明了即使是大模型的推理模式,也是可以被蒸餾到小模型之中的,這使得小模型無需經過前面提到的強化學習過程就能達到同樣的效能。這就意味著大量的訓練時間可以節省下來。而時間,就是金錢。
這篇1月22日的論文震驚了世界。話是不錯。但我們真的應該如此驚訝嗎?回到16年前那個炎熱的夏日下午,兒子已經盯著許多其他大孩子騎腳踏車好幾天了。他其實已經準備好自己騎車上路了。我們作為父母需要做的,其實就是放手。如果能再來一次,我們的選擇,會有什麼不同嗎?

DeepSeek 橫空出世,未來的前景是看漲還是看跌?
還好我不是基金經理或證券研究員!不過我或許還是可以從技術角度提供一些個人意見,因為 DeepSeek 的崛起,肯定會對科技領域的許多方面造成影響。
GPU 的軍備競賽:
首先想到的是英偉達。如果更便宜、更簡單的 GPU 可以實現類似的訓練結果,那麼使用 Nvidia 的 Blackwell 等昂貴的頂級 GPU,是否還有可以讓人服氣的理由?為了回答這個問題,我想可以用路跑比賽來打個比方。比賽的目標是儘快從起跑線沿著既定路線跑到終點線。第一個到達終點線的選手獲勝,獎勵豐厚。所有跑者當然都會搶購最好的裝備,比如 Nike 的碳板增強型 VaporFly 跑鞋。這些高階跑鞋價格昂貴,但它們對效能的提升效果顯著——研究表明跑者的成績可以提升 2%-4%。距離越長,影響越大。正因如此,大多數大型馬拉松賽事都禁止精英跑者穿著這些頂級跑鞋。
在 AI 競賽中,英偉達就是 VaporFly——既昂貴又搶手。但 DeepSeek 改變了遊戲規則。他們既沒有移動起跑線或終點線,也沒有讓跑者跑得更快。但是他們找到了一條通往終點線的新路線!新路線更平坦、更短,使得 VaporFly 和其他跑鞋之間的效能差距基本可以忽略不計!
這是否意味著像 VaporFly 這樣的鞋子,從此就沒有市場了?不見得。

極端廉價的語言模型訓練:
DeepSeek 用開源(更準確地說是“開權”, open-weighted)方式分享了他們的模型,同時公開了所有訓練細節。如果再次用路跑賽作類比,這意味著所有跑者都可以選擇這條新賽道。生產大語言模型的公司,現在有了一種更便宜的方式,可以訓練出同樣強大的模型,他們當然會選擇走這條路。當所有人又在同一條賽道上比賽時,影響勝負最重要的因素,就又迴歸到了基本面:誰是跑得最快的人?昂貴的鞋子仍然能起到助力,儘管作用不會再如以前那麼顯著,因為現在比賽距離已經從全程馬拉松大幅縮短到了10K。但有一件事是肯定的。比起一週前,像 AMD 製造的那些相對廉價的 GPU,現在看起來就忽然更有吸引力了。
應用程式的(再次)崛起:
另一個可以預見的影響,雖然可能不會立竿見影,但應該會更為持久。大幅降低大語言模型培訓成本,意味著 AI 會廉價商品化,也就是說, AI 將會全民化——大多數(即使不是全部)的人口都將可以普遍使用。AI 在未來會像電力和 Wi-Fi一樣,無所不在。和 iPhone 類似,它將成為改變諸多消費者習慣和各行業營運方式的下一個 GPT(通用技術,General Purpose Technology)。構建 AI 應用程式的公司會從中受益匪淺。就像 iPhone 之後出現的眾多應用程式開發公司一樣,未來這些新公司會開發無數 AI 應用程式,這些應用程式會在個人電腦、伺服器、自動駕駛汽車、手錶、電視、玩具甚至廚房電器上執行。
提供推理計算(inference)能力的公司,如亞馬遜的 AWS 和微軟的 Azure,也應該會得益。當語言模型可以廉價製造、應用程式數量有望急速增長時,在雲中執行的AI模型只會更多,而不會更少。
然而,對於像谷歌這樣的公司來說,前景會有一定的不確定性。在大語言模型訓練和搜尋引擎應用程式方面出現更多競爭對手,對谷歌當然不會是好訊息。但與 AWS 和 Azure 一樣,谷歌自家的GCP 也是可以從AI普及化中受益的雲端服務提供商。谷歌當然更有能力開發自己的 AI 應用程式。現在對類似公司未來的命運下斷語,可能還為時尚早。
回到開頭的問題:未來的前景是看漲還是看跌?作為一名前瞻技術的觀察人員,我已經從技術角度提出了我的看法。漲跌的問題,還是交給真正的金融專家來回答吧。

做最好的公號 做更好的自己

電影節專題
2024熱文排行榜:
移民主題:
十夜譚主題:
美國大選主題:
其他:
讀完請點"在看"讓更多人看到
圖片 I 網路
整理 I 編輯 I 渡十娘
清單內容來自 I Jerry Wang
版權歸原作者 I 如有侵權 I 請聯絡刪除
生活中
總有些東西值得分享



渡·十·娘
DES
IGN
發現 I 家庭 I 樂趣
想每天與渡十孃親密接觸嗎?
喜歡?粉她!

有話想說: