線上閱讀:https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf
全網熱議 DeepSeek 的萬字報告背後,我們究竟該關注什麼?
過去 24 小時,Anthropic 執行長 Dario Amodei 對 DeepSeek 的萬字報告在 AI 科技圈掀起千層浪。
還沒看的可以前往這篇文章:Anthropic 創始人 Dario Amodei 親筆撰文:DeepSeek 崛起倒逼白宮強化 AI 監管。
在資訊過載的時代,大家容易被碎片化解讀和片面的觀點帶節奏,造成認知偏差。
我挑選了三位在全球 AI 領域具有權威身份的專家和學者,相信透過他們的交叉解讀,將會帶你穿透表象看本質。
接下來,就讓我們與頂尖大腦一起冷靜剖析這場牽動全球 AI 科技格局的深度對話。
吳恩達(Andrew Ng)
吳恩達是斯坦福大學計算機科學系和電機工程系的副教授,人工智慧實驗室主任。是人工智慧和機器學習領域國際上最權威的學者之一。也是線上教育平臺 Coursera 的聯合創始人,DeepLearning.AI 創始人,曾擔任百度公司首席科學家。2024 年,亞馬遜將吳恩達納入其董事會。

親愛的朋友們,本週關於 DeepSeek 的討論,讓很多人更加清晰地看到了幾個已經在公開視野中發生的重要趨勢:
-
中國在生成式 AI 領域正在追趕美國,並且這一進展將影響到全球的 AI 供應鏈; -
開放權重模型正在逐漸將基礎模型層商品化,從而為應用開發者帶來了更多機會; -
規模化並不是 AI 進步的唯一途徑。儘管目前大家對處理能力有很高的關注度和炒作,但演算法的創新正在迅速降低訓練成本。
大約一週前,DeepSeek,一家中國公司,釋出了 DeepSeek-R1 這一齣色的模型,它在多個基準測試中表現不輸 OpenAI 的 o1。更值得注意的是,這款模型作為開放權重模型釋出,並且採用了 MIT 開源許可協議。
上週在達沃斯論壇期間,我收到很多非技術類商業領袖的提問。而就在週一,股市出現了“DeepSeek 拋售潮”:Nvidia 英偉達和其他一些美國科技公司的股價大幅下跌。(截至寫作時,股價已略有回升。)
我認為,DeepSeek 讓很多人意識到了以下幾點:
中國在生成式 AI 領域正在追趕美國
2022 年 11 月 ChatGPT 釋出時,美國在生成式 AI 領域遙遙領先。儘管印象改變往往較慢,但即便最近,我還聽到很多來自美國和中國的朋友表示,認為中國仍然落後。但事實上,在過去兩年裡,這一差距已經迅速縮小。
隨著中國一些模型如 Qwen(我的團隊已經使用了幾個月)、Kimi、InternVL 和 DeepSeek 的釋出,中國在這一領域顯然在追趕,而且在影片生成等領域,甚至已經有時超越了美國。
我非常高興 DeepSeek-R1 作為開放權重模型釋出,並且附帶了詳細的技術報告。相比之下,一些美國公司則不斷推動出臺監管措施,藉助炒作 AI 災難(如人類滅絕)來打壓開源。
現在已經顯而易見,開源和開放權重模型是 AI 供應鏈的重要組成部分,許多公司將使用它們。如果美國繼續壓制開源,中國將主導這一供應鏈的部分,許多企業最終將使用更符合中國價值觀的模型,而非美國的。
開放權重模型正在將基礎模型層商品化
正如我之前所說,LLM 的 token 價格正在快速下降,而開放權重模型助推了這一趨勢,併為開發者提供了更多選擇。例如,OpenAI 的 o1 模型每百萬輸出 token 的價格為 60 美元,而 DeepSeek R1 的價格僅為 2.19 美元。這一近 30 倍的價格差異,讓許多人意識到價格下降的趨勢。

訓練基礎模型並提供 API 接入服務是一個充滿挑戰的行業。許多從事這一領域的公司仍在尋找方法來彌補鉅額的訓練成本。文章《AI 的 6000 億美元問題》很好的展示了這一挑戰(但我認為這些基礎模型公司做得非常棒,我希望它們能成功)。
相比之下,在基礎模型上構建應用程式則創造了很多商業機會。現在,其他公司已經花費數十億美元訓練出這些模型,你只需花費幾美元就能使用這些模型,構建客服聊天機器人、郵件摘要、AI 醫生、法律檔案助手等各種應用。
規模化並不是 AI 進步的唯一途徑
關於規模化推動 AI 進步的討論最近有些過熱。公平地說,我曾是規模化早期的支持者。許多公司透過炒作“只要獲得更多資本,就能擴大規模並且穩定地推動改進”這一論調,成功籌集了大量資金。
因此,大家過於專注於規模化,而忽視了推動 AI 進步的其他更多途徑。受美國 AI 晶片禁運的影響,DeepSeek 團隊不得不進行大量最佳化,最終使得模型在效能較差的 H800 GPU 上也能執行,成本控制在不到 600 萬美元(不包括研發費用)。
目前尚不清楚這一舉措是否真的會減少對計算能力的需求。有時每個單位商品的價格下降反而會促進更多的購買。我認為,在長遠來看,智慧和計算的需求幾乎沒有上限,因此,我對未來人類將使用更多智慧持樂觀態度,即使這種智慧變得更加便宜。
我在社交媒體上看到很多對 DeepSeek 進展的解讀,就像一場羅夏墨跡測試,大家根據自己的理解對其進行解讀。我認為 DeepSeek-R1 的釋出具有深遠的地緣政治意義,儘管這還需要進一步分析。
此外,它對於 AI 應用開發者也是一次巨大的機會。我的團隊已經開始頭腦風暴,探索一些新的創意,這些創意只有透過輕鬆訪問開放的高階推理模型才能實現。現在依然是創業的好時機!
帕特·基辛格(Pat Gelsinger)
帕特·基辛格(Pat Gelsinger)是全球晶片巨頭英特爾的前任執行長,同時也是一位擁有逾四十年技術領導和經驗的電氣工程專家。

智慧:重新學習那些我以為早已明白的教訓
DeepSeek 的反響令人非常關注,我覺得很多反應都忽視了過去五十年計算機發展中的三大重要教訓。
首先是計算遵循氣體定律
也就是說,計算能力會填滿所有可用資源所允許的空間(包括資金、電力、熱量等資源)。就像我們在 CMOS、個人電腦、多核處理器、虛擬化、移動裝置等技術中看到的那樣,當計算資源變得更加普及且價格大幅下降時,市場將會迎來爆炸性增長,而非萎縮。
AI 將在各行各業普及,但今天,要實現這一潛力的成本仍然高得離譜。我記得第一次用網際網路瀏覽器時的震撼,簡直不可思議。現在,如果你是個青少年,網際網路幾乎是你每時每刻的生活一部分。市場的反應其實是錯的,降低 AI 成本,市場將會迎來大規模擴充套件。現在,我是英偉達和 AI 相關股票的投資者,很高興能從價格下降中獲益。
工程往往是在約束條件下進行的
DeepSeek 團隊顯然面臨了很多限制條件,但他們找到了一些創新的方式,在各個方面實現了世界級的解決方案,且成本低了 10 到 50 倍。由於出口法規的限制,中國的工程師們不得不發揮極大的創造力,而他們也成功做到了。
他們不需要花費數十億美元購買最新的硬體、晶片,也不需要龐大的訓練預算。記得幾年前,我曾面試過計算機科學界的傳奇人物、可能是我們時代最偉大的科學家之一唐納德·克努斯。他曾詳細講述,自己如何在資源最匱乏、時間壓力最大的時候,做出最佳的工作。我至今將這個觀點視為我工程管理生涯中最重要的收穫之一。
開放才是勝利的關鍵
近年來,看到基礎模型的研究變得越來越封閉,實在讓人失望。在這一點上,我更傾向於支援埃隆·馬斯克,而不是山姆·阿爾特曼。我們真正希望,甚至需要,AI 研究能夠更加開放。我們需要知道訓練資料集是什麼,深入研究演算法,並從正確性、倫理和社會影響等角度進行反思。
Linux、Gcc、USB、Wifi 等開源專案的巨大成功,已經讓所有計算機學者深刻意識到,開放的力量。儘管在法律、頻譜、工程、市場採納等方面,開放總是面臨各種挑戰,但每次只要給開放一個機會,它最終都會贏得勝利。AI 在我們未來的生活中至關重要,絕不能讓任何封閉的生態系統成為這個領域的唯一選擇。
DeepSeek 是一次令人驚歎的工程成就,它將推動 AI 的普及。它也將幫助重新塑造業界對開放創新的看法。正是一個受限的中國團隊,提醒了我們這些計算機歷史中的基本教訓。
托馬斯·沃爾夫(Thomas Wolf)
托馬斯·沃爾夫是 HuggingFace 的聯合創始人,HuggingFace 可以理解為一個為人工智慧開發者提供資源和工具的開源平臺,類似於程式設計領域的 GitHub。

我終於抽出時間仔細閱讀了 Dario 關於 DeepSeek 和出口管制的文章,說實話,讀起來真的是有些痛苦。作為 Anthropic 的粉絲和 Claude 的重度使用者,我本來期待更多的東西。
文章的前半部分,感覺像是在強行證明閉源模型仍然遠遠領先於 DeepSeek。雖然有一些提到 DeepSeek 的內部評估,但很多結論都基於未公開的評估資料,這讓人難以完全信服。
而像「DeepSeek-V3 在一些非常小範圍的任務上比 SOTA 模型強」這樣的說法,最終變成了「DeepSeek-V3 比美國前沿模型差,差距約為 2 倍」,讓我產生了不少懷疑。
類似地,文章還提到 DeepSeek 所有的突破和效率提升早就被閉源模型公司發現了,這主要是因為 DeepSeek 公開的訓練成本資料(600 萬美元)和 Anthropic 提供的模糊資料(幾千萬美元)之間的對比。
儘管我對 Anthropic 團隊非常欽佩,也對 Sonnet 3.5 印象深刻,但這種長篇的開放研究與模糊閉源研究對比,令我對其領先地位產生了不少疑問。
更令我沮喪的是文章後半部分,它探討了美中競爭的情景,卻忽略了 DeepSeek 模型是開源權重,並且由於其詳細的技術報告,很多知識也已經公開(你可以透過 Hugging Face 的 open-r1 專案來複現大部分技術,除了合成數據集)。
如果 DeepSeek 和 Anthropic 都是閉源的,那麼「軍備競賽」的解釋可能有道理,但一個開源的模型已經廣泛可用,並且有詳細的科學報告,這使得「閉源軍備競賽」的觀點顯得有些不現實。
核心問題是:開源不分國界。
全球任何公司,無論位於歐洲、非洲、南美,還是美國,都可以自由下載並使用 DeepSeek,而不需要擔心將資料傳輸到特定國家(如中國),也不必依賴某家公司或伺服器來執行核心技術。
就像世界各地的貢獻者共同打造開源庫一樣,DeepSeek 也在全球範圍內湧現出了數百個衍生模型,這些模型在 Hugging Face 平臺上得到了應用和探索。

更重要的是,隨著 open-r1 專案和 DeepSeek 論文的釋出,接下來的幾個月中,世界各地的團隊將釋出許多開源推理模型。今天,AllenAI 和 Mistral 就各自發布了開源基礎模型(Tülu 和 Small3),這兩者已經在挑戰當前的最新技術,其中 AllenAI 的 Tülu 模型超越了 DeepSeek-V3。
而且,開源的意義遠不僅限於地理層面。我們幾乎沒有充分認識到開源對於我們安全的重要性!
隨著 AI 在我們生活中的核心地位越來越突出,技術的韌性將變得至關重要。今天,我們幾乎對一切都依賴網際網路。沒有網際網路,我們無法獲取社交媒體或新聞,無法打車、預訂餐廳或透過 WhatsApp 聯絡人。
如果所有資料都必須經過一家公司的資料中心傳輸,一旦該公司發生宕機,整個世界都可能停滯不前(想象一下 CrowdStrike 最近的宕機放大百萬倍)。
隨著 AI 助手和技術深度滲透到我們生活的方方面面,未來我們將越來越依賴這些技術來簡化日常任務,我們也會對任何因故障造成的停機感到煩惱甚至痛苦。
為了避免這種停機情況,最有效的方式是將韌性深深融入技術鏈中。
開源有許多優勢,比如降低訓練成本、提高可調性、控制權和隱私保護。但在長期來看,開源最重要的優勢之一,可能是它帶來的韌性。它是分散計算、在多個獨立提供商之間分配計算資源的最簡單、最具成本效益的方式,而且實現起來也不復雜。
與其討論國家榮譽和競爭,我認為現在是時候從全球視角思考 AI 帶來的挑戰和社會變革。而開源技術可能是我們安全過渡到一個 AI 深度融入社會、具備韌性的數字未來的關鍵資產。
小結
看完三位專家鞭辟入裡的解讀,相信大家內心都泛起了層層漣漪。
此刻,不妨將心中的澎湃、思索與感慨,盡情地打在評論區。
DeepSeek 的破局,遠不止是國產 AI 領域的一場勝利。
它宛如一顆投入湖面的巨石,在全球 AI 競爭的浩渺格局中激起千層巨浪,推動著格局的重構。
這一里程碑式的突破,更是一次震撼人心的吶喊,向技術壟斷的高牆發出了莊嚴叩問。
它讓我們堅信,開放與共享的精神,定能衝破一切藩籬,引領人類走向更加廣闊的智慧未來。
當歷史的聚光燈打在 2025 年的此刻,
你我都是這場智慧革命的見證者,
更是參與者。
既然你看到這裡了,如果覺得不錯,請隨手來個一鍵三連吧,轉發給同樣需要的朋友,這對我很重要。
另外如果想第一時間收到推送,也請將本公眾號加個星標
感謝觀看,下期見。