
社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
最近 DeepSeek 真的是全網刷屏!
前幾天釋出的 V3 給我們的大震撼還沒消散呢!DeepSeek-R1 一來,又引爆了全球的 AI 社群!
好傢伙,最新發布的 R1 在 AIME2024 數學基準測試中 79.8% 直接踢走OpenAI 的 o1 ,在標準化編碼測試中,DeepSeek-R1 也展現出“專家級”水平,在 Codeforces 平臺上取得了 2029 Elo 評級,超越了 96.3% 的人類競爭者。

R1 不僅以 MIT 許可(最寬鬆的規格)完全開源,而且,成本優勢非常大,每百萬 token 的查詢成本僅為 0.14 美元,相較於 OpenAI 的 7.50 美元,成本驟降 98%。
真的是太牛了!

DeepSeek 的橫空出世,如同在平靜的矽谷投下了一枚震撼彈。
美國焦慮著其人工智慧領域的霸主地位是否岌岌可危,這會 DeepSeek 的大成功,在全球掀起了一股“復現”浪潮不說,更將矽谷的焦慮推向頂峰。 這份焦慮,並非僅僅是對技術失利的擔憂,而是對自身模式和未來戰略的深刻反思與重新審視。
與此同時,Meta 的員工在美國匿名職場社群 teamblind 釋出了一個公開的帖子,稱 Meta 生成式 AI 團隊對 低成本和高效能的 DeepSeek V3 的出現感到非常非常“擔憂”:

DeepSeek-V3 的出現是這一切的導火索,它在效能基準測試中已領先於 Llama 4。 更令人不安的是,這款模型竟來自一家“訓練預算僅 550 萬美元的中國公司”。工程師們正全力以赴地分析 DeepSeek,試圖從中找到突破口。這絕非虛言。管理層正面臨如何證明高昂的生成式 AI 部門成本的難題。 當部門內眾多“領導”的薪資總和遠超 DeepSeek-V3 的訓練預算時,他們將如何向上級交代?DeepSeek-R1 的出現更令局勢雪上加霜,具體情況雖不便透露,但很快將公開。本部門原本應是一個精幹的工程團隊,但由於過度擴張,導致效率低下,最終所有人皆受其害。
這個帖子引發了非常激烈的討論,有的人擔心英偉達的卡賣不出去了,有人擔心 Meta 今年將推出的 Llama4 打不過V3,而就昨天,Meta 的首席科學家下場了!
LeCun在 X(推特)上發帖稱目前的焦慮的方向是錯的,與其關注其霸主地位,不如關心開源與閉源的勝負:

給那些看到 DeepSeek 的表現後,覺得「中國在 AI 方面正在超越美國」的人:你們的解讀是錯的。正確的解讀應該是:「開源模型正在超越專有模型。」DeepSeek 得益於開源研究和開源專案(例如 PyTorch 和來自 Meta 的 Llama)。他們在他人工作的基礎上提出了新想法並進行了構建。因為他們的工作是公開且開源的,所以每個人都能從中受益。這就是開放研究與開源的力量。
小鹿看到 LeCun 的評論區中被點贊比較高的評論,還是在一直討論究竟美國和中國誰先達到 AGI:


甚至還有美國網友陰陽中國是鵜鶘,是靠吃掉了美國的 AI 模型才變強的:

甚至 Meta 的 CEO 扎克伯格也還在關注這場戰怎麼打才能贏,在 LeCun 發言不久他就在 Facebook 上宣佈:
加速研發 Llama 4,計劃投資 650 億美元擴建資料中心,並部署 130 萬枚 GPU 以確保 2025 年 Meta AI 成為全球領先模型。

在 DeepSeek V2 模型釋出之際,“暗湧”採訪了 DeepSeek CEO 梁文鋒時,梁老師當時也提到了這個問題,直接駁斥了美國的偏見:

暗湧提問:網際網路和移動網際網路時代留給大部分人的慣性認知是,美國擅長搞技術創新,中國更擅長做應用。梁文鋒答:我們認為隨著經濟發展,中國也要逐步成為貢獻者,而不是一直搭便車。過去三十多年 IT 浪潮裡,我們基本沒有參與到真正的技術創新裡。我們已經習慣摩爾定律從天而降,躺在家裡 18 個月就會出來更好的硬體和軟體。Scaling Law 也在被如此對待。但其實,這是西方主導的技術社群一代代孜孜不倦創造出來的,只因為之前我們沒有參與這個過程,以至於忽視了它的存在。暗湧提問:為什麼 DeepSeek V2 會讓矽谷的很多人驚訝?梁文鋒答:在美國每天發生的大量創新裡,這是非常普通的一個。他們之所以驚訝,是因為這是一箇中國公司,在以創新貢獻者的身份,加入到他們遊戲裡去。畢竟大部分中國公司習慣 follow,而不是創新。
矽谷這次的震驚,恰恰印證了他們長期以來對中國科技創新抱有的偏見,這種偏見大到蓋過了關鍵問題的本質。
他們戴著“有色眼鏡”,先入為主地否定中國創新能力,卻完全沒有意識到,真正值得他們關注的,根本不是什麼“國家超越”,而是開源模式的崛起及其對全球 AI 發展的深遠意義。

DeepSeek 就像一個廚師,他做菜做得特別好吃 ~
但他不是憑空變出來的,他用了別人公開的菜譜(開源研究),用了別人免費提供的工具(開源專案,比如 PyTorch 和 Llama),用了別人免費的麵粉、免費的烤箱,再融合自己的關鍵的創新小配方,然後做出了美味的麵包。
更棒的是,這個廚師做完麵包,也把自己的新菜譜公開了! 這樣一來,其他廚師也能學,也能在它的基礎改進,也能做出更好吃的麵包。
這樣的力量是無窮無盡不會枯竭而且非常巨大的!
因此,如果矽谷對 DeepSeek 成功的解讀僅僅停留在“中國 AI 突飛猛進,超越美國 AI”的層面,那無疑是一種格局狹隘的認知。
真正值得深思的是 DeepSeek 背後所代表的 AI 研究開源模式。 正是這種開放共享的模式,讓全球的研究者得以站在巨人的肩膀上,互相借鑑,共同精進,最終推動 AI 技術朝著更健康、更普惠的方向發展。
這才是 DeepSeek 的成功為矽谷,乃至整個 AI 領域帶來的更深遠、也更值得關注的啟示 ~
參考文獻
https://mp.weixin.qq.com/s/bLiV7dOiMsSIUo6LRLbPKw
https://x.com/ylecun/status/1883002229977915535

掃描二維碼新增小助手微信
關於我們
