英偉達憾失DeepSeek關鍵人才？美國放走AI「錢學森」，哈佛教授痛心疾首

最近，一位哈佛教授痛心疾首地曝出，DeepSeek本來有機會誕生在美國？原本DeepSeek的工程師可以拿到英偉達的全職offer，美國卻沒有將他留住，導致「錢學森回國」的故事再一次上演，美國跟「國運級AI」擦肩而過！

DeepSeek給美國造成的威脅，還在加劇。

就在昨天，DeepSeek的日活數已經達到ChatGPT的23%，每日應用下載量接近500萬！

a16z聯創Marc Andreessen發文

誰能想到，做出DeepSeek關鍵貢獻的人才，本來是可能留在美國的。

最近哈佛大學教授曝出這一驚人事實：DeepSeek多模態團隊的第4位工程師，本來可以拿到英偉達的全職offer。

然而最終，他選擇歸國加入DeepSeek，由此的後果就是，美國在AI領域的主導地位被動搖，相關公司市值蒸發一萬億，全球AI格局也被徹底掀翻。

這種結果是陰錯陽差，還是一種必然？

美國錯失DeepSeek

讓「錢學森」再次回國

近日，政治學家、哈佛大學教授、前國防計劃助理部長Graham Allison，在X上提問：「誰曾錯失了DeepSeek」？

他在X痛心發帖稱，DeepSeek已重新整理對美國AI地位的認知，而美國原本有機會留住DeepSeek的關鍵員工之一潘梓正（Zizheng Pan）：

（DeepSeek超越OpenAI相關模型）顛覆了我們對美國AI主導地位的大部分了解。

這也生動地提醒我們，美國必須多麼認真地吸引和留住人才，包括來自中國的人才。

潘梓正，是DeepSeek多模態團隊的第4位多工程師，在開發DeepSeek的R1模型方面發揮了重要作用。

回國之前，他在英偉達實習過4個月，而且拿到了英偉達的全職邀約。

Graham Allison認為潘梓正之所以如此，是因為矽谷公司未能在美國為他提供這樣做的機會。

這種「人才流失」，讓Graham Allison痛心疾首，甚至將潘梓正回國提升到錢學森歸國的高度！

像錢學森、黃仁勳以及馬斯克這樣的的超級人才可以用腳投票，可以在任何地方施展才華、大張宏圖。

他認為，美國應該盡力避免這樣的「人才流失」：

美國的大學教練，在尋找並招募世界上最有才華的運動員。

在中美科技競爭中，美國應該盡一切努力避免失去更多的錢學森和潘梓正這樣的人才。

英偉達憾失人才

英偉達的高階研究科學家禹之鼎，在得知DeepSeek超越ChatGPT登頂App Store後，分享了當時的實習生潘梓正回國的選擇，對他現在取得的成就感到高興，並分享了對AI競爭的觀點：

在2023年夏季，梓正是英偉達的實習生。後來，當我們考慮是否給他提供全職工作時，他毫不猶豫地選擇了加入 DeepSeek。

當時，DeepSeek的多模態團隊只有3個人。

梓正當時的決定，至今我仍印象深刻。

在DeepSeek，他做出了重要貢獻，參與了包括DeepSeek-VL2、DeepSeek-V3和DeepSeek-R1等多個關鍵專案。我個人對他的決定和所取得的成就感到非常高興。

梓正的案例是我近年來看到的一個典型例子。很多最優秀的人才都來自中國，而這些人才並不一定只能在美國公司取得成功。相反，我們從他們身上學到了很多東西。

早在2022年的自動駕駛（AV）領域，類似的「斯普特尼克時刻」就已經發生過，並且將在機器人技術和大語言模型（LLM）行業繼續發生。

我熱愛英偉達，並希望看到它繼續成為AGI和通用自主系統發展的重要推動力。但如果我們繼續編織地緣政治議程，製造對中國研究人員的敵對情緒，我們只會自毀前程，失去更多的競爭力。

我們需要更多的優秀人才、更高的專業水平、更強的學習能力、創造力以及更強的執行力。

潘梓正是DeepSeek-VL2的共同一作

在DeepSeek超越ChatGPT登頂App Store下載榜第一時，潘梓正在X上分享了自己的感受：

潘梓正2024年全職加入DeepSeek，擔任研究員。他曾在英偉達AI演算法組擔任研究實習生。

2021年，潘梓正加入蒙納士大學（Monash University）ZIP Lab攻讀計算機科學博士，導師是Bohan Zhuang教授和Jianfei Cai教授。在此之前，他分別獲得阿德萊德大學（University of Adelaide）計算機科學碩士和哈爾濱工業大學（威海）軟體工程學士學位。

在博士期間，潘梓正的研究興趣主要集中在深度神經網路的效率方面，包括模型部署、Transformer架構最佳化、注意力機制、推理加速和記憶體高效的訓練。

Lex Fridman硬核播客

揭秘中國AI新星如何撼動全球格局

就在最近，Lex Fridman放出了一期長達5小時的播客，邀請了AI2的模型訓練專家Nathan Lambert和Semianalysis硬體專家Dylan Patel。

在這期資訊量爆棚的談話中，他們全程聚焦DeepSeek，討論了這顆中國AI新星如何撼動全球格局、MoE架構+MLA的技術雙刃、DeepSeek開源倒逼行業開放程序、中國式極限最佳化之道的硬體魔術等。

DeepSeek到底用沒用OpenAI資料

這次，幾位大佬的談話內容可謂相當犀利，直指問題核心。

比如這個關鍵問題：DeepSeek究竟用沒用OpenAI的資料？

此前，OpenAI公開表示，DeepSeek使用了自家的模型蒸餾。

《金融時報》乾脆說，「OpenAI有證據表明DeepSeek用了他們的模型來進行訓練」

這在道德和法律上站得住腳嗎？

雖然OpenAI的服務條款規定，不許使用者使用自家模型的輸出來構建競爭對手。但這個所謂的規則，其實正是OpenAI虛偽的體現。

Lex Fridman表示：他們和大多數公司一樣，本來就是在未經許可的情況下，使用網際網路上的資料進行訓練，並從中受益的。

大佬們一致認為，OpenAI聲稱DeepSeek用其模型訓練，就是在試圖轉移話題、讓自己獨贏。

而且，過去幾天還有很多人把DeepSeek的模型蒸餾到Llama中，因前者在推理上執行很複雜，而Llama很容易提供服務，這違法嗎？

DeepSeek的訓練成本，

為何如此之低

Dylan Patel表示，DeepSeek的成本涉及兩項關鍵的技術：一個是MoE，一個就是MLA（多頭潛注意力）。

MOE架構的優勢在於，一方面，模型可以將資料嵌入到更大的引數空間中，另一方面，在訓練或推理時，模型只需要啟用其中一部分引數，從而大大提升效率。

DeepSeek模型擁有超過6000億個引數，相比之下，Llama 405B有4050億引數。從引數規模上看，DeepSeek模型擁有更大的資訊壓縮空間，可以容納更多的世界知識。

但與此同時，DeepSeek模型每次只啟用約370億個引數。也就是說，在訓練或推理過程中，只需要計算370億個引數。相比之下，Llama 405B模型每次推理卻需要啟用4050億個引數。

MLA主要用於減少推理過程中的記憶體佔用，在訓練過程也是如此，它利用了一些巧妙的低秩近似數學技巧。

Nathan Lambert表示，深入研究潛注意力的細節，會發現DeepSeek在模型實現方面下了很大功夫。

因為，除了注意力機制，語言模型還有其他元件，例如用於擴充套件上下文長度的嵌入。DeepSeek採用的是旋轉位置編碼（RoPE）。

將RoPE與傳統的MoE結合使用，需要進行一系列操作，例如，將兩個注意力矩陣進行復數旋轉，這涉及到矩陣乘法。

DeepSeek的MLA架構由於需要一些巧妙的設計，因此實現的複雜性大大增加。而他們成功地將這些技術整合在一起，這表明DeepSeek在高效語言模型訓練方面走在了前沿。

Dylan Patel表示，DeepSeek想方設法提高模型訓練效率。其中一個方法就是不直接呼叫NVIDIA的NCCL庫，而是自行排程GPU之間的通訊。

DeepSeek的獨特之處在於，他們透過排程特定的SM（流式多處理器）來管理GPU通訊。

DeepSeek會精細地控制哪些SM核心負責模型計算，哪些核心負責allreduce或allgather通訊，並在它們之間進行動態切換。這需要極其高深的程式設計技巧。

DeepSeek為何如此便宜

在所有聲稱提供R1服務的公司中，定價都遠高於DeepSeek API，而且大多服務無法正常工作，吞吐量極低。

讓大佬們震驚的是，一方面中國取得了這種能力，另一方面價格如此之低。（R1的價格，比o1便宜27倍）

訓練為什麼便宜，上文已經提到。為什麼推理成本也這麼低呢？

首先，就是DeepSeek在模型架構上的創新。MLA這種全新的注意力機制，跟Transformer注意力機制不同。

這種多頭潛注意力，可以將注意力機制的記憶體佔用減少大約80%到90%，尤其有助於處理長上下文。

而且，DeepSeek和OpenAI的服務成本有巨大差異，部分原因是OpenAI的利潤率非常高，推理的毛利率超過了75%。

因為OpenAI目前是虧損的，在訓練上花費了太多，因此推理的利潤率很高。

接下來亮點來了，幾位大佬放飛想象，猜測這會不會是一種陰謀論：DeepSeek精心策劃了這次釋出和定價，做空英偉達和美國公司的股票，配合星際之門的釋出……

但這種猜測立馬遭到了反駁，Dylan Patel表示，他們只是趕在農曆新年前把產品儘快釋出而已，並沒有沒有打算搞個大的，否則為什麼選在聖誕節後一天釋出V3呢？

中國的工業能力

已經遠超美國

美國無疑在GPU等晶片領域領先於中國。

不過，對GPU出口管制，就能完全阻止中國嗎？不太可能。

Dylan Patel認為，美國政府也清楚地認識到這一點，而Nathan Lambert認為中國會制造自己的晶片。

中國可能擁有更多的人才、更多的STEM畢業生、更多的程式設計師。美國當然也可以利用世界各地的人才，但這未必能讓美國有額外的優勢。

真正重要的是計算能力。

中國擁有的電力總和，數量已經驚人。中國的鋼鐵廠，其規模相當於整個美國工業的總和，此外還有需要龐大電力的鋁廠。

即使美國的星際之門真的建成，達到2吉瓦電力，仍小於中國最大的工業設施。

就這麼說吧，如果中國建造世界上最大的資料中心，只要有晶片，馬上就能做到。所以這只是一個時間問題，而不是能力問題。

現在，發電、輸電、變電站以及變壓器等構建資料中心所需的東西，都將制約美國構建越來越大的訓練系統，以及部署越來越多的推理計算能力。

相比之下，如果中國繼續堅信Scaling Law，就像納德拉、扎克伯格和劈柴等美國高管那樣，甚至可以比美國更快地實現。

因此，為了減緩中國AI技術的發展，確保AGI無法被大規模訓練，美國出臺了一系列禁令——透過限制GPU、光刻機等關鍵要素的出口，意圖「封殺」整個半導體產業。

OpenAI o3-Mini

能追上DeepSeek R1嗎？

接下來，幾位大佬對幾個明星推理模型進行了實測。

有趣的是，谷歌的Gemini Flash Thinking，無論從價格還是效能上來看都優於R1，而且在去年12月初就釋出了，然而卻無人關心……

對此，幾位大佬的體感是，它的行為模式不如o1那樣富有表現力，應用場景較窄。o1在特定任務上可能不是最完美，但靈活性和通用性更強。

Lex Frieman則表示，自己個人非常喜歡R1的一點，是它會展示完整的思維鏈token。

在開放式的哲學問題中，我們作為能欣賞智慧、推理和反思能力的人類，閱讀R1的原始思維鏈token，會感受到一種獨特的美感。

這種非線性的思維過程，類似於詹姆斯·喬伊斯的意識流小說《尤利西斯》和《芬尼根的守靈夜》，令人著迷。

相比之下，o3-mini給人的感覺是聰明、快速，但缺乏亮點，往往比較平庸，缺乏深度和新意。

從下圖中可以看到，從GPT-3到GPT-3.5，再到Llama，推理成本呈指數級下降趨勢。

DeepSeek R1是第一個達到如此低成本的推理模型，這個成就很了不起，不過，它的成本水平並沒有超出專家們預期的範圍。

而在未來，隨著模型架構的創新、更高質量的訓練資料、更先進的訓練技術，以及更高效的推理系統和硬體（比如新一代GPU和ASIC晶片），AI模型的推理成本還會持續下降。

最終，這將解鎖AGI的潛力。

誰將贏得AGI競賽

最後，幾位大佬預測了一番，誰將是AGI競賽的最終贏家。

谷歌似乎是領跑者，因為擁有基礎設施優勢。

但在輿論場上，OpenAI似乎是領先者。它在商業化方面已經走在了最前面，擁有目前AI領域最高的收入。

目前，誰究竟在AI領域賺到錢了，有人盈利了嗎？

大佬們盤了盤後發現，從財務報表上看，微軟在AI領域已經實現了盈利，但在基礎設施方面已經投入了鉅額資本支出。谷歌、亞馬遜也是如此。

Meta獲取的鉅額利潤來自於推薦系統，並非來自Llama等大模型。

Anthropic和OpenAI顯然還沒盈利，否則就不需要繼續融資了。不過單從營收和成本來看，GPT-4已經開始盈利了，因為它的訓練成本只有幾億美元。

最終，誰都無法預料，OpenAI是否會突然隕落。不過目前，各家公司還會繼續融資，因為一旦AGI到來，AI帶來的回報難以估量。

人們可能並不需要OpenAI花費數十億美元，去研發「下一個最先進的模型」，只需要ChatGPT級別的AI服務就足夠了。

推理、程式碼生成、AI智慧體、計算機使用，這些都是AI未來真正有價值的應用領域。誰不發力，誰就可能被市場淘汰。

參考資料

https://youtu.be/_1f-o0nqpEI

https://x.com/GrahamTAllison/status/1885442402833621426

https://x.com/ZhidingYu/status/1883958911839133894

>End

>>>

本文轉載自“新智元”，原標題《英偉達憾失DeepSeek關鍵人才？美國放走AI「錢學森」，哈佛教授痛心疾首》。

為分享前沿資訊及有價值的觀點，太空與網路微信公眾號轉載此文，並經過編輯。

未按照規範轉載及引用者，我們保留追究相應責任的權利

部分圖片難以找到原始出處，故文中未加以標註，如若侵犯了您的權益，請第一時間聯絡我們。

HISTORY/往期推薦

商業火箭，想說愛你不容易——（一）中途夭折的商業火箭起步之旅

商業火箭，想說愛你不容易——（二）難以複製的SpaceX

商業火箭，想說愛你不容易——（三）中國商業火箭未來之路怎麼走？

>>>

充滿激情的新時代，

充滿挑戰的新疆域，

與踔厲奮發的引領者，

卓爾不群的企業家，

一起開拓，

一起體驗，

一起感悟，

共同打造更真品質，

共同實現更高價值，

共同見證商業航天更大的跨越！

——《太空與網路》，觀察，記錄，傳播，引領。

>>>

·《衛星與網路》編輯委員會

高階顧問：王國玉、劉程、童旭東、相振華、王志義、楊烈

· 《衛星與網路》創始人：劉雨菲

·《衛星與網路》副社長：王俊峰

· 微信公眾號（ID：satnetdy）團隊

編輯：豔玲、哈玫，周泳、邱莉、黃榕、娜娜

主筆記者：李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟

策劃部：楊豔、若㼆、李真子

視覺總監：董濘

專業攝影：馮小京、宋偉

設計部：顧錳、潘希峎、楊小明

行政部：姜河、林紫

業務部：王錦熙、瑾怡

原創文章轉載授權、轉載文章侵權、投稿等事宜，請加微信：15910858067

商務合作；展覽展廳設計、企業VI/CI及室內設計、企業文化建設及品牌推廣；企業口碑傳播及整體營銷傳播等，請加微信：13811260603

雜誌訂閱，請加微信：

wangxiaoyu9960

· 衛星與網路各分部：

成都分部負責人：沈淮

長沙分部負責人：賓鴻浦

西安分部負責人：郭朝暉

青島分部負責人：江偉

· 衛星與網路總部負責人：農燕

· 會議活動部負責人：喬顥益、許克新、董今福

· 投融資及戰略層面合作：劉雨菲

· 本平臺簽約設計公司：一畫開天（北京）文化創意設計有限公司

· 航天加（深圳）股權投資基金管理負責人：楊豔

dignews.cc

英偉達憾失DeepSeek關鍵人才？美國放走AI「錢學森」，哈佛教授痛心疾首

最近，一位哈佛教授痛心疾首地曝出，DeepSeek本來有機會誕生在美國？原本DeepSeek的工程師可以拿到英偉達的全職offer，美國卻沒有將他留住，導致「錢學森回國」的故事再一次上演，美國跟「國運級AI」擦肩而過！

相關文章

英偉達放走DeepSeek關鍵人才，一週蒸發4萬億！哈佛教授痛心直呼那可是AI屆「錢學森」！

哈佛教授發文感嘆：英偉達憾失DeepSeek關鍵人才，美國放走AI“錢學森”……

外媒+華爾街+矽谷一夜破防，中國AI登頂世界第一？

全球爆火的DeepSeek主要開發者竟是澳洲留學生，畢業於這兩所知名大學

IBM中國投資公司正式關停；完全用Rust重寫的FishShell正式釋出4.0；英偉達一夜蒸發2萬億！|Q資訊

部分國產晶片適配滿血版DeepSeek，仍「遙遙無期」

重磅！DeepSeek宣佈下週開源5個專案；OpenAI周活4億，佔世界人口5％！蔚來回應裁員50％，離譜到家|Q資訊

DeepSeek爆火後，VC想從歐洲跑路

位元組闢謠HR與員工互毆；OpenAI要求停用DeepSeek！蔚來閃電裁員，20分鐘走人，部分團隊砍半|Q資訊

科學家提出自適應保護正規化，為提升機器人計算系統可靠性提供新方案