英偉達憾失DeepSeek關鍵人才?美國放走AI「錢學森」,哈佛教授痛心疾首

最近,一位哈佛教授痛心疾首地曝出,DeepSeek本來有機會誕生在美國?原本DeepSeek的工程師可以拿到英偉達的全職offer,美國卻沒有將他留住,導致「錢學森回國」的故事再一次上演,美國跟「國運級AI」擦肩而過!

DeepSeek給美國造成的威脅,還在加劇。
就在昨天,DeepSeek的日活數已經達到ChatGPT的23%,每日應用下載量接近500萬!
a16z聯創Marc Andreessen發文
誰能想到,做出DeepSeek關鍵貢獻的人才,本來是可能留在美國的。
最近哈佛大學教授曝出這一驚人事實:DeepSeek多模態團隊的第4位工程師,本來可以拿到英偉達的全職offer。
然而最終,他選擇歸國加入DeepSeek,由此的後果就是,美國在AI領域的主導地位被動搖,相關公司市值蒸發一萬億,全球AI格局也被徹底掀翻。
這種結果是陰錯陽差,還是一種必然?
美國錯失DeepSeek
讓「錢學森」再次回國
近日,政治學家、哈佛大學教授、前國防計劃助理部長Graham Allison,在X上提問:「誰曾錯失了DeepSeek」?
他在X痛心發帖稱,DeepSeek已重新整理對美國AI地位的認知,而美國原本有機會留住DeepSeek的關鍵員工之一潘梓正(Zizheng Pan):
(DeepSeek超越OpenAI相關模型)顛覆了我們對美國AI主導地位的大部分了解。
這也生動地提醒我們,美國必須多麼認真地吸引和留住人才,包括來自中國的人才。
潘梓正,是DeepSeek多模態團隊的第4位多工程師,在開發DeepSeek的R1模型方面發揮了重要作用。
回國之前,他在英偉達實習過4個月,而且拿到了英偉達的全職邀約。
Graham Allison認為潘梓正之所以如此,是因為矽谷公司未能在美國為他提供這樣做的機會。
這種「人才流失」,讓Graham Allison痛心疾首,甚至將潘梓正回國提升到錢學森歸國的高度!
像錢學森、黃仁勳以及馬斯克這樣的的超級人才可以用腳投票,可以在任何地方施展才華、大張宏圖。
他認為,美國應該盡力避免這樣的「人才流失」:
美國的大學教練,在尋找並招募世界上最有才華的運動員。
在中美科技競爭中,美國應該盡一切努力避免失去更多的錢學森和潘梓正這樣的人才。
英偉達憾失人才
英偉達的高階研究科學家禹之鼎,在得知DeepSeek超越ChatGPT登頂App Store後,分享了當時的實習生潘梓正回國的選擇,對他現在取得的成就感到高興,並分享了對AI競爭的觀點:
在2023年夏季,梓正是英偉達的實習生。後來,當我們考慮是否給他提供全職工作時,他毫不猶豫地選擇了加入 DeepSeek。
當時,DeepSeek的多模態團隊只有3個人。
梓正當時的決定,至今我仍印象深刻。
在DeepSeek,他做出了重要貢獻,參與了包括DeepSeek-VL2、DeepSeek-V3和DeepSeek-R1等多個關鍵專案。我個人對他的決定和所取得的成就感到非常高興。
梓正的案例是我近年來看到的一個典型例子。很多最優秀的人才都來自中國,而這些人才並不一定只能在美國公司取得成功。相反,我們從他們身上學到了很多東西。
早在2022年的自動駕駛(AV)領域,類似的「斯普特尼克時刻」就已經發生過,並且將在機器人技術和大語言模型(LLM)行業繼續發生。
我熱愛英偉達,並希望看到它繼續成為AGI和通用自主系統發展的重要推動力。但如果我們繼續編織地緣政治議程,製造對中國研究人員的敵對情緒,我們只會自毀前程,失去更多的競爭力。
我們需要更多的優秀人才、更高的專業水平、更強的學習能力、創造力以及更強的執行力。
潘梓正是DeepSeek-VL2的共同一作
在DeepSeek超越ChatGPT登頂App Store下載榜第一時,潘梓正在X上分享了自己的感受:
潘梓正2024年全職加入DeepSeek,擔任研究員。他曾在英偉達AI演算法組擔任研究實習生。
2021年,潘梓正加入蒙納士大學(Monash University)ZIP Lab攻讀計算機科學博士,導師是Bohan Zhuang教授和Jianfei Cai教授。在此之前,他分別獲得阿德萊德大學(University of Adelaide)計算機科學碩士和哈爾濱工業大學(威海)軟體工程學士學位。
在博士期間,潘梓正的研究興趣主要集中在深度神經網路的效率方面,包括模型部署、Transformer架構最佳化、注意力機制、 推理加速和記憶體高效的訓練。

Lex Fridman硬核播客
揭秘中國AI新星如何撼動全球格局
就在最近,Lex Fridman放出了一期長達5小時的播客,邀請了AI2的模型訓練專家Nathan Lambert和Semianalysis硬體專家Dylan Patel。
在這期資訊量爆棚的談話中,他們全程聚焦DeepSeek,討論了這顆中國AI新星如何撼動全球格局、MoE架構+MLA的技術雙刃、DeepSeek開源倒逼行業開放程序、中國式極限最佳化之道的硬體魔術等。
DeepSeek到底用沒用OpenAI資料
這次,幾位大佬的談話內容可謂相當犀利,直指問題核心。
比如這個關鍵問題:DeepSeek究竟用沒用OpenAI的資料?
此前,OpenAI公開表示,DeepSeek使用了自家的模型蒸餾。
《金融時報》乾脆說,「OpenAI有證據表明DeepSeek用了他們的模型來進行訓練」
這在道德和法律上站得住腳嗎?
雖然OpenAI的服務條款規定,不許使用者使用自家模型的輸出來構建競爭對手。但這個所謂的規則,其實正是OpenAI虛偽的體現。
Lex Fridman表示:他們和大多數公司一樣,本來就是在未經許可的情況下,使用網際網路上的資料進行訓練,並從中受益的。
大佬們一致認為,OpenAI聲稱DeepSeek用其模型訓練,就是在試圖轉移話題、讓自己獨贏。
而且,過去幾天還有很多人把DeepSeek的模型蒸餾到Llama中,因前者在推理上執行很複雜,而Llama很容易提供服務,這違法嗎?
DeepSeek的訓練成本,
為何如此之低
Dylan Patel表示,DeepSeek的成本涉及兩項關鍵的技術:一個是MoE,一個就是MLA(多頭潛注意力)。
MOE架構的優勢在於,一方面,模型可以將資料嵌入到更大的引數空間中,另一方面,在訓練或推理時,模型只需要啟用其中一部分引數,從而大大提升效率。
DeepSeek模型擁有超過6000億個引數,相比之下,Llama 405B有4050億引數。從引數規模上看,DeepSeek模型擁有更大的資訊壓縮空間,可以容納更多的世界知識。
但與此同時,DeepSeek模型每次只啟用約370億個引數。也就是說,在訓練或推理過程中,只需要計算370億個引數。相比之下,Llama 405B模型每次推理卻需要啟用4050億個引數。
MLA主要用於減少推理過程中的記憶體佔用,在訓練過程也是如此,它利用了一些巧妙的低秩近似數學技巧。
Nathan Lambert表示,深入研究潛注意力的細節,會發現DeepSeek在模型實現方面下了很大功夫。
因為,除了注意力機制,語言模型還有其他元件,例如用於擴充套件上下文長度的嵌入。DeepSeek採用的是旋轉位置編碼(RoPE)。
將RoPE與傳統的MoE結合使用,需要進行一系列操作,例如,將兩個注意力矩陣進行復數旋轉,這涉及到矩陣乘法。
DeepSeek的MLA架構由於需要一些巧妙的設計,因此實現的複雜性大大增加。而他們成功地將這些技術整合在一起,這表明DeepSeek在高效語言模型訓練方面走在了前沿。
Dylan Patel表示,DeepSeek想方設法提高模型訓練效率。其中一個方法就是不直接呼叫NVIDIA的NCCL庫,而是自行排程GPU之間的通訊。
DeepSeek的獨特之處在於,他們透過排程特定的SM(流式多處理器)來管理GPU通訊。
DeepSeek會精細地控制哪些SM核心負責模型計算,哪些核心負責allreduce或allgather通訊,並在它們之間進行動態切換。這需要極其高深的程式設計技巧。
DeepSeek為何如此便宜
在所有聲稱提供R1服務的公司中,定價都遠高於DeepSeek API,而且大多服務無法正常工作,吞吐量極低。
讓大佬們震驚的是,一方面中國取得了這種能力,另一方面價格如此之低。(R1的價格,比o1便宜27倍)
訓練為什麼便宜,上文已經提到。為什麼推理成本也這麼低呢?
首先,就是DeepSeek在模型架構上的創新。MLA這種全新的注意力機制,跟Transformer注意力機制不同。
這種多頭潛注意力,可以將注意力機制的記憶體佔用減少大約80%到90%,尤其有助於處理長上下文。
而且,DeepSeek和OpenAI的服務成本有巨大差異,部分原因是OpenAI的利潤率非常高,推理的毛利率超過了75%。
因為OpenAI目前是虧損的,在訓練上花費了太多,因此推理的利潤率很高。
接下來亮點來了,幾位大佬放飛想象,猜測這會不會是一種陰謀論:DeepSeek精心策劃了這次釋出和定價,做空英偉達和美國公司的股票,配合星際之門的釋出……
但這種猜測立馬遭到了反駁,Dylan Patel表示,他們只是趕在農曆新年前把產品儘快釋出而已,並沒有沒有打算搞個大的,否則為什麼選在聖誕節後一天釋出V3呢?
中國的工業能力
已經遠超美國
美國無疑在GPU等晶片領域領先於中國。
不過,對GPU出口管制,就能完全阻止中國嗎?不太可能。
Dylan Patel認為,美國政府也清楚地認識到這一點, 而Nathan Lambert認為中國會制造自己的晶片。
中國可能擁有更多的人才、更多的STEM畢業生、更多的程式設計師。美國當然也可以利用世界各地的人才,但這未必能讓美國有額外的優勢。
真正重要的是計算能力。
中國擁有的電力總和,數量已經驚人。中國的鋼鐵廠,其規模相當於整個美國工業的總和,此外還有需要龐大電力的鋁廠。
即使美國的星際之門真的建成,達到2吉瓦電力,仍小於中國最大的工業設施。
就這麼說吧,如果中國建造世界上最大的資料中心,只要有晶片,馬上就能做到。所以這只是一個時間問題,而不是能力問題。
現在,發電、輸電、變電站以及變壓器等構建資料中心所需的東西,都將制約美國構建越來越大的訓練系統,以及部署越來越多的推理計算能力。
相比之下,如果中國繼續堅信Scaling Law,就像納德拉、扎克伯格和劈柴等美國高管那樣,甚至可以比美國更快地實現。
因此,為了減緩中國AI技術的發展,確保AGI無法被大規模訓練,美國出臺了一系列禁令——透過限制GPU、光刻機等關鍵要素的出口,意圖「封殺」整個半導體產業。
OpenAI o3-Mini
能追上DeepSeek R1嗎?
接下來,幾位大佬對幾個明星推理模型進行了實測。
有趣的是,谷歌的Gemini Flash Thinking,無論從價格還是效能上來看都優於R1,而且在去年12月初就釋出了,然而卻無人關心……
對此,幾位大佬的體感是,它的行為模式不如o1那樣富有表現力,應用場景較窄。o1在特定任務上可能不是最完美,但靈活性和通用性更強。
Lex Frieman則表示,自己個人非常喜歡R1的一點,是它會展示完整的思維鏈token。
在開放式的哲學問題中,我們作為能欣賞智慧、推理和反思能力的人類,閱讀R1的原始思維鏈token,會感受到一種獨特的美感。
這種非線性的思維過程,類似於詹姆斯·喬伊斯的意識流小說《尤利西斯》和《芬尼根的守靈夜》,令人著迷。
相比之下,o3-mini給人的感覺是聰明、快速,但缺乏亮點,往往比較平庸,缺乏深度和新意。
從下圖中可以看到,從GPT-3到GPT-3.5,再到Llama,推理成本呈指數級下降趨勢。
DeepSeek R1是第一個達到如此低成本的推理模型,這個成就很了不起,不過,它的成本水平並沒有超出專家們預期的範圍。
而在未來,隨著模型架構的創新、更高質量的訓練資料、更先進的訓練技術,以及更高效的推理系統和硬體(比如新一代GPU和ASIC晶片),AI模型的推理成本還會持續下降。
最終,這將解鎖AGI的潛力。
誰將贏得AGI競賽
最後,幾位大佬預測了一番,誰將是AGI競賽的最終贏家。
谷歌似乎是領跑者,因為擁有基礎設施優勢。
但在輿論場上,OpenAI似乎是領先者。它在商業化方面已經走在了最前面,擁有目前AI領域最高的收入。
目前,誰究竟在AI領域賺到錢了,有人盈利了嗎?
大佬們盤了盤後發現,從財務報表上看,微軟在AI領域已經實現了盈利,但在基礎設施方面已經投入了鉅額資本支出。谷歌、亞馬遜也是如此。
Meta獲取的鉅額利潤來自於推薦系統,並非來自Llama等大模型。
Anthropic和OpenAI顯然還沒盈利,否則就不需要繼續融資了。不過單從營收和成本來看,GPT-4已經開始盈利了,因為它的訓練成本只有幾億美元。
最終,誰都無法預料,OpenAI是否會突然隕落。不過目前,各家公司還會繼續融資,因為一旦AGI到來,AI帶來的回報難以估量。
人們可能並不需要OpenAI花費數十億美元,去研發「下一個最先進的模型」,只需要ChatGPT級別的AI服務就足夠了。
推理、程式碼生成、AI智慧體、計算機使用,這些都是AI未來真正有價值的應用領域。誰不發力,誰就可能被市場淘汰。
參考資料
https://youtu.be/_1f-o0nqpEI
https://x.com/GrahamTAllison/status/1885442402833621426
https://x.com/ZhidingYu/status/1883958911839133894
>End
>>>                        
本文轉載自“新智元”,原標題《英偉達憾失DeepSeek關鍵人才?美國放走AI「錢學森」,哈佛教授痛心疾首》。
為分享前沿資訊及有價值的觀點,太空與網路微信公眾號轉載此文,並經過編輯。
未按照規範轉載及引用者,我們保留追究相應責任的權利
部分圖片難以找到原始出處,故文中未加以標註,如若侵犯了您的權益,請第一時間聯絡我們。
>>>   
充滿激情的新時代,
充滿挑戰的新疆域,
與踔厲奮發的引領者,
卓爾不群的企業家,
一起開拓,
一起體驗,
一起感悟,
共同打造更真品質,
共同實現更高價值,
共同見證商業航天更大的跨越!
——《太空與網路》,觀察,記錄,傳播,引領。
>>>                                           
·《衛星與網路》編輯委員會
高階顧問:王國玉、劉程、童旭東、相振華、王志義、楊烈
· 《衛星與網路》創始人:劉雨菲
·《衛星與網路》副社長:王俊峰
· 微信公眾號(ID:satnetdy)團隊
編輯:豔玲、哈玫,周泳、邱莉、黃榕、娜娜
主筆記者:李剛、魏興、張雪松、霍劍、樂瑜稻子、趙棟
策劃部:楊豔、若㼆、李真子
視覺總監:董濘
專業攝影:馮小京、宋偉
設計部:顧錳、潘希峎、楊小明
行政部:姜河、林紫
業務部:王錦熙、瑾怡
原創文章轉載授權、轉載文章侵權、投稿等事宜,請加微信:15910858067
商務合作;展覽展廳設計、企業VI/CI及室內設計、企業文化建設及品牌推廣;企業口碑傳播及整體營銷傳播等,請加微信:13811260603

雜誌訂閱,請加微信:

wangxiaoyu9960

· 衛星與網路各分部:
成都分部負責人:沈淮
長沙分部負責人:賓鴻浦
西安分部負責人:郭朝暉
青島分部負責人:江偉
· 衛星與網路總部負責人:農燕
· 會議活動部負責人喬顥益、許克新、董今福
· 投融資及戰略層面合作:劉雨菲
· 本平臺簽約設計公司:一畫開天(北京)文化創意設計有限公司
· 航天加(深圳)股權投資基金管理負責人:楊豔

相關文章