

春節期間,有一個狠角色熱度悄悄蓋過了春晚,跑贏了哪吒!沒錯,它就是DeepSeek!
過個節,DeepSeek日活數超豆包登頂中國No.1,超ChatGPT成全球增長最快AI應用,總下載都破4000萬!這勢頭,連實習生都要月薪過萬了!

deepseek部分在招職位,圖源網路
於是,政治學家、哈佛大學教授、前國防計劃助理部長Graham Allison直接在社交平臺爆料:DeepSeek多模態團隊的第4位工程師,做出DeepSeek關鍵貢獻人才,本來可以拿到英偉達的全職offer!
這位教授在X上痛心疾首大呼:“到底是誰錯失了DeepSeek?”

圖源網路
英偉達:雖然是我,但是我也很虧…AI領主身份不穩不說,還憑空蒸發公司市值上萬億!快上呼吸機…

錢學森2.0放棄英偉達offer回國
英偉達研究員感慨中國優秀人才
這位讓美國錯失的人才叫潘梓正,是DeepSeek多模態團隊的滴4位多工程師,在開發DeepSeek的R1模型方面發揮了重要作用。
他的履歷也十分靚麗,21年就讀蒙納士大學ZIP Lab攻讀計算機科學博士,導師是Bohan Zhuang教授和Jianfei Cai教授。在此之前,他分別獲得阿德萊德大學(University of Adelaide)計算機科學碩士和哈爾濱工業大學(威海)軟體工程學士學位。

潘梓正,圖源網路
博士期間,他就展現出了對深度神經網路效率的濃厚興趣和卓越見解。他聚焦於模型部署、Transformer 架構最佳化、注意力機制、推理加速和記憶體高效訓練等關鍵領域,其研究成果在學術界和工業界都引起了廣泛關注。
好富還了解到,其實在23年潘梓正就去了英偉達AI演算法組實習了4個月,還收到了全職offer。結果誰都想不到他沒去英偉達,而是去了當時僅有3個人的DeepSeek多模態團隊。

潘梓正是DeepSeek-VL2的共同一作,圖源網路
結果一不小心,DeepSeek就爆火超越ChatGPT登頂App Store了。而且美國股市都遭受到了“DeepSeek衝擊”,作為全球AI晶片龍頭的英偉達總市值,更是在一週內累計縮水5520億美元(約合人民幣4萬億元)。
英偉達的高階研究科學家禹之鼎還發文感慨了一下。
大概意思就是說,潘梓正放棄offer加入DeepSeek他印象深刻。但也說明很多最優秀的人才都來自中國,而這些人才並不一定只能在美國公司取得成功。如果他們繼續編織地緣政治議程,製造對中國研究人員的敵對情緒,只會自毀前程,失去更多的競爭力。

圖源網路
這番話簡直說到了那位爆料的哈佛教授心坎裡去了,Graham Allison太看不得這種人才流失了,甚至從潘梓正聊到了錢學森歸國,直接表示:在中美科技競爭裡,美國應該盡一切努力避免失去更多的錢學森和潘梓正這樣的人才。

圖源網路
既然哈佛教授都這樣說了,那還不趕快多在中國招招生,這樣不管是潘梓正2.0還是錢學森3.0,不都到你手中了(勾引臉.JPG)。

OpenAI碰瓷DeepSeek模型?
DeepSeek公開成本低價原因
DeepSeek奪得眼球讓OpenAI可坐不住了,公開表示DeepSeek用了自家的蒸餾模型。
那到底用沒用?
LeX Fridman看熱鬧不嫌事大,邀請了AI2的模型訓練專家Nathan Lambert和Semianalysis硬體專家Dylan Patel,做了一個長達5小時的播客討論這些事。

圖源網路
Lex Fridman表示:他們和大多數公司一樣,本來就是在未經許可的情況下,使用網際網路上的資料進行訓練,並從中受益的。
大佬們一致認為,OpenAI聲稱DeepSeek用其模型訓練,就是在試圖轉移話題、讓自己獨贏。
而且,過去幾天還有很多人把DeepSeek的模型蒸餾到Llama中,因前者在推理上執行很複雜,而Llama很容易提供服務,這違法嗎?
不過後來OpenAI公司執行長薩姆·奧特曼(Sam Altman)也坦誠,公司在開源問題上站在“歷史的錯誤一方”。

奧特曼還表示DeepSeek正在推動OpenAI公司更多地揭示其推理模型的“思考過程”,之前由於擔憂競爭對手抓取資料用於訓練自己的模型,OpenAI故意隱藏了模型的推理過程。與之相比,DeepSeek的R1模型展示了完整的思維鏈。
當然幾位大佬還討論了其它問題,比如DeepSeek怎麼這麼便宜?
要知道DeepSeek的R1模型在技術上實現了重要突破——用純深度學習方法讓AI自發湧現出推理能力,在數學、程式碼、自然語言推理等任務上,效能比肩OpenAI的o1模型正式版。

Dylan Patel表示,那是因為DeepSeek的訓練成本和推理成本都很低,且訓練成本僅有560萬美元,遠低於美國科技巨頭的數億美元乃至數十億美元投入。
而DeepSeek的成本涉及兩項關鍵的技術:一個是MoE,一個就是MLA(多頭潛注意力)。
用MoE架構讓大模型學會“分組辦公”——平時只啟用3%的腦細胞(370億引數)幹活,效率吊打傳統模型的全員加班模式(Llama要啟用4050億引數)。

MLA技術把注意力機制記憶體砍掉80-90%,長文字處理穩如老狗。配合自研的“GPU交通管制”系統,精準排程每個晶片的運算和通訊,比直接呼叫英偉達庫節省30%算力!
而且,DeepSeek和OpenAI的服務成本有巨大差異,部分原因是OpenAI的利潤率非常高,推理的毛利率超過了75%。因為OpenAI目前是虧損的,在訓練上花費了太多,因此推理的利潤率很高。

於是幾位大佬紛紛猜測,這是不是DeepSeek精心策劃的定價,直接做空英偉達和美國股票……
Dylan Patel無語並大佬式攤手,他們只是趕在農曆新年前把產品儘快釋出而已,並沒有沒有打算搞個大的,否則為什麼選在聖誕節後一天釋出V3呢?

總而言之,DeepSeek的創新不僅推動了AI模型的普及,也為AI基建產業鏈的各個環節帶來了新的機遇與挑戰。從DeepSeek的人才之戰也可以看出,隨著AI技術的不斷進步,AI基礎設施的建設將成為全球科技行業的核心驅動力之一。
如果你也對人工智慧等領域感興趣,想提高申請效率,斬獲夢校offer!不要猶豫,報名鹽趣課程絕對是最正確的、價效比最高的選擇,心動不如行動起來!來鹽趣!跟隨TOP30大牛導師做科研,發論文,拿推薦信,絕對是上岸名校價效比最高的途徑。
頂級名校教授的優質科研課題
掃描下方二維碼即可立即諮詢






左右滑動檢視課程
名校教授推薦信、論文發表
全方位助力留學申請
掃碼免費科研1v1諮詢👇



名校教授推薦信、論文發表
全方位助力留學申請
掃碼免費科研1v1諮詢👇


(廣告合作)