讓英偉達一夜蒸發4.3萬億!全網都在深扒DeepSeek團隊,什麼來頭?


他們中的一些人,2024年一邊在DeepSeek搞研究,另一邊新鮮熱乎的博士學位論文剛評上獎。他們中有的參與了從DeepSeek LLM v1到DeepSeek-v3的全程,有的只是實習了一段時間也做出重要成果。
編輯丨墨墨
綜合自丨量子位、南風窗、鞭牛士、極目新聞等
八妹說:
根據公眾號平臺最新的推送規則,如果不想錯過八妹的文章,記得標星標哦,以前加過的也需要重新新增,這樣每次新文章推送才會第一時間出現在你的訂閱列表裡。
人生總會有遺漏,但是不要忘記 “新增星標”哦!!!
· · ·

用幾百萬美元完成幾十億美元的專案?最近美國矽谷的AI巨頭們的神經已經錯亂了。

來自“東方的神秘力量”DeepSeek釋出的R1模型,它在第三方測試中,表現秒殺了對面一大片的人工智慧巨頭。
DeepSeek在很多方面的表現和chatGPT的表現不相上下。在中文領域,DeepSeek的表現甚至更勝一籌。
用中文向DeepSeek提問,DeepSeek可以給出非常深度的回答,完全沒有模稜兩可的“一眼AI式感覺”。
幾天之內,DeepSeek在美國應用商店的下載排名高居第一,超越了AI屆的頭號老大ChatGPT。這讓美國科技行業的無敵光環受到威脅,美國股市週一大跌。
可就在1月28日凌晨,DeepSeek稱遭受大規模惡意攻擊!
DeepSeek官網的服務狀態頁面顯示:“近期DeepSeek線上服務受到大規模惡意攻擊,註冊可能繁忙,請稍等重試。已註冊使用者可以正常登入,感謝理解和支援。”
1.
“中國模型”改變遊戲規則,震動華爾街 /
在DeepSeek面世之前,人們普遍認為AI是一個極其消耗算力的產業,所以,在這一輪AI熱潮裡,英偉達成為最大贏家,全球AI公司都要大批次採購英偉達的先進晶片。
但是,DeepSeek的橫空出世改變了遊戲規則。
它展示了一個名為 R1 的類似 ChatGPT 的人工智慧模型,該模型具有所有熟悉的功能,但執行成本僅為 OpenAI、谷歌或 Meta 的熱門人工智慧模型的一小部分:
該模型每百萬個token的查詢成本僅為0.14美元,而OpenAI的成本為7.50美元,便宜了98%,而且允許開源。
DeepSeek不僅開了源,還把訓練R1的方法全都在論文裡公開了,一把掀開了某些AI巨頭的遮羞布。
DeepSeek表示,其基礎模型的計算能力僅花費了 560 萬美元,而美國公司在人工智慧技術上花費了數億或數十億美元。
美國多年來一直以國家安全問題為由限制向中國供應高功率人工智慧晶片,導致DeepSeek只能使用英偉達效能相對較低的晶片。
但DeepSeek透過演算法創新、提升硬體利用效率等方式,在功率不足的人工智慧晶片上實現其低成本模型,這打破了AI對於算力高需求的神話,引發了整個AI產業鏈的價值重估。
在DeepSeek的衝擊下,當前全球最炙手可熱的英偉達應聲落地,1月28日,英偉達的股價暴跌17%。單日市值蒸發5950億美元,接近6000億美元,相當於人民幣4.3萬億,創美股單日跌幅最高記錄。
除了英偉達,其他晶片股也遭受重創,博通下跌17%,市值跌去1800億美元,相當於人民幣1.3萬億,市值跌破萬億美元。
臺積電下跌13%,市值跌去1500億美元,相當於人民幣1.1萬億元,市值跌破萬億美元。
主導星際之門計劃的軟銀集團股價一度下跌近6%,創下去年11月1日以來的最大跌幅;藤倉大跌超8%,東京電子和Disco均跌超3%。
美國科技行業的無敵光環受到威脅,除了科技股,華爾街對非科技公司投資的巨大變化。近年來,由於人工智慧資料中心需要大量電力,能源公司的股價大幅上漲,但在27日,它們全都暴跌。
因為在AI圈爆火,開發DeepSeek背後的中國公司深度求索也“浮出水面”,矽谷同行稱其為“東方神秘力量”。
2.
DeepSeek背後的操盤手
是來自金融圈的大佬? /
DeepSeek的開發者為杭州深度求索人工智慧基礎技術研究有限公司(簡稱“深度求索”),該公司成立於2023年7月份,由寧波程恩企業管理諮詢合夥企業(有限合夥)和梁文鋒共同持股。
梁文鋒是湛江市吳川市覃巴鎮米歷嶺村人,父母都是小學語文老師。梁文鋒一直是學校裡的“尖子生”,並在數學學科表現出極大天賦,初中時期就學完了高中數學,甚至開始學大學的數學。

2015年,畢業於浙江大學電子資訊工程專業的梁文峰創辦了幻方量化基金公司。
和傳統基金公司不同的是,量化投資不靠人力來做買賣抉擇,而是在大資料基礎上,依靠人工智慧來買賣股票。
一位幻方量化的員工曾在公司部落格中寫道,老闆本人每天都在寫程式碼、跑程式碼。這是他們與其他公司的不同之處。
幻方量化成立僅僅6年,基金規模就突破了1000億元,成為國內量化私募的"四大天王"之一。
由於量化投資規模越來越大,複雜的模型計算開始面臨算力瓶頸,梁文峰的團隊開始尋求大規模算力解決方案,為後來推出DeepSeek奠定了基礎。
在基金公司賺取的利潤支撐下,梁文峰開始“不務正業”,大量採購英偉達的晶片,一家基金公司囤積了超過1萬張晶片。
這個數量比國內很多網際網路大廠還多,這也是梁文峰轉型的開始。
2023年初,公司資金管理規模已小於300億,不再處於量化投資的頭部。與此同時,公司加速向AI轉型。
2023年7月,梁文峰正式成立DeepSeek,進軍通用人工智慧領域,至今從未對外融資。
最近DeepSeek-v3大模型橫空出世,以1/11算力訓練出超過Llama 3的開源模型,震撼了整個AI圈。
緊接著,“雷軍開千萬年薪挖DeepSeek研究員羅福莉”的傳聞,也使得人們把目光聚焦向DeepSeek的人才。
全網都在好奇,DeepSeek背後究竟是一隻怎樣的團隊?
3.
沒有奇才但要打造奇才!
 DeepSeek核心成員是應屆生 /
“前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。”
此前,OpenAI前政策主管、Anthropic聯合創始人Jack Clark認為DeepSeek僱用了“一批高深莫測的奇才”,對此,梁文峰在接受自媒體採訪時也曾透露過,並沒有什麼高深莫測的奇才,都是來自Top高校的畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。
查詢各種資料發現,梁文峰說的是實話。DeepSeek裡面應屆生、在讀生,特別是來自清北的應屆生在其中非常活躍。
比如2024年12月底,有媒體報道,雷軍以千萬年薪招攬一名“天才AI少女”來領導小米的AI大模型團隊。
這位95後“少女”名叫羅福莉,過去兩年供職於DeepSeek團隊,曾參與DeepSeek大模型的關鍵研發。
羅福莉在北京大學讀計算語言學碩士期間,曾因在ACL(國際計算語言學協會)學術會議上發表多篇論文而受到關注。
畢業後,她進入阿里巴巴達摩院,從事預訓練語言模型相關的工作。2022年加入深度求索母公司幻方量化,之後成為DeepSeek大模型專案成員。
DeepSeek-v3的出現,讓很多人以為,DeepSeek團隊必然有“大牛”坐鎮。但羅福莉走紅卻讓外界發現,真正的“大牛”是那些像她一樣的年輕人。
DeepSeek團隊規模並不大,不到140人,工程師和研發人員幾乎都來自清華大學、北京大學、中山大學、北京郵電大學等國內頂尖高校,鮮有“海歸”,而且工作時間都不長,不少還是在讀博士。即便是團隊的管理者,也非常年輕。
他們中的一些人,2024年一邊在DeepSeek搞研究,另一邊新鮮熱乎的博士學位論文剛評上獎。
他們中有的參與了從DeepSeek LLM v1到DeepSeek-v3的全程,有的只是實習了一段時間也做出重要成果。
為DeepSeek提出MLA新型注意力、GRPO強化學習對齊演算法等關鍵創新的,幾乎都是年輕人。
在組建DeepSeek團隊時,梁文鋒招人的原則是“看能力,而不是看經驗”。
之前梁文鋒的訪談裡提到過這隻團隊的運作結構:
不做前置的崗位分工,而是自然分工;
每個人對於卡和人的調動是不設上限的,每個人可以隨時呼叫訓練叢集,只要幾個人都有興趣就可以開始一個專案;
當一個idea顯示出潛力,也會自上而下地去調配資源。
在AI圈爆火後,“找他們的人踏破門檻了”,在深度求索的“官方交流98群”群公告寫道,“暫不對外進行專案合作,不提供私有化部署及相關支援服務;DeepSeek將集中研發精力奉上更強的模型,盡情(敬請)期待!”
外界對神秘的DeepSeek充滿了好奇和期待,而DeepSeek是家極為低調的創業公司,一度遊離在主流視野之外。
即使在2024年12月上線並同步開源DeepSeek-V3模型之後突然爆火。深度求索卻選擇了“深潛”,不想與外部有任何形式的交流互動。
正是這樣一家低調的公司不僅對全球AI產業帶來了顛覆性效應,而且這群年輕人的參與還讓大家看到了中國經濟向高科技轉型升級的希望所在。

要想每天都能看到八妹的文章,記得點亮“星標”
—end—

金八傳媒往期獲得獎項


*歡迎掃描下方二維碼
內容及商務合作,請聯絡八妹微訊號:bameihezuo

極揚文化,是一家新媒體、新消費為主業的新三板掛牌公司(股票程式碼:873375),旗下金八媒體矩陣包括金融八卦女、新10億商業參考等,超過1100萬用戶選擇關注我們的新媒體。

由於微信改版,公眾號文章不再按時間順序推送文章,而是根據權重推送。 


如果您還希望經常看到我們的文章,記得點在看和給八妹新增一個“星標”哦!

相關文章