DeepSeek-R1持續震撼矽谷:躋身競技榜前三,創始人梁文鋒採訪被“拿放大鏡”看

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
轉載自 | 量子位
作者 | 明敏
“神秘東方力量”DeepSeek給矽谷帶來的影響,還在不斷泛起漣漪——
剛剛,DeepSeek-R1躋身大模型競技榜前三。
以開源、便宜20倍的“身價”與ChatGPT-4o(2024.11.20)並列。
在複雜提示詞/風格控制榜單上,R1位列第一。
目前結果來看,它在各個維度上都保持領先。
在衡量模型程式設計開發能力的WebDev分榜上,R1位列第二,與閉源的Claude 3.5 Sonnet相差不到40分。
網友實測體驗表示,確實如此,R1在30場battle中只輸了4、5次。
另一邊,矽谷對DeepSeek的好奇不減。
畢竟,它可是一個“副業”。
創始人梁文鋒的中文采訪更是被翻譯成英文,“拿著放大鏡”逐字認真閱讀。
他提出的觀點也被總結成箴言,在網際網路上流傳。
真正的差距不是1年或2年,而在於是原創還是模仿。
圖靈獎得主LeCun也為DeepSeek做出中肯評價:

它代表了開源的力量。

這意味著,開源模型正在超越專有模型。

值得一提的是,同為開源領域代表的Meta剛剛公佈了2025年在AI領域的佈局計劃:650億美元,投算力、投人才。
有爆料稱,Meta內部已經因為DeepSeek感到恐慌。

“他們讓OpenAI一次又一次看清自己”

所以,在矽谷視角里,他們更關心DeepSeek的哪些資訊?
最首要的莫過於,DeepSeek如何賺錢。
挖到的資訊有點出乎意料,或許DeepSeek還沒想賺錢的事。
控股DeepSeek的是幻方量化,他們有一批頂級科學家,有充裕的算力資源,DeepSeek其實是一個“副產物”。
在2023年末我就聽說他們在做DeepSeek。即使在當時的中國,還沒有人把他們當回事。
其次,為何DeepSeek能成功。梁文鋒在2023年5月2024年7月接受暗湧的兩次採訪,也被老外扒出來了。
他們最關心的五個方面分別是:
1、創新第一性原則:與其他致力於快速商業化的中國AI公司不同,DeepSeek專注於基礎的AGI研究和創新。他們認為,中國必須從全球人工智慧發展的“搭便車者”轉變為“貢獻者”。梁文鋒說,創新不完全是商業驅動的,還需要好奇心和創造欲。
2、革命性架構:DeepSeek V2中採用的新型MLA(多頭潛在注意力機制)架構,把視訊記憶體佔用降到了過去最常用的MHA架構的5%-13%,實現了成本大幅降低。它的推理成本僅為Llama 370B的1/7、GPT-4 Turbo的1/70。
這並不是為了挑起一場價格戰——他們只是在“成本上稍微有點利潤”來定價。這種創新架構繼續應用於V3和R1模型中。
3、獨特的公司文化和人才戰略:DeepSeek保持著一個完全自下而上的組織結構,為研究人員提供無限的計算資源,優先看創造熱情而不是證書。他們的突破性創新來自年輕的本土人才——中國本土的應屆畢業生和年輕技術人才,而非海外招聘。
4、致力於開源:儘管行業開始趨向於閉源模型(OpenAI和Mistral),DeepSeek仍致力於開源,並認為開源對於建立一個強大的技術生態系統至關重要。梁文鋒認為,在顛覆性技術面前,閉源形成的護城河是短暫的。
他們的真正價值在於建立一個具備創新能力的組織。
5、底層計算挑戰:儘管擁有足夠的資金和技術,DeepSeek也面臨來自底層計算的挑戰和壓力。目前公司還沒有新的融資計劃。梁文鋒認為,面臨的主要制約因素不是資金,而是高階算力的使用權,這些晶片對於訓練先進AI模型至關重要。
除此之外,採訪中的諸多細節也被網友認真品味。
原文中,梁文鋒被問道:怎麼看待做量化同時做大量基礎研發,不燒錢嗎?
他回答:一件激動人心的事,或許不能單純用錢衡量。就像家裡買鋼琴,一來買得起,二來是因為有一群急於在上面彈奏樂曲的人。
海外網友感慨:
這幫人是一群有點理想化的“技術狂”,他們堅信自己能搞出通用人工智慧(AGI),而且他們確實有這個資源和天賦。我真是太喜歡他們了!
此外也避免不了一些對比:
梁文鋒展現出一種完全不同的心態,他們的成功當之無愧,我也很期待看到他們一次又一次讓“OpenAI”認清自己。
當然放眼AI領域的整體發展,能夠看到DeepSeek,對於所有人而言或許都是興奮的。
儘管我忍不住覺得他們有點天真,畢竟在商業化上他們有點“自斷後路”。但看到一個團隊堅持理想並取得成功,確實讓人覺得很欣慰。
隨著R1的驚豔亮相,DeepSeek正在兌現自己所說的一切。拓寬技術邊界、堅持開源、專注於技術開發……
那麼,DeepSeek是如何走到現在的呢?

用AI做量化,再回到AI

梁文鋒本碩均就讀於浙江大學資訊與電子工程學專業。
2008年,梁文鋒畢業,開始帶領團隊使用機器學習等技術探索全自動量化交易。
當時量化在國內還是個新鮮概念,能否賺錢是個未知數。2010年滬深300股指期貨推出,量化投資迎來春天。據公開資訊顯示,梁文鋒團隊正是乘上這股東風,很快自營資金超過5億元。
與此同時,深度學習浪潮的齒輪開始轉動,人工智慧率先在矽谷爆發。
2015年,梁文鋒與校友共同創立幻方量化。僅僅1年後,他們就推出了旗下第一個AI模型,第一份由深度學習生成的交易倉位上線執行,使用GPU進行計算。
2017年,幻方量化宣稱實現投資策略全面AI化。
2018年,幻方量化確立AI為公司的主要發展方向。
AI加持下,幻方量化旗下基金回報率遠超同期滬深300指數。2019年,資金管理規模突破百億元。
2019年,梁文鋒在當年的金牛獎頒獎儀式上,發表主題演講《一名程式設計師眼裡中國量化投資的未來》,這是他少見的公開演講。
演講全文的確充滿“程式設計師視角”:
量化公司是沒有基金經理的,基金經理就是一堆伺服器。人來做投資決策的時候,它是一種藝術,要憑感覺。程式來決策的時候,它是一種科學,它有最優解。
也是這一年,幻方量化開始大規模佈局AI算力,搭建起“螢火一號”叢集。2021年,“螢火二號”落成。這樣的算力基建,成為如今DeepSeek快速奔跑的底層支撐。
2021年,幻方量化成為國內首家突破千億規模的的量化私募大廠,被稱為國內量化私募“四大天王”之一。
值得一提的是,在幻方量化的官網上,AI基礎科學研究始終佔據重要位置,包括在大模型浪潮前。
幻方量化曾表示,多年以來,該公司堅持把營收的大部分投入人工智慧領域,建設領先的AI硬體基礎設施,進行大規模的研究,探索人類未知的奧秘。
我們相信幾乎所有的創新都是從大膽嘗試和點滴積累中孕育而來。
2023年,幻方量化將下場做大模型的獨立新組織命名為深度求索,並強調將專注於做真正人類級別的人工智慧。
目標不是復刻ChatGPT,而是研究和揭秘AGI的更多未知資訊。
DeepSeek的故事也就開始於這一刻。
一個80後程序員在攪動中國量化市場後,完成資金積累,組建起年輕蓬勃的團隊,似乎又回到了他原本的起點、回到AI,但產生的能量正在全球掀起駭浪。

One More Thing

值得一提的是,幻方量化還長期向慈善機構捐贈,官網披露公司員工“一隻平凡的小豬”個人捐助 1.38 億元,支援 15 家慈善機構的 23 個公益專案,在全國範圍內幫助弱勢群體,促進社會的公平和發展。
爆料訊息稱,這個員工就是梁文鋒本人。

參考連結:

[1]https://www.reddit.com/r/LocalLLaMA/comments/1i6dlvj/inside_deepseeks_bold_mission_ceo_liang_wenfeng/

[2]https://www.threads.net/@yannlecun/post/DFNvN3euNEV?xmt=AQGzPcW8Rr7oXT6-rHIoKzBNL5x2PNnaprvJBL6uIhgoQA

[3]https://finance.eastmoney.com/a/202501223304127161.html

[4]

https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章