發論文親自上?創業十多年,DeepSeek梁文峰的“技術男”屬性從沒改變

作者 | 褚杏娟  
2 月 18 日,DeepSeek 釋出了一篇新論文,提出了一種新的注意力機制——NSA。值得注意的是,創始人梁文鋒參與編寫並親自上傳了該論文。
根據論文介紹,DeepSeek 團隊將演算法創新與硬體適配最佳化相結合,以實現超快速長文字訓練。NSA 採用動態分層稀疏策略,將粗粒度的標記壓縮與細粒度的標記選擇相結合,以兼顧全域性上下文感知和區域性精度。NSA 針對現代硬體進行了最佳化設計,可以在不犧牲效能的情況下加速推理並降低預訓練成本。在通用基準測試、長文字任務和基於指令的推理中,NSA 與全注意力的模型水平相當甚至超過其效能。
這其實是梁文鋒的常規操作,有著很大影響力的 DeepSeek-R1 論文、DeepSeek-V3 論文都是他參與編寫和親自提交的。但由於梁文鋒一直非常低調,近期除了在央視鏡頭中,我們很難在其他場合看到他的身影。這次提交論文的舉動迅速引起了大家的廣泛關注,吸引走了對於 kimi 新論文和 Grok 3 釋出的很多注意力。
“DeepSeek 創始人梁文鋒會親自參與程式碼建設,這種‘創始人模式’(Funder mode)非常值得借鑑。”整數智慧創始人兼 CEO 林群書在 InfoQ 的一場直播中提到,“創始人衝在前線,親自解決問題,瞭解每個崗位的需求,從而更高效地配置資源。這不僅能快速解決問題,還能為公司爭取更多資源,解決其他同事難以應對的難題。”
企業家、投資人、頂級富豪等都是外界給梁文鋒的標籤,但他身上還有一個更大但可能被忽略的“標籤”:技術人。
梁文鋒其人,“典型的 IT 技術男”
梁文鋒 17 歲考入浙江大學電子資訊工程專業,2010 年獲得碩士學位,師從項志宇,主要做機器視覺研究。2009 年時,梁文鋒讀研期間以實習生身份入職上海艾麒。
周朝恩與梁文鋒是浙大校友,但梁文鋒的入職並非校友介紹,而是透過公開招聘和透過面試後留下來的。“我們都是以才能和熱情來錄取的,”周朝恩說道,“我看浙大畢業的,是人才,也有技術創新想法,所以把他留下來了。”
梁文鋒入職的部門彙集了艾麒資訊的編解碼演算法工程師和圖形演算法專家。剛開始,梁文鋒只是普通的演算法工程師,後來他所在部門的經理辭職去北京,並推薦了他做部門經理。周朝恩考察了他的才能,認為梁文鋒是可以勝任的,所以任命他成為了部門經理,月薪 16000 元,“算是高薪特別聘請的”。
根據周朝恩的回憶,梁文鋒是一個文靜內斂的人,平時話很少,只有在聊技術的時候話會變得很多,並且邏輯非常清晰,是“典型的技術男風格”。
“初見他時,他戴著一副眼鏡,斯文有禮,身材清瘦,給人一種文靜內斂的印象。入職後,他便全身心投入到人工智慧影片與影像技術的研究中,常常一整天都待在辦公室裡,專注地鑽研技術難題,甚至半天都不出來一次。與他深入接觸後發現,他雖不善言辭,但在技術交流中卻能清晰地表達自己的觀點,展現出強大的邏輯思維能力。他為人沉著冷靜,性格簡單直接,對產品和技術有著極高的追求,堪稱典型的技術男風格。”周朝恩說道。
當時,梁文鋒參與了新技術部的專案,該專案主要研究 100M CPU 的手機上影片編解碼並充分運用手機上 GPU 來高效處理影片等編解碼等技術。
梁文鋒從 2008 年就在研究量化投資,在艾麒任職期間他也在利用業餘時間悄悄為量化投資做準備,提前佈局。到了 2010 年 6 月 30 日,梁文鋒正式畢業後,就去繼續做量化投資的事情了。
“當時他說這塊研究已經成熟了,可以盈利了。”周朝恩說道。
離職前,梁文鋒和周朝恩進行了一次深入交流。周朝恩建議他未來要尋找那些毛利高的專案,這給梁文鋒留下了很深的印象。2013 年,梁文鋒開啟了自己的創業生涯。正如他說的確實盈利了,而背後的技術理念一直貫穿其中。
公眾號“聰明投資者”釋出的《我所見過的梁文鋒》一文中,展現了做量化投資時期的梁文鋒。“同事說他除了程式設計,沒有什麼其他的愛好。”文中也同樣提到,他確實不擅長閒聊,但到了專業領域能溝通到連細節也不避諱。
根據企查查資訊,2013 年 9 月,梁文鋒和浙大校友徐進創立了杭州雅克比投資管理有限公司,梁文鋒目前還是該公司的法人。2015 年 6 月,兩人成立了浙江九章資產管理有限公司,九章資產是幻方量化的核心組成部分。
根據公開資料,幻方量化在 2016 年 10 月 21 日推出了第一個 AI 模型,第一份由深度學習生成的交易倉位上線執行,並使用 GPU 進行計算。2017 年,幻方量化宣稱實現投資策略全面 AI 化。
2019 年,幻方量化資金管理規模突破百億元。梁文鋒在當年的金牛獎頒獎儀式上表示,量化公司是沒有基金經理的,基金經理就一堆伺服器。
梁文鋒當時給自己的定位就是“一名愛好量化投資的程式設計師。”他的演講圍繞著對技術的重視。他說道,“人來做投資決策的時候,它是一種藝術,要憑感覺。程式來決策的時候,它是一種科學,它有最優解。有人問,量化投資,以後還需要人類嗎?當然需要,需要大量的程式設計師和研究員。”
也是在 2019 年,算力短缺的幻方量化果斷投資 2 億元建成了“螢火一號”AI 算力叢集,該叢集搭載了 1100 塊 GPU 顯示卡。幾個月後,梁文鋒出手拿下了英偉達當時最新的 A100 晶片,成為亞太地區第一批拿到此卡的人。2021 年,幻方量化再度豪擲 10 億元建成 “螢火二號”,搭載了 1 萬張 A100 顯示卡。這為 DeepSeek 的研發打下堅實基礎。
“很多人會以為這裡邊有一個不為人知的商業邏輯,但其實主要是好奇心驅動,對 AI 能力邊界的好奇。”梁文鋒去年在暗湧的採訪中說道。
2023 年,在籌備 DeepSeek 之前,梁文鋒又回到艾麒資訊進行了一次調研。這次,梁文鋒主要想深入瞭解市場動態和海外需求,為新的創業做足準備。梁文鋒與艾麒的人員探討人工智慧相關技術將近 2 個小時。這次交流,雙方認識到海外市場對 AI 技術的需求旺盛且增長迅速,尤其是在大模型領域,海外企業已展現出顯著的技術優勢和商業化潛力。
在林群書看來,如果創始人本身很懂技術且公司是技術驅動的,比如像 DeepSeek 團隊或 ChatGPT 早期團隊,那麼他們的成功就主要依賴硬核科技,而非單純的產品設計。
“現在我遇到很多大區的 CEO,他們本身也是技術出身。其實,做技術的人往往更清楚技術的邊界,能夠更準確地判斷哪些技術適合商業化,以及為了實現商業化,技術需要達到何種程度。”林群書表示。
管理風格,從實習期延續至今
創業後,梁文鋒的管理風格也沿襲了在艾麒時期的習慣。在艾麒時,他就是採用扁平化管理方式,給予團隊成員充分的自由和信任,發揮每個人的特長,帶領團隊攻克了多項技術難題,比如優化了影像影片處理演算法、提升服務效能。
同樣地,DeepSeek 也是採取扁平化結構,減少管理層級,會給予員工充分的信任和自由度,鼓勵他們在職責範圍內自主決策,並倡導開放、協作的文化,鼓勵跨部門、跨領域的知識共享。
梁文鋒說的,“我們每個人對於卡和人的調動是不設上限的。如果有想法,每個人隨時可以呼叫訓練叢集的卡無需審批。同時因為不存在層級和跨部門,也可以靈活呼叫所有人,只要對方也有興趣。”這從《DeepSeek-V3 Technical Report》論文的貢獻者名單中就可以體現出來:僅名單就單獨佔了兩頁多,包括 150 位研發工程師、31 位資料標註人員和 18 位商務與合規人員。這在其他論文中是很難看到的。
對於 DeepSeek 被津津樂道的“員工可以自由用卡”方式,周朝恩表示,對於大廠或傳統企業而言,直接複製可能存在一定難度。由於資源調配涉及複雜的流程和多部門協調,完全放權可能帶來管理風險。但大廠可以逐步借鑑,在創新團隊或研究部門先行試點扁平化管理,提升團隊協作效率,降低管理成本,積累經驗後再逐步推廣。建立與創新成果掛鉤的激勵機制,鼓勵員工主動探索和嘗試。DeepSeek 的經驗為大廠提供了寶貴的參考,同時也為傳統企業的轉型提供了可行的路徑。
DeepSeek 招聘的團隊成員大多是數學競賽一等獎、拿過國際金牌的演算法人才。大廠通常關注的候選人的專案經驗在梁文鋒眼中並不重要,“(有)熱愛、紮實的基礎能力,其他都沒那麼重要。”梁文鋒曾表示。
在這樣想法的影響下,DeepSeek 確實招到了這麼一群研究員,他們在 x 上分享技術內容,Daya Guo 的一句感慨透露出了團隊春節期間也在忙碌但依然充滿熱情:“春節期間讓我最興奮的事情,是親眼見證了 R1-Zero 模型效能曲線的持續增長,並真正的感受到強化學習的力量。”
值得注意的是,《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》論文的第一作者 Jingyang Yuan 是在實習期間完成的這項研究。
網上面試過 DeepSeek 的開發者透露,DeepSeek 是其面過的很多家網際網路公司裡唯一會根據專業出 coding 的公司,面試連續 3 小時,對所有人都一樣的問題會問得很細,對於面試者參與專案的問題更關注完成專案時的思維方式。
“這種對高階人才的管理和激勵方式,使得他在量化投資和 DeepSeek 上能夠迅速組建一支高效、專業的技術團隊。”周朝恩評價。
而在《我所見過的梁文鋒》文中也提到了當時梁文鋒的招人風格:要找在專業領域能做超前和深度研究的人。“看他們在具體研究什麼領域,怎麼做 paper,對研究有沒有渴望。”他還提到,沒有給員工設定考核指標,“我們招人都會大家一起來看的……我覺得如果真的沒有做出貢獻,那是我們沒有把他 / 她放到合適的位置上。”這與 DeepSeek 的情況相似。
DeepSeek 可以稱得上典型創始人模式,就連公司實習生也是直接與他溝通。
去年 9 月,愛彼迎聯合創始人兼執行長 Brian Chesky 在一個講座中吐槽,許多人建議他“僱傭優秀的人,並給他們空間去完成工作”。他一開始採納了這些建議,但效果不盡如人意。“我越不親力親為,就越被捲入問題。等到我被捲入一個問題時,就像多了 10 倍的工作量。”
之後,YC 聯合創始人 Paul Graham 將 Chesky 的演講寫進了一篇部落格文章,並提出了“創始人模式”的概念。他表示,相較於只通過下屬掌控公司的職業經理人,親力親為的創始人更有利於公司的發展。這個理念隨後迅速在矽谷引起熱議。
但當未來 DeepSeek 發展到一定規模後,梁文鋒是依然深入到每個研發細節,還是轉向宏觀的戰略規劃?這個或許要留待時間給出答案。
 直播預告
2 月 11 日至 2 月 27 日,AI 前線影片號、InfoQ 影片號、霍太穩影片號帶來 DeepSeek 系列直播,解析 DeepSeek 爆火背後的技術突破、商業化路徑與行業影響。從 純強化學習復現 o1 能力到算力控制,從創新文化到 AI 競爭格局,每場直播都深度解析一個關鍵問題。
📅歡迎掃碼二維碼預約直播,一同探索 DeepSeek 如何引領 AI 領域的創新與未來!
 會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
你也「在看」嗎?👇

相關文章