DeepSeek-V3釋出不到一個月,DeepSeek公司再度重磅出擊。2025年1月20日,DeepSeek公司正式釋出了深度推理版本——DeepSeek-R1。新產品一經亮相,迅速引發行業熱議,再次掀起技術領域的浪潮。
自2024年5月6日 DeepSeek-V2 釋出,引發行業巨頭大模型降價;到12月26日DeepSeek-V3上線,引起矽谷廣泛關注;再到如今DeepSeek-R1的釋出。自R1釋出以後,DeepSeek已成功登上中國和美國蘋果應用商店的免費應用榜單第一位。在美國市場,DeepSeek已超越ChatGPT,標誌著中國AI產品在全球市場上實現了歷史性突破。而在中國市場,DeepSeek也超越了豆包。
對此,梁文鋒坦言:“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。”而他的每一步,總能攪動行業風雲。在行業普遍延用 LLaMA 架構時,他提出了全新的 MLA 架構;在巨頭們砸下巨資打造大模型時,他以不足 ChatGPT-4o 十分之一的成本(僅 557.6 萬美元)訓練出DeepSeek-V3;在人才爭奪戰中,他的團隊只有 139人,均來自國內頂尖高校。
坐擁曾經突破千億私募、躋身“量化四大天王”之列的幻方量化;建立被矽谷稱作“來自東方的神秘力量”的DeepSeek,梁文鋒正用自己的節奏,在美國主導的AI行業中開闢出一條中國的道路。

梁文鋒做主題演講,圖片來源:新華社客戶端
大學畢業搞錢,締造量化王國
梁文鋒於1985年出生在廣東湛江的一個普通家庭。他曾自己透露,父親是一名小學老師。目前,網路上關於梁文鋒兒時求學經歷的資料相對稀少,這為他增添了一層神秘感,也讓人更加好奇他如何從普通起點邁向科技與量化投資的巔峰。
據公開資料,2002年9月,梁文鋒考入浙江大學電子資訊工程專業。在校期間成績優異,對數學和計算機都表現出了極大的興趣。畢業一年後,2007年,梁文鋒考入浙江大學資訊與通訊工程專業的碩士研究生。
在讀研究生期間,梁文鋒和當時的同學,也是後來的合夥人徐進發現,股票交易所可以做外掛炒股軟體,於是幾個同學就商量著在實驗室自己動手。據徐進回憶,他們當時也是國內做量化最早的一批。起初股票收益盈虧不定,透過對每筆交易深入研究和修正最佳化,這幾個研究生終於嚐到了甜頭。
2010年,滬深300股指期貨的推出,為量化投資帶來了發展的春天。據悉,藉助這一契機,梁文鋒團隊迅速抓住市場機遇,實現了豐厚收益,自有資金突破5億元。直到2014年,他們透過程式炒股積累了人生的第一桶金。
2015年4月,中證500股指期貨上市,中國進入量化私募2.0時代。同年6月,經過一年多的考察與思考,梁文鋒與徐進終於決定進軍量化私募,成立杭州幻方科技有限公司(現為浙江九章資產管理有限公司)。除了演算法交易服務之外,還為後續發展,如基本面研究和人工智慧研究進行佈局。
對大多數A股投資者來說,這個成立的時間點有著特殊的意義。就在第二天,上證指數盤中創下了這一輪大牛市的峰值——5178.19點。然而,這也成為一輪大熊市的起點。就在這一輪劇烈動盪的行情中,不少私募新星從神壇跌落。而對於幻方量化等眾多量化私募來說,這場突如其來的大熊市卻成為了難得的機遇。
不到一年後,梁文鋒與徐進於2016年2月,又創立了寧波幻方量化投資管理合夥企業(有限合夥)。至此,幻方量化的格局初步形成。
大熊市的市場環境無疑為幻方量化的發展提供了絕佳的沃土。“機會總是留給有準備的人”,這句話用在幻方量化身上再合適不過。幻方量化早期產品的業績表現格外亮眼。以‘幻方永途01號’為例,自2015年10月16日成立至2017年8月底,該產品累計收益率高達62.5%,遠超同期滬深300指數8.15%的漲幅。同時,其最大回撤僅為1.86%,展現出卓越的風險控制能力。
幻方量化的管理規模也隨著卓越的業績穩步攀升。據相關資料顯示,從2016年底突破10億元,到2017年達到30億元,再到2018年增長至60億元,最終在2019年邁上百億臺階。僅用四年時間,梁文鋒便成功帶領幻方量化跨越百億關口。
同年,High-Flyer Capital Management (Hong Kong) Limited(幻方資本)正式成立,並取得香港九號牌照,標誌著幻方在國際化佈局上的重要一步。
值得一提的是,2018年,幻方量化首次獲得由中國證券報主辦的第九屆私募金牛獎,該獎項被視為私募領域的重要榮譽。此後,幻方量化在梁文鋒的帶領下,連續五年獲得該獎項。
2021年,幻方量化更是實現了千億規模的飛躍,成功躋身國內量化私募的“四大天王”之列,進一步鞏固了其在量化投資領域的領軍地位。
提前佈局AI算力加持
回顧幻方的發展歷程,不難發現,梁文鋒對AI的前瞻佈局早已領先行業一步。
2016年10月21日,幻方推出了首個AI模型。據官網介紹,這一採用深度學習演算法生成的股票倉位模型正式上線實盤交易,計算基於GPU技術。而在此之前,梁文鋒團隊的演算法主要依賴線性模型和傳統機器學習演算法,且計算過程以CPU為主。
藉助 AI 賦能,幻方量化快速成長。隨後的一年中,幻方不斷擴充AI演算法研究團隊和AI軟硬體開發團隊,到2017年底,幾乎實現所有量化策略採用AI模型進行計算。到2018年,幻方正式確立以AI為核心的發展方向。
然而,隨著管理規模的快速提升,複雜模型的計算需求也開始暴露單機訓練的算力瓶頸。訓練需求的爆發式增長與有限的計算資源之間的矛盾日益突出。梁文鋒敏銳地意識到,必須儘快探索大規模算力解決方案,才能打破這一限制。
2019年,梁文鋒創立了幻方AI(幻方人工智慧基礎研究有限公司),並啟動了“螢火一號”AI叢集的自主研發。據悉,“螢火一號”的佔地面積相當於一個籃球場,搭載了500塊顯示卡,採用200Gbps高速網路互聯,其算力相當於4萬臺個人電腦。投資近2億元的“螢火一號”於2020年正式投用。
此後,梁文鋒進一步加碼算力佈局,啟動了“螢火二號”AI叢集的建設,累計投資高達10億元,配備了1萬張英偉達A100顯示卡。據相關報道,目前國內雲廠商的GPU配置以中低效能為主(如A10),擁有超過1萬枚A100晶片的企業屈指可數,而幻方更是行業唯一。
外界對他的大膽決策充滿好奇:是什麼樣的膽識和洞察力,讓他如此豪擲重金?對此,梁文鋒在一次採訪中回應道,這並非複雜的商業邏輯,而是出於對未知的好奇。他認為,算力、模型和資料是推動AI發展的核心,而儲備儘可能多的算力,是為了支援更大規模的實驗。

「螢火二號」機房,圖片來源:知乎
此時的梁文鋒關注的已不僅僅是如何將算力應用於量化投資,他的目光投向了技術的本質。他渴望探尋更深層次的問題:什麼樣的正規化能完整描述金融市場?是否存在更簡潔而優雅的表達方式?這些正規化的能力邊界又在哪裡?它們是否具備更廣泛的適用性?正是這些問題驅動著梁文鋒不斷挑戰AI能力的極限,以技術與算力為工具,追尋答案的深處。
探索AGI,DeepSeek登頂美區,震驚矽谷
2023年,梁文鋒宣佈正式進軍通用人工智慧(AGI)領域,並於當年5月創立杭州深度求索人工智慧基礎技術研究有限公司(DeepSeek)。首期研發投入由幻方自主出資30億元,同時由‘螢火二號’提供算力支援。
一年後,DeepSeek正式上線。隨著DeepSeek的快速發展,幻方量化主動縮減資金規模,逐步將對沖產品的投資倉位降至零。截至2025年初,幻方資金管理規模已縮減至不足300億元,退出行業前六名。
2024年5月6日,DeepSeek推出第二代大模型DeepSeek-V2,以極低的價格策略——每百萬 tokens 輸入1元、輸出2元,引發了行業轟動。其成本僅為GPT-4 Turbo的約1%,迅速攪動AI大模型價格戰,推動字節跳動、阿里雲、科大訊飛等巨頭相繼調整定價策略。外界雖有人質疑這是“賠錢賺吆喝”,但梁文鋒明確表示,這一策略源於技術進步帶來的成本下降,以及其“人工智慧應普惠大眾”的堅定理念。
事實上,梁文鋒並未將與大廠的競爭放在首位。在他看來,雲服務並非目標。他真正追求的是實現通用人工智慧(AGI)。為了這個目標,梁文鋒選擇跳脫模仿的框架,堅持走創新的道路。
於是我們看到,DeepSeek-V2不僅在價格上打破行業規則,更在技術上大膽革新。其核心採用自主研發的MLA架構(多頭潛在注意力機制),視訊記憶體佔用僅為傳統MHA架構的5%-13%。此外,稀疏結構DeepSeekMoE的引入進一步提升算力利用率。釋出後,DeepSeek-V2獲得國際關注,OpenAI 前員工 Andrew Carr 公開表示,他從 DeepSeek-V2 的論文中汲取了靈感,並將其訓練設定應用於自己的模型。SemiAnalysis 的首席分析師更是稱這篇論文“可能是今年最好的一篇”。
僅僅半年後,這個被矽谷譽為“來自東方的神秘力量”的團隊,於2024年12月26日釋出了第三代大模型DeepSeek-V3,採用6710億引數的混合專家模型(MoE),表現不輸GPT-4o和Claude 3.5等閉源模型,而訓練成本卻僅為557.6萬美元,不足OpenAI GPT-4(6300萬美元)的十分之一。
在這一過程中,DeepSeek始終堅持“開放”與“普惠”的理念。不僅完全開源DeepSeek-V3,不僅完全開源,還附帶一份長達 53 頁的論文,詳盡介紹了訓練細節。

圖片來源:51cto.com
本月,DeepSeek釋出了其最新的開源模型——R1。這款模型採用純強化學習等先進技術,打造出一款世界上最強大的模型之一,並且採用完全開源的策略,迅速成為全球矚目的焦點。任何人都可以檢查、修改並基於該模型進行開發。
DeepSeek-R1的效能在多個任務上媲美甚至超越了OpenAI頂級模型。例如,在AIME 2024數學基準測試中,DeepSeek-R1得分為79.8%,超過OpenAI-o1的79.2%;在MATH-500基準測試中,R1達到了97.3%,優於o1的96.4%。儘管Codeforces程式設計測試上R1以96.3%的成績略低於o1的96.6%,但其整體表現令人驚歎。

圖片來源:雷鋒網
更重要的是,DeepSeek並未依賴最新的計算晶片,而是透過技術創新取得了這些成果。團隊引入了多頭潛在注意力機制(MLA),將記憶體使用量降低至常見的多頭注意力機制(MHA)的5%-13%。此外,自主研發的稀疏專家混合模型(DeepSeekMoESparse)僅啟用必要元件,大幅提升了計算效率。R1模型儘管擁有6710億引數,但實際操作中僅啟用37億個,展現了驚人的算力最佳化能力。
此外,DeepSeek 的 API 定價再次展現出極高價效比,輸入和輸出 token 分別收費約 4 元和 16 元/百萬,而 OpenAI o1 的對應價格高達 110 元和 440 元/百萬,差距近 30 倍。
在釋出後不久,2025年1月27日,DeepSeek已成功登上中國和美國蘋果應用商店的免費應用榜單第一位。在美國市場,DeepSeek已超越ChatGPT,標誌著中國AI產品在全球市場上實現了歷史性突破。而在中國市場,DeepSeek也超越了豆包。

英偉達AI負責人Fan Jim在社交媒體上對DeepSeek-R1模型表示感嘆:“我們正處於一個非美國公司踐行OpenAI最初使命的時代——真正的開放、前沿的研究,為所有人賦能。DeepSeek-R1不僅實現了開源,還公開了全部訓練方法。”
而這樣一個被業界大佬OpenAI前政策主管、Anthropic聯合創始人Jack Clark形容為“僱傭了一批高深莫測的奇才”的團隊,其核心卻始終紮根於本土人才。
從量化投資起步,幻方量化由一支本土團隊構建而成;而在DeepSeek階段,這支團隊由國內頂尖高校的應屆畢業生、未畢業的博士生實習生以及剛畢業幾年的年輕人組成,總人數僅139人,遠少於OpenAI的1200人。梁文鋒曾公開表示:“V2模型完全由本土人才完成,沒有海外歸來的人。”即便當下領域中排名前50的頂尖人才可能不在中國,他依然堅信:“我們能自己培養這樣的人才。”
正是基於這種信念,梁文鋒從未尋求融資,而是以低調且堅定的方式專注於“最難的事”,同時以此吸引更多志同道合的頂尖人才。他還熱衷於慈善事業,積極回饋社會。2022年,幻方量化員工“一隻平凡的小豬”向慈善機構捐款1.38億元,外界普遍猜測這一捐款來自梁文鋒本人。不久前,幻方量化還向西藏日喀則地震災區捐贈了100萬元。
梁文鋒堅信,AGI(通用人工智慧)將在我們有生之年實現,而中國必須有人站在技術的最前沿。他曾感慨:“過去三十多年IT浪潮中,中國基本未能參與真正的技術創新。隨著經濟發展,中國必須逐步成為貢獻者,而不是一直搭便車。”
如今,梁文鋒正以實際行動踐行自己的信念,他引用法國新浪潮導演弗朗索瓦·特呂弗的一句話作為座右銘:“務必要瘋狂地懷抱雄心,同時要瘋狂地真誠。”

圖片來源:幻方AI微信公眾號
引用
1.浙江大學電信校友 2006屆電子資訊工程
http://www.zjuisee.zju.edu.cn/xyw/redir.php?catalog_id=62187&object_id=62777
2.浙江大學電信校友 2010屆研究生
http://www.zjuisee.zju.edu.cn/xyw/redir.php?catalog_id=62188&object_id=63079
3.走訪浙江九章資本(幻方量化)
https://www.ylcf.com.cn/simu/zx/87477.html
4.幻方官網
https://www.high-flyer.cn/history
5.“鯰魚”梁文鋒:左手幻方量化,右手DeepSeek
https://news.qq.com/rain/a/20240726A02WTJ00
6.第九屆中國私募金牛獎獲獎名單
https://epaper.cs.com.cn/zgzqb/html/2018-07/02/nw.D110000zgzqb_20180702_7-T01.htm?utm_source=chatgpt.com
7.“你降價,我免費”,大模型廠商“殺瘋了”
https://www.stcn.com/article/detail/1212172.html
8.揭秘DeepSeek:一個更極致的中國技術理想主義故事
https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg
9.瘋狂的幻方:一家隱形AI巨頭的大模型之路
https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA
10.AI人物傳:深度求索deepseek創始人梁文鋒
https://zhuanlan.zhihu.com/p/4107656151
11.那個囤了上萬張晶片的量化大佬,真開始幹事了
https://zhuanlan.zhihu.com/p/12983012079
12.從幻方到DeepSeek:梁文鋒如何成為大模型“價格屠夫”
https://news.qq.com/rain/a/20240806A0891V00
13.中國對沖基金富豪,衝到了AI科研的第一線
https://finance.sina.com.cn/money/fund/jjzl/2025-01-09/doc-ineekzhk9187646.shtml
14.10萬月薪招人,百億大佬進軍大模型
https://www.21jingji.com/article/20240619/herald/6901aac47479534b1b1462857986d31d.html
15.量化巨頭幻方攪局AI大模型:首期投入自有資金30億元
https://www.stcn.com/article/detail/1263664.html
16.國產之光DeepSeek把AI大佬全炸出來了!53頁論文技術細節大公開
https://finance.sina.com.cn/roll/2024-12-27/doc-ineawpix2704291.shtml
17.刷屏的DeepSeek,抄了英偉達的“老底”?
https://baijiahao.baidu.com/s?id=1820275053633606411&wfr=spider&for=pc
18.139位中國天才,做出一家讓矽谷震撼的公司
https://baijiahao.baidu.com/s?id=1821014331965516893&wfr=spider&for=pc
19.DeepSeek創始人梁文鋒,廣東人,17歲考入浙大,30歲創辦幻方,36歲管理千億私募,僅靠百名中國程式設計師,已趕超OpenAI
https://mp.weixin.qq.com/s/hgfvLRJzaTaSUjX8IrPAPg
20.ChatGPT算力消耗驚人,能燒得起的中國公司不超過3家
https://m.huxiu.com/article/811823.html
21.幻方量化:以IT能力為核心打造量化投資盛宴
https://www.simuwang.com/news/218976.html
22.浙大天才,震驚矽谷
https://mp.weixin.qq.com/s/2A0SDXXnKNveQVYDrfa4mQ
23.21 深度丨量化巨頭幻方攪局AI大模型:首期投入自有資金30億元
https://finance.sina.com.cn/roll/2024-07-19/doc-incesaex0904048.shtml
24.DeepSeek開源推理大模型R1:純強化學習實現接近OpenAI o1水平,成本降至1/30
https://baijiahao.baidu.com/s?id=1821910075732851287&wfr=spider&for=pc
25.DeepSeek-R1 最新發布,劍指 OpenAI o1
https://baijiahao.baidu.com/s?id=1821916523161314424&wfr=spider&for=pc
歡迎掃碼加群參與討論

———END——–
我們相信認知能夠跨越階層,
致力於為年輕人提供高質量的科技、資本和商業內容。
