

2024年末,一位年輕的科技創業者火了。
近日,中國科技行業因一位85後青年登上《新聞聯播》而徹底沸騰。
作為AI初創公司深度求索(DeepSeek)的創始人,他罕見現身某場國家級高規格座談會,並在現場發言。
發言照片隨即在各大社交平臺瘋轉。
所有人都在好奇:這位年輕人到底分享了哪些可能影響全球科技未來走向的深度見解?

他就是將開源模型做到全球第一、價效比力壓估值1570億美元的獨角獸OpenAI的“浙大天才”——梁文鋒。
他和DeepSeek曾在一夜之間引爆矽谷,震驚全球,而他們開發的大模型 “DeepSeek-V3” 也被海外稱作“來自東方的神秘力量”。

讓矽谷失色的中國團隊
2024年,斯坦福在大模型評測中納入DeepSeek-V3。其技術白皮書顯示: 綜合表現接近GPT-4,但成本僅為後者的1/20。(據SemiAnalysis推測GPT-4成本約1.1億美元)
“這也太不科學了!”評論區裡某矽谷工程師的驚歎瞬間炸開。
更不可思議的是, DeepSeek只用了2048張H100的GPU叢集(同行平均約需要1.6萬張),用時也僅花了53天!
外媒評價道:“DeepSeek-V3的價效比優勢,標誌著中國AI公司首次在基礎層創新上威脅矽谷主導地位。”

而看到DeepSeek背後的團隊,矽谷更是站不穩了——
事實上,網上關於創始人梁文峰的報道非常有限,他17歲考上浙大之前的經歷,就像一片空白,查不到公開資料。
根據《人物》雜誌報道,梁文峰2002年考入浙大電子資訊工程專業,常常泡在實驗室研究機器視覺,甚至自費購買零件組裝裝置。
他的一位校友回憶:“當時AI在國內還是冷門領域,他卻堅信這是未來,連畢業論文都聚焦於低成本攝像機的演算法最佳化。”在大模型聞所未聞的時代,他就已經自學成才,成為一位“建模達人”了。

據披露,這支讓矽谷色變的核心團隊,主要是由兩類人組成:
一類是頂尖高校的“學術深耕者”:多位核心成員來自浙大、中科大等國內高校的AI實驗室,他們在自然語言處理、強化學習等領域的論文被ICML、NeurIPS等頂會收錄;
另一類是產業界的“技術實用派”:包括從華為、阿里轉型而來的工程師,擅長將學術成果轉化為工業級應用。
此前因為雷軍「天價招人」而大火的95後AI天才少女羅福莉,她被挖出曾經是DeepSeek的成員,參與研發了達模型DeepSeek V2。

任憑梁文鋒再低調,他的鋒芒再也藏不住了。

“不敢”的基因,
從商業到教育
梁文峰在2024年DeepSeek的開發者大會上說:“我的父親是一名小鎮數學老師,他從不問我考試排名,只問‘今天解決了什麼問題’——這種對解題本能的呵護,是我後來敢於挑戰技術無人區的底氣。”
在DeepSeek杭州總部的展示廳裡,陳列著一臺90年代的“飛躍牌”收音機——那是梁文峰初中時拆裝過37次的實驗品。邊上的標籤寫著:
所有偉大的創新,都始於對現狀的“不合理”拆解。
“創新首先是一個信念問題。為什麼矽谷那麼有創新精神?首先是敢。”
Chatgpt出來時,整個國內對做前沿創新都缺乏信心,從投資人到大廠,都覺得差距太大了,還是做應用吧。
這種“不敢”的基因,正在從商業領域滲透到教育。
記得去年我在上海某學校旁聽“AI創新課”,看到觸目驚心的一幕:當學生試圖修改程式碼,老師立刻制止:“你們會搞壞系統!照著教材呼叫API就行。”
同一時間,在美國MIT媒體實驗室裡,學生被鼓勵拆解GPT-4程式碼,2024年有17%的AI頂會論文,源於此類“破壞性試驗”。
梁文峰在2023年世界人工智慧大會上演講直指痛點:“過去我們總說中國AI落後美國1-2年,但真正的差距是原創與模仿的差距。”
當我們還在教孩子呼叫API時,矽谷的中學生已在用PyTorch重構transformer。

這種反差讓我想起兩個中美家庭,一個普通的夜晚:
在矽谷Palo Alto,15歲的華裔男孩在車庫苦苦鑽研大模型,父親雖看不懂程式碼,卻默默升級了網路頻寬。並在深夜端來一碗雲吞麵:“你爺爺說廣東人最敢闖,別輸給老家人啊。”
而在北京海淀,某重點中學學生用大模型幫視障同學開發導航工具,卻被母親嗤之以鼻:“競賽拿獎才是正經事!做這些事情能申藤校嗎?”

“我們這一代人的思維包袱確實太重了。”一位曾反對兒子參加機器人社團的父親懺悔說,他的孩子後來考上加州理工,卻在入學三個月後抑鬱休學:“他說感覺自己像臺被預設好路徑的掃地機器人,永遠在別人畫的框裡打轉。”
或許這就是教育的悖論:當我們拼命給孩子安裝“成功模組”時,真正的創新者卻在笨拙地拆解自己。
作為家長,我們不需要懂transformer架構或Scaling Law,但至少要守護好孩子眼中那簇“敢”的火光。
當他說要造會飛的汽車,別急著計算藤校錄取率,先問:“需要爸爸幫你找鈦合金材料嗎?”
當她在作業本上畫滿外星程式碼,別怒吼“好好寫作業”,不如說:“媽媽看不懂,但覺得特別酷。”

給錯誤留一扇門
在深夜的DeepSeek杭州總部,一群工程師正在覆盤一場“代價60萬美元的事故”:12張H100因非常規引數設定過載損壞,但他們的討論焦點卻是GitHub頁面:
“這是我們第47篇開源技術避坑指南,下載量3287次,19個國家開發者提交了改進建議。”
在DeepSeek的文化手冊裡,寫著一條反常識規則:“所有失敗實驗必須產生兩份資產——一份內部技術報告,一份全球開發者可複用的開源指南。”
後來,2023年的資料清洗事故催生了《多語言語料預處理標準》,被團隊稱為“錯誤副產品”。
該標準被LlamaIndex、Hugging Face等12個社群引用,並列入斯坦福CS324課程“資料處理”案例庫。
“我們不是在為錯誤買單,而是在投資認知基礎設施。”
創始人梁文鋒在2024中國人工智慧大會上,指著一塊燒燬的GPU晶片說:“就像這片矽晶體,它的物理壽命結束了,但催生的安全協議正在保護多個研究機構的訓練叢集。”
但我們的教育,通常只會歌頌成功,逃避失敗。
曾有位矽谷華裔母親,為讓女兒進入天才班投入巨大財力,卻因孩子偷偷參加一場幾乎沒有勝算的辯論大賽,勃然大怒:“你知道斯坦福錄取率只有4%嗎?有時間不如多刷幾套題!”
事實證明,很多看似錯誤的嘗試,恰恰是創新的溫床。或許,我們應該允許孩子“多犯一些錯誤”,給錯誤更大的寬容。
其實,學習中最寶貴的不是正確答案,而是讓每個錯誤找到其歷史座標。

重新定義優秀:
在廢墟上點燃野火
公開報道顯示,DeepSeek的招聘原則和梁文峰的創業理念高度一致。
-
首先,拒絕“唯學歷論”,據不完全統計,2023年錄取的工程師中,有11%來自非985/211院校; -
其次,強調“動手能力”,網傳面試時會要求候選人現場最佳化一段開原始碼; -
同時,獨特的“算力自由”政策:網傳成員無需審批即可呼叫千卡級GPU叢集,這一機制曾幫助團隊在3天內完成關鍵模型的壓力測試。
他招募的工程師可能沒有光鮮的履歷,但有人會為最佳化一個演算法連續鏖戰三年,也有人把除錯模型當作解謎遊戲。
重新審視一下我們傳統教育中的評價體系:當孩子痴迷於“非主流”領域時,我們是否有勇氣像梁文鋒一樣,讓他們“隨意呼叫GPU叢集”般地盡情探索?
頂尖人才從來不是被篩選出來的,而是被“允許瘋狂”的環境滋養出來的。
這讓我想起在某個精英家長聚會上,聽到的一個似乎很像段子,但卻真正發生過的一段對話——
李太太率先說:“我兒子在約翰霍普金斯修雙學位,教授說他是十年一遇的天才!”
張總不甘示弱:“我女兒16歲發了SCI,學校還要給她立雕像呢!”
只有角落裡的陳先生輕輕說:“我女兒用了三年時間,在非洲村莊搭了12座太陽能AI農場。雖然沒什麼獎項,但上個月她收到了 Google的實習邀請……”
父母的託舉,希望培養出怎樣的孩子?我相信大家應該有自己的判斷了吧。


結語
作為父母和教育者,我們或許無法預知孩子將來能有多大的成就。但至少可以做到:
當孩子說“我想用AI改變世界”時,不要再回答“先考上清華再說”。真正的教育,從相信每一個“不可思議”開始。
真正的教育者,不需要給出所有答案,只要在孩子說“我想改變世界”時,能輕聲回應——
“去吧,記得回家吃飯。”
本文部分內容由Deep Seek生成。
▼精英說今日影片推薦


你“在看”我嗎↓↓↓