

小紀有話說:
文|周鑫雨
編輯|蘇建勳
來源|智慧湧現(ID:AIEmergence)

百名年輕天才,不賽馬,不帶團隊
聘請具有AI技術經驗的老將出山,是大多AI公司的選人策略。
比如王小川為百川智慧,搬來的是20年前的搜狗老班底;微軟出身的姜大昕,在成立階躍星辰之初,招徠的也是微軟亞研院的老同事。而零一萬物的聯合創始人名單,起初更是星光熠熠,包括:
出身微軟亞研院的黃文灝,前谷歌大腦首位研究軟體工程師、前字節跳動AI平臺負責人潘欣,以及前貝殼集團策略演算法中心負責人李先剛。
但DeepSeek,偏愛沒有工作履歷的年輕人。
一名曾與DeepSeek有過合作的獵頭表示,DeepSeek不要資深的技術人,“工作經驗在3-5年已經是最多的了,工作超8年的基本就pass了。”
比如,DeepSeekMath的其中三名核心作者,朱琪豪、邵智宏、Peiyi Wang,是在博士實習期間完成了相關的研究工作。再比如,V3研究成員代達勱,2024年才剛從北大獲得博士學位。

△代達勱。圖源:網路
沒有工作履歷,DeepSeek衡量年輕畢業生“優秀”與否的標準,除了院校,還有競賽成績。另有多名DeepSeek的第三方合作機構表示,DeepSeek對競賽成績看得非常重,“基本金獎以下就不要了。”
一名DeepSeek成員曾在網路上披露自己履歷:畢業於北大,在三場ACM/ICPC(國際大學生程式設計競賽)比賽均獲金獎。本科期間共發了6篇論文,兩篇共同一作,基本都是頂會。
2022年,幻方量化就開始為DeepSeek組建AI團隊。2023年5月,當DeepSeek正式成立,團隊已有近百名工程師。
如今,不包括位於杭州的基礎設施團隊,北京團隊的工程師也有百人規模。技術報告的致謝名單顯示,參與DeepSeek V3研究的工程師,已經有139人。
百人規模的團隊,與位元組、百度等動輒千人的模型雄兵,在人才規模上顯得捉襟見肘。但在“人才密度”的分量遠超“人員規模”的AI創新領域,不少人形容,DeepSeek是一支全員精銳的團隊。
如何管理、留住這一群年輕的天才?一方面,是粗暴地砸錢、給卡。
知情人表示,DeepSeek薪酬水平對標的是位元組研發,“根據人才能拿到的位元組offer,再往上加價。”
與此同時,只要梁文鋒判斷技術提案有潛力,DeepSeek給人才的算力,“不限。”
另一方面,DeepSeek採取的是相當扁平和“學院派”的管理方式。
上述獵頭表示,DeepSeek每個成員不帶團隊,而是根據具體的目標,分成不同的研究小組。組內成員之間沒有固定分工和上下級關係,“每個人都負責自己最擅長解決的部分,遇到困難就一起討論,或者向其他組的專家討教。”
梁文鋒曾在36氪的訪談中將這種組織形式形容為“自下而上”“自然分工”:“每個人有自己獨特的成長經歷,都是自帶想法的,不需要push他……當一個idea顯示出潛力,我們也會自上而下地去調配資源。”
行業內,不少創業者也將“扁平”,視作適用於創新業務的組織模式。“平等溝通對建立一個學習型組織很重要,淡化崗位身份會更鼓勵大家暢所欲言。”王慧文成立AI公司光年之外之初這樣表示。
OpenAI聯創Greg Brockman也曾提到,OpenAI的工作崗位沒有研究員和工程師之分,統稱為“Member of Technical Staff”。這意味著,主流意義上的“初級工程師”也能在研究專案中挑大樑。
一個“自然分工”的典型成果,就是讓V3訓練成本大降的關鍵訓練架構,MLA。梁文鋒提到,MLA最初來源於一個年輕研究員的個人興趣,“我們為此組了一個team,花了幾個月時間才跑通。”
與此同時,DeepSeek內部不賽馬——據一名接觸過DeepSeek團隊的AI從業者表述,這是為了杜絕賽馬造成的人力、資源浪費,“也不利於人才的留存和團隊共識的形成,賽馬機制造成的內耗太嚴重了。”

“想要創新,團隊必須擺脫慣性”
2023年,國內AI頂尖人才畫像的幾個標籤——學術大牛、大廠高管、創業老兵——都指向同一個用人標準:這些人才,需要被職級、產品影響力等職場標準驗證過。
但很明顯,2024年以來,AI行業的用人標準,正在產生變化。更多尚未經過職場驗證、剛畢業不久的年輕人,正走到臺前。
Sora其中一位負責人Aditya Ramesh曾在2024年智源大會上表示,OpenAI的招聘策略與其他組織非常不同,“我們更關注那些有高潛力,但可能還沒機會獲得正式學術成績的人。”
同樣,DiT(Sora底層架構)作者謝賽寧也提到,有很多非常成功的研究人員並沒有真正經歷所謂的傳統研究、正式的研究培訓。

△謝賽寧和Aditya Ramesh在智源大會上的對談。圖源:智源
類似的招聘觀念,也體現在DeepSeek的選人策略上。加入DeepSeek的年輕人,不少都沒有模型訓練的相關經驗,甚至不是計算機專業出身。
一名畢業於物理專業的DeepSeek成員曾公開提到,自己是一次偶然機會自學了計算機,“由於工作太前沿,幾乎沒有什麼參考資料,一切問題都是自己設計方案並實踐解決的。”另有一名DeepSeek運維工程師提到,加入公司前,自己是沒有任何相關經驗的“小白”。
“想要創新,團隊必須要擺脫慣性。”一名AI從業者表示,如今大部分國內AI公司,已經陷入了淺顯模仿OpenAI的慣性,演算法就選Transformer,訓練就遵從Scaling Law,“跟隨被驗證過的路徑,就能降低失敗的風險。”
但大家往往忽視,在被GPT-3驗證前,Transformer和Scaling Law也被視作是“瘋狂的事”。
“DeepSeek沒有給成員設定硬性的kpi,也沒有商業化的壓力,成員沒有太多模型訓練的經驗,反而能讓他們不會去抄OpenAI的‘標準答案’。”
上述從業者表示,一名DeepSeek的員工曾告訴他,“如今很少有廠商會調整Transformer去做文章,但DeepSeek對演算法架構的反思,是從第一天就開始的。MLA(DeepSeek自研的架構)其他廠商未必做不出來,但是他們不會想要推翻原有的正確答案。”
但他也坦言,DeepSeek的底氣,還是來源於充足的算力和錢,“所有的資源都投到模型訓練一件事上,他們沒有其他業務,也不燒錢做投放,省了不少錢。”
“DeepSeek不招有名的大佬,他們很少有創新的動力。”與DeepSeek曾合作過的一名獵頭總結,“曾經的成功者已經成功過了,他們身上有不允許失敗的包袱。創新的事,還是交給新人去做。”
*頭圖及封面圖來源於AI。
溫馨提示:雖然我們每天都有推送,但最近有讀者表示因平臺推送規則調整,有時候看不到我們的文章~
歡迎大家進入公眾號頁面,右上角點選“設為星標”點亮⭐️,收藏我們的公眾號,新鮮內容第一時間奉上!
*文章觀點僅供參考,不代表本機構立場

