克雷西 一水 發自 凹非寺
量子位 | 公眾號 QbitAI
DeepSeek招人,登上熱搜第一!

啥?不限專業、經驗,本科應屆生都能年薪百萬了。
從BOSS平臺上一開始公佈的在招崗位可以看到,最高薪資達到了110k×14,本科最高也有90k×14。

甚至連實習生也是500元一天起招,按每月20天算可以月入萬元,最高還有一千元的日薪。

難怪乎一眾網友流下了羨慕的淚水。

還有人連連感慨,AI就像當初的網際網路,又有人將吃到時代紅利了。

不過截至發稿前,BOSS平臺上DeepSeek的招聘職位已清空,目前尚不清楚具體原因。

當然,這並不影響我們藉此扒一扒DeepSeek的招人要求和人才理念。

本科應屆起步,不看經驗只看能力
仔細閱讀DeepSeek放出的招聘資訊,會發現除了個別崗位需要碩士學歷之外,大多都是本科起招。
而且英雄不問出路,不管是什麼專業、有沒有工作經驗,DeepSeek的大門都向你敞開。
即便是核心系統的研發工程師,90K、14薪,也就是年薪126萬,也依然是本科起步。

實際上,不僅是新招人遵循著這套標準,DeepSeek的既有團隊同樣十分年輕。
去年初,DeepSeek推出V2的時候,雖然不及R1一般潑天的熱度,但在業內也引起了不小關注。
當時,Anthropic聯創Jack Clark就認為,DeepSeek v2的背後一定有一群“高深莫測的奇才”。
但很快,DeepSeek創始人梁文鋒就在一場訪談中否認了這一猜測。
並沒有什麼高深莫測的奇才,都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。
到了現在的v3和R1也是如此,應屆生、在讀生,特別是來自清北的應屆生在其中非常活躍。
他們中的一些人,2024年一邊在DeepSeek搞研究,另一邊新鮮熱乎的博士學位論文剛評上獎。
為DeepSeek提出新型注意力MLA(多頭潛在注意力)、GRPO強化學習對齊演算法等關鍵創新的,也無一例外都是年輕人。
甚至有的只是實習了一段時間,也做出了重要成果。
比如剛剛被頂會ICLR 2025接收的一篇論文,透過強化學習和蒙特卡洛樹搜尋研發了一個專門用於數學證明的模型,在相關資料集(miniF2F-valid)上取得了60.2%的透過率,而GPT-4只有25%。
這篇論文的第一作者,在DeepSeek的身份就是一名大四實習生,於去年上半年在DeepSeek實習,論文首次發表時間剛好是實習期結束,現在這名作者已經開始讀博。

這或許也解釋了DeepSeek願意給實習生開出千元日薪的緣由。

DeepSeek大膽採用沒有經驗的年輕人的原因,梁文鋒在訪談中也進行了解釋。
如果追求短期目標,找現成有經驗的人是對的。但如果看長遠,經驗就沒那麼重要,基礎能力、創造性、熱愛等更重要。
我們招人有條原則是,看能力,而不是看經驗。
再回過頭來看DeepSeek的招聘需求,不難發現表面上“三不限”的崗位,實際並不簡單。
不僅要對各類AI模型有十足的瞭解、掌握相關的程式語言,有些崗位甚至要求發表過頂刊或者在知名競賽中獲獎。

如此一來,DeepSeek團隊雖然在年紀和資歷上淺了一些,但無論能力還是成果都可圈可點。
也正是這支年輕的團隊,把DeepSeek抬到了OpenAI的同一張牌桌。
而實際上,DeepSeek的年輕化不只體現在年齡。
不設前置分工,計算資源人人可用
如果從崗位維度看,“全棧工程師”在DeepSeek的招聘列表中佔據了可觀的比重。
關鍵是,崗位描述沒有那麼多的條條框框。

從招聘介紹中管中窺豹,DeepSeek內部的管理模式也主打一個chill。
梁文鋒介紹,員工被DeepSeek錄取之後就會開啟“放養模式”,交給他重要的事,但不設KPI、不做干預,讓他自己想辦法、自己發揮。
當然,在這個過程中,人員和算力的需求,DeepSeek都會給予滿足。
我們每個人對於卡和人的調動是不設上限的。如果有想法,每個人隨時可以呼叫訓練叢集的卡無需審批。同時因為不存在層級和跨部門,也可以靈活呼叫所有人,只要對方也有興趣。
前面提到的MLA注意力機制,就是一個很好的例子,它出現的契機,就是一個偶然。
梁文鋒介紹,在總結出注意力架構的一些主流變遷規律後,這位年輕人突發奇想去設計一個替代方案。
面對這種“偶然”,DeepSeek給予了全力支援,為此專門組建了一個團隊,用數個月的時間把這個想法變成了現實。
再繼續深入下去,DeepSeek的核心也顯得年輕而極具理想主義。
梁文鋒表示,DeepSeek的目標很明確,就是不做垂類和應用,而是做研究、做探索。
在許多大模型創業者轉向應用的大趨勢下,這樣的選擇極有可能是艱辛的。
但在DeepSeek的視角中,搞大模型不能總是依靠拿來主義來賺快錢,而是要推動真正的技術創新。
這又從另一個角度解釋了DeepSeek團隊年輕化的一大原因——
在經濟效益不做優先考量的情況下,創新需要信念來作為支撐,而年輕人,無疑是最具信心、最朝氣蓬勃的一個群體。
擁有上萬塊GPU,天價招人不稀奇
有了理想,當然要在此之上進行投入,實際上,DeepSeek無論在人才還是在算力資源上,都可謂非常不吝成本。
前面我們也提到,DeepSeek打出了計算資源人人可用這塊招牌,招聘中也明確提到了相關算力支援。

那麼,DeepSeek實際上有多少算力資源呢?
透過挖掘知名半導體研究機構Semianalysis釋出的一份解析報告,我們能夠進一步獲悉:
(據報告推測)DeepSeek擁有約5萬塊Hopper GPU,其GPU投資超過了5億美元。
(Hopper GPU是英偉達專為高效能計算和AI研發的下一代資料中心GPU架構,其名字是為了紀念已故計算機科學家Grace Hopper)

不過報告也提醒,5萬個Hopper GPU≠5萬個H100。
具體來說,報告推測DeepSeek擁有約1萬個H800和1萬個H100,並且還訂購了更多的H20。
這些GPU將在幻方量化(DeepSeek背後公司)和DeepSeek之間共享。

與此同時,報告還對之前盛傳的“DeepSeek V3的訓練成本僅為600萬美元”作了解釋。
這個數字其實是片面的。它只是預訓練過程中GPU的花費,僅為模型總成本的一部分。
研發費用以及硬體本身的總體擁有成本等重要部分並未包含在內。
具體而言,報告分析認為DeepSeek在硬體上的支出遠超過5億美元,而且為了開發新架構,團隊需要花費大量資金和算力。
比如在DeepSeek降本的關鍵——MLA機制,前期就有大量人力及GPU計算時間被投進去,耗時長達數月。
當然這種投入也獲得了回報,在後續研發過程中,每次查詢所需的KV快取減少了約93.3%。
所以,即使加上硬體和前面提到的人力成本,DeepSeek在價效比這事兒上仍有相當大想象空間。
這不,春節假期還沒結束,最近幾天騰訊雲、阿里雲、百度智慧雲等各大雲計算都在搶著上架DeepSeek模型。
如此巨大關注下,能夠開出天價招人也就不奇怪了。

參考連結:
[1]
https://semianalysis.com/2025/01/31/deepseek-debates/[2]https://www.zhipin.com/gongsi/job/ffd531b0cbd4133f1XN92Nm0EFU~.html?ka=company-jobs
[3]https://finance.sina.com.cn/tech/2025-01-26/doc-inehhksk9178057.shtml
– EOF –
關注「程式設計師的那些事」加星標,不錯過圈內事
點贊和在看就是最大的支援❤️