01年實習生被曝負責位元組RL核心演算法!系位元組LLM攻堅小組成員

衡宇 發自 凹非寺

量子位 | 公眾號 QbitAI
一個超越DeepSeek GRPO的關鍵RL演算法出現了!
用上該演算法後,Qwen2.5-32B模型只經過RL訓練,不引入蒸餾等其他技術,在AIME 2024基準上拿下50分,優於相同setting下使用GRPO演算法的DeepSeek-R1-Zero-Qwen,且DAPO使用的訓練步數還減少了50%。
這個演算法名為DAPO,位元組、清華AIR聯合實驗室SIA Lab出品,現已開源
論文通訊作者和開源專案負責人都是一個叫Qiying Yu的人
Qiying Yu,何許人也?
量子位蒐羅網路公開資料,整理出以下資訊:
禹棋贏,01年生,本科畢業於哈工大,直博進入清華AIR,目前博士三年級在讀。去年年中,他以研究實習生的身份加入位元組首次推出的「Top Seed人才計劃」。
我們還從知情人士處得知了禹棋贏的另一重身份——
在位元組大模型團隊內部負責打造“能力顯著提升的下一代語言模型”的攻堅小組中,禹棋贏是唯一的實習生。
雖然是實習生,但在這個大神雲集的小組裡,禹棋贏被委以重任,直接負責RL方向的研究
憑什麼?
事情要從去年夏天說起。

去年10月,他在位元組第一個跑出aha moment

去年5月,位元組啟動「Top Seed人才計劃」,最終錄取多名應屆和在讀博士組成史無前例的AI研究團隊,禹棋贏就在其中。
為期2個月的warm up landing(類似可自由探索的適應期)後,禹棋贏錨定了自己的方向——大語言模型推理。
幾乎定下方向的同時,禹棋贏就和mentor王明軒確定,要做一個聰明的強推理能力模型。
這事兒和豆包大模型主團隊的專案並行推進,主要是禹棋贏一個人在探索。
更為關鍵的是,看到“取樣更多,弱模型準確率也可以很高”的現象後,他堅定以及肯定要用RL來做
不久之後的9月,RL與CoT結合使邏輯準確性和泛化能力大幅提升的OpenAI-o1就出現了。
方向沒錯!那就“沿這條路一直往後做”。
知己知彼,百戰不殆。禹棋贏開始花式拿o1跑case,比如挨個做IMO題(其中部分題目得到答案不難,嚴謹的證明過程才是得分點)
不跑不要緊,一跑起來問題就暴露了。
o1能給出正確答案,但是證明過程缺乏。
基於此,禹棋贏和團隊當時就賭了一把,判斷o1是純基於outcome supervision train出來的。
於是乎,禹棋贏get了一個與當時主流思路不同的強烈技術訊號:
用outcome based reward去做 RL
就這麼幹吧!接著就是基於位元組內部小模型和內部程式碼庫,用很少的GPU、學術界開源資料集,瘋狂迭代、瘋狂跑。
這一干還真給他幹出東西來了——
一開始,能把小模型的數學能力提升幾十分,超過內部最大、最強的模型。
後來,禹棋贏幾乎每天都會發現模型湧現出一些新能力,一些此前大夥兒一直想讓它有、但又可望不可即的能力。
現在,不需要構造任何東西,只需要透過RL,模型自己就能把這些能力湧現出來,甚至湧現複雜的類o1的推理能力
以至於那段時間禹棋贏非常興奮,每天拽著王明軒瘋狂討論到深夜。
他自己更是直接在會議室擺了張床住在公司。
雖然他和床的關係,在那1個多月裡其實是這樣的:半夜12點能躺下,但興奮得根本睡不踏實,凌晨2點又爬起來寫程式碼,可能5點多一個idea靈感乍現就又爬起來。
基本上每一夜都非常興奮地起來好幾次,就這麼醒醒睡睡,也不覺得累。
此處出現了一個關鍵的時間節點。
“大概十月十幾號,我們發現要模型輸出非常複雜的數學公式時,它會說This is very difficult and seems to lead a very complicated equation. Let’s try another approach。”禹棋贏覺得大模型這個反思過後換思維的行為很有靈性。
屏息凝神,他和王明軒盯著螢幕反覆確認,最終認定——這就是他們所追求的能力的雛形!
根據截圖,當時他們在文件裡敲下這麼一段話:
非常有意思。更加堅定地相信Outcome-based RL一定能激發出非常厲害的行為!!!
沒錯,DeepSeek-R1引人注目的Aha Moment(頓悟時刻),禹棋贏在去年10月在位元組內部跑通了。
據說,此後,禹棋贏被邀請進入LLM攻堅小組,並委以「負責RL方向」的重任

下一戰,“研究清楚RL的scaling規律”

以上細節,來自最近網際網路衝浪時在一個知乎話題下的意外發現。答主匿名,分享了在位元組大模型團隊Top Seed實習的經歷,從事RL方向。
經量子位求證確認,該答主就是禹棋贏。
沿著這條脈絡,我們在網際網路上搜集整理了禹棋贏的更多“戰績”
據HIT計算學部團委公眾號資料,禹棋贏是哈爾濱工業大學2018級本科生。
他以材料專業入學,中途轉到計算機科學與技術專業,主要研究方向為自然語言處理。
按照目前資料來看,這應該是名天賦型選手——大二才開始學程式設計,但同年就加入了博導車萬翔的科研團隊。
大四時,禹棋贏在左旺孟教授團隊以一作身份在ECCV上發表了一篇論文。
本科畢業後,禹棋贏直博清華,現在清華AIR博三在讀。
此前,他曾先在智源實習,作為核心作者產出了Emu、EVA-CLIP系列工作,跟隨的mentor是曹越(前光年之外聯創)和王鑫龍(智源研究院視覺模型研究中心負責人)
去年5月位元組開啟Top Seed計劃後,他在6月透過校企合作專案入選,成為首批Top Seed成員。
量子位獲悉,和禹棋贏同期的Top Seed實習生還有兩屆IMO滿分選手、LLaDA一作、 Buffer of Thoughts一作等人
這裡補充一句,前面我們提到過禹棋贏的mentor王明軒,就是去年量子位率先曝光的位元組大模型關鍵8人之一。

王明軒,圖源豆包大模型團隊公眾號
禹棋贏加入Top Seed後,就有了和王明軒一起發現aha moment,每晚討論到11點、誰也不想離開公司的難忘經歷。
後面在 LLM 攻堅小組,有一個好訊息,和一個壞訊息。
好訊息是,加入攻堅小組後,無論是工程上還是資料上得到的各方支援都更多了。
加上組織扁平,鼓勵end to end把模型、預訓練、後訓練打通,結合上下游去思考問題,整體交流非常高效。
“壞”訊息是,1月底,DeepSeek-R1從天而降。
禹棋贏在知乎帖中慨嘆,本來“那時每天都在認知突破與興奮中度過,但有點遺憾的是,到1月就被Deepseek打爆了hhh。”
倒不是心灰意冷,至少R1的出現表示一直堅定推進的路線沒有錯,DeepSeek團隊還把它做得很優雅,且實測效果非常優秀。
後來的測試結果顯示,如果選擇蒸餾可以立即提升推理效果,但當時為了真正弄清楚機理,禹棋贏和同事們還是選擇慢慢來,做長期的事情,step by step提升資料質量。
回看那段日子,禹棋贏覺得“記憶裡完全沒有疲憊”,興奮得睡不著覺的感受還歷歷在目。
“怕什麼真理無窮,進一寸有進一寸的歡喜。”他在知乎帖中寫道,團隊裡無論是工程還是演算法,都會把追求真理、追求技術本質的突破作為非常大的reward,大家會覺得這個很開心。
現在的禹棋贏又有了新的追求:他bet LLM RL技術towards AGI,接下來的目標是研究清楚RL的scaling

大模型行業,經驗不再是唯一籌碼

禹棋贏身上集合了太多tag,是現如今大模型一線極具代表性的縮影。
還有個更戲劇性的tag,必須要提的那種——
進位元組前,禹棋贏還在智源做多模態方向實習的時候,據說非常多一線大模型團隊的HR都給他和同事拋過橄欖枝。
那時候,禹棋贏是在DeepSeek和位元組中做的最終選擇
答案嘛,大家讀到這肯定都知道了。
之所以這樣選,禹棋贏自己說得很清楚,“位元組場景和資源豐富,探索空間足夠,上限夠高。”
而且和外界印象不一樣,新人在這裡也可以得到很好的nurture,“明軒、永輝經常來找我交流,我也可以說是在位元組讀的博”。
如果再來一次,面對DeepSeek,我還是會選ByteDance。

我覺得DeepSeek戰鬥力真的很強,但我會努力讓ByteDance勝算更大一點!

有點中二?有點燃?
這倒不是關鍵,關鍵是真的有地方能承接禹棋贏的高燃。
位元組對禹棋贏的重用,本質上是當下頂尖大模型團隊對“解決前沿問題能力”的極致追求——一個能在RL方向從0到1跑通關鍵技術的年輕人,即使身份只是實習生,也能成為攻堅戰中不可替代的突擊手。
這種情況在AI、在大模型這行並不是新鮮事了。
以實際解決問題的能力而非資歷定義價值的邏輯,早已經在重塑AI產業的人才座標系。
OpenAI從GPT-1開始就這樣,一作Alec Radford剛從非頂尖高校本科畢業,後來幾乎參與了OpenAI所有的重大突破;到GPT-4o、Sora,團隊半壁江山都是新人、年輕人。
DeepSeek也這樣,是清北應屆生撐起一片天。創業團隊更不用多說,大部分都是年輕畢業生組局。
現在又有了位元組TopSeed實習生禹棋贏這個例子。
他們的故事折射出AI大模型時代的全新圖景——經驗不再是唯一籌碼,好奇心與執行力才是通行證。
AGI領域,大片的未知領域等待探索。當一個新的模型架構或訓練方法被提出,無論是老法師還是新手村村民,都需要重新學習和適應。
另一邊,過往的權威方法論可能成為通往AGI的思維枷鎖。
年輕人雖然經驗相對缺乏,但不落窠臼,還擁有一些獨屬於初出茅廬者的特質:他們對技術直覺的信任高於既有正規化,有攔都攔不住的熱情與好奇心,對試錯成本懷抱極高的耐受度。
這一切對探索AGI來說,珍貴非常。
非常nice的事情就是,學界和工業界都很認這張通行證。
學界培養和重用年輕人。每個AI頂會上都誕生閃耀的新星;各大高校大模型相關專業,每年都有更年輕的人擔任教職,為後來者引路。
工業界歡迎和託舉年輕人。就拿位元組Top Seed這個大模型人才專案標杆為例,為包括實習生在內的年輕人提供充分算力資源、業界頂級待遇,不僅給予探索空間,還可以將研究轉為實際應用。
一條嶄新的、清晰的邏輯鏈擺在我們眼前:
當AGI探索進入無人區,誰離前沿和新的邊界更近,誰就能引領和定義規則,絕不論資歷和出身。

One More Thing

At last,看到這兒的朋友們有福了,來吃最後一口瓜
量子位獨家獲悉,今年位元組還會繼續Top Seed專案。
將由原谷歌DeepMind副總裁、現字節跳動豆包大模型團隊負責AI基礎研究探索工作的吳永輝親自帶隊
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章