剛剛,英偉達任命新首席研究科學家!95後,本科來自清華

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 新智元
編輯|定慧 好睏
就在剛剛,行蹤一向神秘的老黃終於出現了!
他與兩位華人在同一地點的合影,登上熱搜,而且這次老黃並沒有穿著他那標誌性的皮衣。
老黃這次「悄悄地」將這兩位華人AI大神收入麾下。

兩人的評論區都是各種大佬的恭喜,看都看不過來。
上下滑動檢視
透過比對照片背景,我們發現拍攝地點很大機率就在NVIDIA位於加州聖克拉拉總部園區的 「Voyager」大樓。(但尚未獲得官方確認。)
老黃的英偉達似乎正在醞釀什麼大事件?
這兩位華人大神的背景都非常硬核,並且共同創辦了一家公司Nexusflow,致力於為企業構建智慧體。
Banghua Zhu是華盛頓大學電子與計算機工程系(ECE)助理教授,並在計算機科學與工程系(CSE)兼任教職。
他曾在2023年聯合創立了Nexusflow AI。
這一次他以首席研究科學家的身份加入英偉達的研究部門的Star Nemotron團隊。
Star Nemotron團隊在英偉達專注於企業級智慧體構建,算是「專業對口」了。
Jiantao Jiao是加州大學伯克利分校電子工程與計算機科學系(EECS)和統計系的助理教授。同時也是伯克利CLIMB的聯合主任,以及BAIR Lab、BLISS和RDI的成員。
值得一提的是,他還是上文提到的Nexusflow的聯合創始人兼CEO。
如果繼續深挖兩位華人專家的背景和經歷,也許能得出一個結論。
老黃這次也下場在AI領域「搶人了」。

Banghua Zhu

Banghua Zhu是華盛頓大學電子與計算機工程系(ECE)助理教授,並在計算機科學與工程系(CSE)兼任教職。
他曾在2023年聯合創立了Nexusflow AI,致力於為企業級應用場景提供可靠的AI智慧體解決方案。
此前,他在加州大學伯克利分校電子工程與計算機科學系(EECS)獲得博士學位,師從Jiantao Jiao教授和Michael I. Jordan教授。
並在清華大學獲得電氣與電子工程學士學位。
憑藉著傑出的博士科研工作,他還榮獲了伯克利頒發的2023年度David J. Sakrison紀念獎。
他目前的研究方向包括基礎模型的理論基礎、訓練、服務、評估與應用。
此外,他也長期致力於統計學、資訊理論和機器學習領域,及其在博弈論、穩健統計、強化學習和人機互動等方向的應用。
如今堪稱「最權威」LLM評測的LMArena,他就是創始作者之一。
論文地址:https://arxiv.org/pdf/2403.04132
成果介紹
在模型訓練、評估方面和理論基礎等研究上,Banghua Zhu的成果頗豐。
在模型訓練方面
Starling-7B
  • Starling-7B使用團隊建立的開源高質量偏好資料集Nectar,以及創新性的獎勵模型訓練和策略模型微調演算法進行訓練。
  • 根據Chatbot Arena的評估結果,Starling-7B在所有基於Mistral的7B模型中高居榜首。
Athene系列
  • Athene-70B:團隊首個基於Llama-3-70B微調的模型,在Chatbot Arena上的Elo評分提升了30多分,並顯著增強了其多語言能力。
  • Athene-V2-72B-Chat:基於Qwen-2.5-72B微調而來。作為一個非推理模型,它在Chatbot Arena上的排名僅次於DeepSeek V3和DeepSeek R1,並在MMLU-Pro、GPQA、AIME、IFEval等多個基準測試中直接對標GPT-4o。
  • Athene-V2-72B-Agent:一款專為函式呼叫和AI智慧體應用場景設計的模型,在複雜的函式呼叫任務中(尤其是在並行和巢狀呼叫上)效能超越了GPT-4o。
在模型評估方面
  • Huggingface函式呼叫排行榜:被Llama-3.1技術報告用於評估模型的函式呼叫能力。
  • Chatbot Arena:基於人類偏好來評估模型的最可靠平臺之一。
  • Arena-Hard-Auto:一種自動化的基準建立流水線,採用「大語言模型即裁判」(LLM-as-a-judge)的模式來快速評估模型效能。
  • 基於代理模型的偏好評估(Preference Proxy Evaluations):一套高質量的獎勵模型評估流水線,用於評估RLHF中的獎勵模型,其結果與下游強化學習的最終效能高度相關。
在理論基礎方面
  • RLHF的根本極限:識別了RLHF的根本侷限,併為獎勵模型訓練開發了具有更優樣本複雜度的近乎最優演算法。並且還提出了近端策略最佳化 (PPO) 的一種替代方案,該方案在策略最佳化中更穩定、樣本效率更高。
  • 大語言模型水印:提出了一種在統計意義上近乎最優的大語言模型水印演算法。
在模型服務方面:
  • 模型路由與快取:分析並提出了用於大語言模型服務中快取和模型複用的近乎最優演算法,顯著提升了推理效率。
  • S-Lora:提出了一套能夠同時服務數千個LoRA介面卡的演算法與框架——S-Lora。
Jiantao Jiao
Jiantao Jiao是加州大學伯克利分校電子工程與計算機科學系(EECS)和統計系的助理教授。同時也是伯克利CLIMB的聯合主任,以及BAIR Lab、BLISS和RDI的成員。
他同時也是上文提到的Nexusflow的聯合創始人兼CEO。
此前,他在斯坦福大學獲得博士學位。
他最近的研究重點是生成式AI與基礎模型,涵蓋了從資料策管、預訓練、有監督微調、指令微調、基於人類反饋的強化學習(RLHF)、模型推理,到構建防禦「越獄」和「提示詞注入」攻擊的安全護欄等全鏈條技術。
此外,他也對統計機器學習、最佳化、機器學習系統的隱私與安全、強化學習、機器學習的經濟學視角,及其在自然語言處理、程式碼生成、計算機視覺、自動駕駛和機器人等領域的應用有廣泛興趣。
英偉達企業級智慧體路線
老黃為何要招募這兩位華人?也許老黃不想僅僅只賣GPU!
英偉達的下一步是提供端到端的智慧體解決方案——軟硬通吃。
NVIDIA此前在GTC上推出的Nemotron系列,主打多模態推理、函式呼叫和工具連結口能力。
細分Nano/Super/Ultra三檔算力梯度,旨在給開發者與企業提供「業務級」Agent底座。
這兩位華人都是在企業級智慧體領域創業多年,並且橫跨學術界和產業界,也許正是英偉達模型訓練急需的人才。
並且,老黃此前就表示過,他真的看好華人,他說:
中國人工智慧研究人員是「世界級」的——美國公司正在僱傭「大量」此類人才。
估計是眼看人才都要被搶光了,老黃也趕緊出手了。
如果再結合此前何愷明入職谷歌、Meta挖走OpenAI蘇黎世團隊、小扎還不斷挖OpenAI的牆角等事件。
這場AI的搶人大戰,也許才剛剛開始。
參考資料:
https://www.linkedin.com/in/banghua-zhu-171902aa/
https://www.linkedin.com/in/prof-jiantao-jiao/

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章