MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 新智元

編輯｜定慧好睏

就在剛剛，行蹤一向神秘的老黃終於出現了！

他與兩位華人在同一地點的合影，登上熱搜，而且這次老黃並沒有穿著他那標誌性的皮衣。

老黃這次「悄悄地」將這兩位華人AI大神收入麾下。

兩人的評論區都是各種大佬的恭喜，看都看不過來。

上下滑動檢視

透過比對照片背景，我們發現拍攝地點很大機率就在NVIDIA位於加州聖克拉拉總部園區的「Voyager」大樓。（但尚未獲得官方確認。）

老黃的英偉達似乎正在醞釀什麼大事件？

這兩位華人大神的背景都非常硬核，並且共同創辦了一家公司Nexusflow，致力於為企業構建智慧體。

Banghua Zhu是華盛頓大學電子與計算機工程系（ECE）助理教授，並在計算機科學與工程系（CSE）兼任教職。

他曾在2023年聯合創立了Nexusflow AI。

這一次他以首席研究科學家的身份加入英偉達的研究部門的Star Nemotron團隊。

Star Nemotron團隊在英偉達專注於企業級智慧體構建，算是「專業對口」了。

Jiantao Jiao是加州大學伯克利分校電子工程與計算機科學系（EECS）和統計系的助理教授。同時也是伯克利CLIMB的聯合主任，以及BAIR Lab、BLISS和RDI的成員。

值得一提的是，他還是上文提到的Nexusflow的聯合創始人兼CEO。

如果繼續深挖兩位華人專家的背景和經歷，也許能得出一個結論。

老黃這次也下場在AI領域「搶人了」。

Banghua Zhu

Banghua Zhu是華盛頓大學電子與計算機工程系（ECE）助理教授，並在計算機科學與工程系（CSE）兼任教職。

他曾在2023年聯合創立了Nexusflow AI，致力於為企業級應用場景提供可靠的AI智慧體解決方案。

此前，他在加州大學伯克利分校電子工程與計算機科學系（EECS）獲得博士學位，師從Jiantao Jiao教授和Michael I. Jordan教授。

並在清華大學獲得電氣與電子工程學士學位。

憑藉著傑出的博士科研工作，他還榮獲了伯克利頒發的2023年度David J. Sakrison紀念獎。

他目前的研究方向包括基礎模型的理論基礎、訓練、服務、評估與應用。

此外，他也長期致力於統計學、資訊理論和機器學習領域，及其在博弈論、穩健統計、強化學習和人機互動等方向的應用。

如今堪稱「最權威」LLM評測的LMArena，他就是創始作者之一。

論文地址：https://arxiv.org/pdf/2403.04132

成果介紹

在模型訓練、評估方面和理論基礎等研究上，Banghua Zhu的成果頗豐。

在模型訓練方面：

Starling-7B

Athene系列

Athene-70B：團隊首個基於Llama-3-70B微調的模型，在Chatbot Arena上的Elo評分提升了30多分，並顯著增強了其多語言能力。
Athene-V2-72B-Chat：基於Qwen-2.5-72B微調而來。作為一個非推理模型，它在Chatbot Arena上的排名僅次於DeepSeek V3和DeepSeek R1，並在MMLU-Pro、GPQA、AIME、IFEval等多個基準測試中直接對標GPT-4o。
Athene-V2-72B-Agent：一款專為函式呼叫和AI智慧體應用場景設計的模型，在複雜的函式呼叫任務中（尤其是在並行和巢狀呼叫上）效能超越了GPT-4o。

在模型評估方面：

Huggingface函式呼叫排行榜：被Llama-3.1技術報告用於評估模型的函式呼叫能力。
Chatbot Arena：基於人類偏好來評估模型的最可靠平臺之一。
Arena-Hard-Auto：一種自動化的基準建立流水線，採用「大語言模型即裁判」（LLM-as-a-judge）的模式來快速評估模型效能。
基於代理模型的偏好評估（Preference Proxy Evaluations）：一套高質量的獎勵模型評估流水線，用於評估RLHF中的獎勵模型，其結果與下游強化學習的最終效能高度相關。