
昨天,WizardLM 專案建立者徐燦在 X 平臺上發文表示,他和團隊離開微軟,加入了騰訊的 AI 開發組織——混元(Hunyuan)。
“我們將繼續我們的使命,推動 LLM 培訓技術的發展,並構建更好的 AI 模型。”
在過去幾個月中,混元釋出了一系列 AI 模型,包括影片生成器和 3D 物體生成器。

事實上,WizardLM 甚至也已釋出一款混元模型:Hunyuan-TurboS 0416。在一篇 X 帖子中,自稱 WizardLM 團隊聯合建立者Qingfeng Sun表示,Hunyuan-TurboS 0416 的表現優於谷歌 Gemma 3 系列等“開放”AI 模型。
據知情人士向 AI 前線獨家透露,WizardLM 團隊有 6 名主力成員,大部分已經離開微軟。
有趣的是,AI 前線留意到,WizardLM 宣佈離開的時間點比較微妙,因為正值微軟被曝出將在全球範圍內裁員 3%,也就是大約 6000 多人會受到影響,外界猜測或與 WizardLM 團隊離開與微軟的裁員有關。
但據知情人士透露,WizardLM 團隊核心人物 Can Xu 和 Qingfeng Sun 早已離開微軟,只是近日才將訊息公佈出來,他們的離開與微軟裁員無關。
知情人士還透露,團隊也會採用遠端辦公的方式協同工作,每個人獨立負責各自部分的研發。
WizardLM 團隊成立於 2023 年年初,專注於高階大語言模型的開發。
在 HuggingFace 上顯示,WizardLM 團隊目前共有 6 位主要成員,包括 Qingfeng Sun、Can Xu、Ziyang Luo 等。

Qingfeng Sun 曾任微軟人工智慧研究科學家, 2020 年畢業於北京大學,獲碩士學位。他與 Can Xu 等人共同創立了 WizardLM 專案,該專案貢獻了先進的 LLM WizardLM、WizardCoder 和 WizardMath,他還建立了被廣泛採用的方法 Evol-Instruct、RLEIF 和 Arena-Learning。
Can Xu 曾任微軟人工智慧高階研究科學家,為微軟小冰、必應、WizardLM 和 Phi-3 等專案貢獻了核心技術。他畢業於四川大學計算機專業,獲學士學位;後又在北京大學計算機技術專業畢業獲碩士學位(導師:俞勁松)。他的研究興趣包括大型語言模型、對話系統和資訊檢索。
Can Xu 領導了 WizardLM 系列模型的研發:WizardLM 1&2、WizardCoder、WizardMath,在 NeurIPS、ACL、ICLR、EMNLP、AAAI 等頂級國際會議上發表論文 40 多篇,在 Google Scholar 上被引用超過 3300 次。
2023 年 4 月,北京大學與微軟 WizardLM 研究團隊合作,提出了 Evol-Instruct,這是一種利用大語言模型生成大量不同複雜程度指令資料的新穎方法。在人工評估中,該團隊最終生成的 WizardLM 模型生成的指令被評為優於人工建立的指令資料集。
那當時參與這個專案的還有誰?還有姜大昕等人。
尤其值得一提的是姜大昕,他於 2007 年加入微軟亞洲研究院任首席研究員,後來又曾任微軟全球副總裁、微軟亞洲網際網路工程研究院(STCA)副院長和首席科學家。2023 年,他在上海創立了階躍星辰智慧科技有限公司,任法定代表人、CEO。

基於 Evol-Instruct,2023 年 5 月 26 日,微軟和北京大學的研究團隊釋出了 WizardLM 大語言模型,這個大語言模型能夠根據複雜指令生成文字。它使用了一個名為 Evol-Instruct 的演算法來生成和改寫指令資料,從而提高了指令的複雜度和多樣性。當時 WizardLM 共有三個版本:7B、13B 和 30B。
WizardLM 的核心演算法是指一種稱為 Evol-Instruct 的指令進化論。與手動建立、收集、篩選高質量指令資料的巨大耗費不同,Evol-Instruct 是一種使用大語言模型而非人類建立大量不同複雜度級別的指令資料的高效途徑。
Evol-Instruct 的指令進化論 Evol-Instruct 演算法從一個簡單的初始指令開始, 然後隨機選擇深度進化或廣度進化,前者將簡單指令升級為更復雜的指令,而後者則在相關話題下建立新指令(以增加多樣性)。以上兩種進化操作是透過若干特定的 Prompt 提示大語言模型來實現。
研究人員採用指令過濾器來篩選出失敗的指令,這被稱為淘汰進化。論文中,給出了 4 個重要的實驗現象:
-
人類評估結果證明,由 Evol-Instruct 進化生成的機器指令質量整體優於人類指令(ShareGPT)。
-
高難度指令的處理能力:人類評估者認為此時 WizardLM 的響應比 ChatGPT 更受歡迎。
-
程式碼生成與補全能力:在 HumanEval 評估中,WizardLM-30B 同時擊敗了 code-cushman-001 與目前最強程式碼開源模型 StarCoder 。這證明了 Llama 系列預訓練模型的程式碼能力並不差,在高效的對齊演算法加持下,依然可以獲得優異的表現。
-
WizardLM-13B 同時在 AlpacaEval 與 Evol-Instruct 測試集的 GPT-4 評估中,獲得了高度一致的 ChatGPT 能力佔比(前者為 87% ChatGPT,後者為 89% ChatGPT)。
當時 WizardLM-30B,在 Evol-Instruct 測試集上取得了 97.8% 的 ChatGPT 分數佔比。

曾經 WizardLM 模型有多強呢?
在 2023 年 UC 伯克利主導的「LLM 排位賽」中,WizardLM 甚至“殺入”全球大語言模型榜單的全球前四,前三位分別是 GPT-4、Claude 和 ChatGPT,WizardLM 也是華人團隊開源模型第一名。

WizardLM 研究團隊的主要目標是增強 AI 模型理解和生成類似人類文字的能力,從而改進聊天機器人、翻譯服務和程式碼生成工具等應用。
2024 年 4 月,WizardLM-2 系列模型問世,旨在在效能和效率方面與現有模型相媲美。 這些模型旨在處理複雜的任務,包括多語言翻譯、推理和基於代理的互動。
WizardLM-2 系列包含多個型號,主要是:
-
WizardLM-2 8x22B:專為處理高度複雜任務而設計的先進模型,據團隊稱,這款模型具有與領先的專有模型相媲美的競爭效能。
-
WizardLM-2 70B:專注於頂級推理能力,更適合用於需要深入理解和分析的任務場景中
-
WizardLM-2 7B:旨在以更快的處理時間提供高效能,適用於速度至關重要的應用。
這些模型使用 MT-Bench 和人類偏好評估等基準進行評估,其效能接近最先進的專有模型。
值得一提的是,這三款模型同樣都是開源的,WizardLM-2 8x22B 和 WizardLM-2 7B 遵循的許可證為 Apache2.0。WizardLM-2 70B 遵循的許可證為 Llama-2-Community。

儘管取得了成就,WizardLM 團隊仍面臨挑戰,尤其是在模型部署方面。
微軟在公開發布了 WizardLM-2 模型後一天,就撤回了該系列模型,微軟稱這些模型就因缺乏全面的“毒性測試”。“毒性測試”是確保 AI 輸出不會產生有害或偏見內容的標準程式。

WizardLM 團隊隨後在 X 上的一篇帖子中寫道,“我們不小心遺漏了模型釋出流程中的一項必要環節——毒性測試。目前我們正在快速完成這項測試,並將儘快重新發布我們的模型。”
可此番刪除來得有點晚,已經有使用者迅速重新上傳了原版 WizardLM-2 模型以及經過微調的定製化版本。
與此同時,Hugging Face 公司 CEO Clément Delangue 則發表一篇文章表示,微軟此舉不僅徹底移除了其他 WizardLM 模型,還破壞了多個開源專案,損害到 Hugging Face 社群的利益。

Delangue 當時寫道,“WizardLM 模型的月均下載量超過十萬次。我們對由此帶來的不便深表歉意,且正在努力與作者團隊及微軟取得聯絡,以期為社群成員找到好的解決辦法。”
上個月,騰訊宣佈對混元 AI 模型的研發架構進行重大重組,聚焦“算力、演算法、資料”三大核心要素,並計劃進一步加大該領域的研發投入。此次調整旨在最佳化人工智慧技術的研發效率,強化大模型領域的競爭力。
作為重組的關鍵舉措,騰訊新成立兩大技術部門:大型語言模型團隊和多模態模型團隊。前者專注於自然語言處理技術的突破,推動對話、文字生成等 AI 能力的提升;後者則致力於整合文字、影像、影片等多種資料型別,打造更智慧的跨模態 AI 系統。
同時,騰訊加強了底層資料基礎設施的建設,專門設立 大模型資料管理部門,以最佳化資料採集、清洗和標註流程,為大模型訓練提供高質量資料支援。
此外,公司還成立了機器學習平臺部門,目標是為 AI 模型的訓練、部署和運營提供一體化平臺,提升研發效率並降低技術落地門檻。
騰訊在 AI 領域的野心已經非常明顯。
此次收購與騰訊在 AI 領域的大力投資相契合,騰訊聲稱 AI 為其 2025 年第一季度 8% 的增長做出了貢獻。騰訊表示,計劃今年投入 900 億元人民幣(約合 124.9 億美元)用於資本支出,其中大部分將用於推動其 AI 業務的發展。
而 WizardLM 轉投騰訊之後,應該也會繼續延續之前的角色定位:開發及釋出 AI 模型。
WizardLM 團隊宣佈轉入騰訊混元事業部,團隊成員在社交媒體平臺上公開分享了這一訊息,隨後引發了網友熱議。
在 X 上,多數網友對於 WizardLM 團隊的新歸屬表示祝賀,認為騰訊對於 WizardLM 團隊來說是比微軟更好的選擇,因為微軟在大模型研發上已經有些力不從心了。
有人肯定了 WizardLM 團隊取得的成就,認為小型 WizardLM 7B 是最好的模型之一。
“WizardLM 7B 是我最早嘗試的型號之一,可能是 GGML 時代的第一個。它永遠在我心中佔據著特殊的位置,我希望他們能在新公司的庇護下繼續開發它。”
特別提示:這裡的 GGML 指的是一個用於在本地裝置(如 CPU 或低功耗硬體)上高效執行大型語言模型的量化檔案格式和推理框架。
在 Reddit 上,有使用者認為 WizardLM 團隊的離開對於微軟來說是一大損失:
“我記得他們釋出的某個版本沒有經過某種安全測試,微軟在經歷了 AI 失敗之後,他們非常重視這個問題。即使是這樣,我認為微軟失去一支可能在未來大放異彩的團隊是很可惜的。”
也有使用者認為,WizardLM 團隊從開源領域中消失是整個行業的遺憾:
“多麼強大的團隊從開源領域中消失真是可惜,因為混雲模型是閉源的。”
參考連結:
https://www.techinasia.com/news/tencent-restructures-ai-unit-adds-teams-foundational-models
https://techcrunch.com/2025/05/13/tencent-hires-wizardlm-team-a-microsoft-ai-group-with-an-odd-history/
https://huggingface.co/WizardLMTeam
https://www.microsoft.com/en-us/research/publication/wizardlm-empowering-large-language-models-to-follow-complex-instructions/?locale=zh-cn
https://tatsu-lab.github.io/alpaca_eval/
宣告:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!!

今日薦文

你也「在看」嗎?👇