大模型“四虎”出山,亮相4月QCon北京站

過去一年裡,從激烈的“百模大戰”中跑出了大模型“六小虎”——南有階躍、北有智譜,此外還有月之暗面、百川智慧、MiniMax、零一萬物環伺。
進入 2025 年,隨著 DeepSeek 的爆火出圈,大模型領域的硝煙顯然只增不減。但不同企業的戰略定位和落地模式也逐步呈現出了差異化。比如,被並稱為“基模雙雄”的階躍星辰和智譜堅定地追求 AGI(通用人工智慧),月之暗面和 MiniMax 的戰略優先順序是 C 端產品和應用,百川智慧錨定醫療方向,零一萬物也聚焦行業模型,拓展 to B 的數字人解決方案。
具體技術實踐和產品落地進展如何?即將在 4 月 10 日 -4 月 12 日舉辦的 QCon 全球軟體開發大會北京站 上,階躍星辰、智譜、月之暗面、百川智慧這大模型“四虎”將齊齊亮相,帶來他們的最新技術成果。
階躍星辰:SoTA 模型的技術創新與架構優勢
多模態是階躍星辰的最大特色。近日,階躍星辰宣佈開源了兩款 Step 系列多模態模型——Step-Video-T2V 影片生成模型和 Step-Audio 語音互動模型。據透露,階躍星辰還將在 3 月開源公司自研的圖生影片模型。
在 QCon 北京站上,階躍星辰 Tech Fellow 段楠將重點介紹 Step-Video,帶來 《Step-Video 開源模型:影片生成基礎模型的最新進展、挑戰與未來展望》 的主題分享。圍繞 Step-Video 系列開源模型,段楠將介紹影片生成基礎模型的最新進展,包括文生影片和圖生影片等任務。此外,本報告還將總結現有影片生成模型面臨的主要挑戰,並討論未來可能的發展發向。
演講提綱:
  • 影片生成背景和現狀
    • 影片生成從簡單的幀插值逐漸演變為複雜的多模態生成任務
    • 多模態融合(文字、影像、音訊等)、大規模預訓練模型的應用逐漸成為趨勢
  • 影片生成 SoTA 模型:Step-Video
    • 技術亮點
    • 實驗結果:效能對比、案例分析
    • 影片生成目前面臨的挑戰
  • 關於未來的討論
    • 更強大的多模態融合
    • 即時生成
智譜 AI:大模型自主智慧體的發展
智譜 AI 在 AI Agent 技術領域取得了一系列突破進展。比如去年 11 月釋出的 AutoGLM 已經可以支援執行超過 50 步的複雜任務,支援跨應用操作和全自動上網功能;今年 1 月釋出的最新的 AI 智慧體“AgentGLM-PC1.1”,具備深度思考能力,能夠生成思維鏈以拆解複雜任務,並透過程式碼機制提升推理能力;2 月上線的全新一代智慧代理模型 GLM-PC 1.1,可以提供會議替身、文件處理、隱形螢幕等系統級功能,在複雜任務處理與多模態互動領域取得了新的技術突破。
在 QCon 北京站上,智譜 AI AutoGLM 部門負責人劉瀟 將帶來《大模型自主智慧體的發展:以 Phone Use 和 Computer Use 智慧體為例》的主題分享,介紹從 GPT-3 開始,大語言自主智慧體的概念和發展的 3 個階段,重點介紹第 3 階段,即當前正在發展中的基於 GUI 和推理模型的大模型自主智慧體。相比此前的對話智慧體和基於 Workflow 的智慧體,自主智慧體將實現通用的智慧代理能力,走出場景特化的侷限性。報告將重點介紹 Phone Use 和 Computer Use 自主智慧體的發展情況,比較這些方案的優劣,以及在實際例子上的表現,並且探討接下來的大模型自主智慧體發展的方向。
演講提綱:
  • 引言
    • 大語言模型的崛起與能力背景
    • 自主智慧體的定義與重要性
  • 大語言自主智慧體的發展歷程
    • 大模型智慧體的第一 / 二階段:
      • 基於非自主工具呼叫的大模型智慧體
      • 基於系統提示和 Workflow 工具呼叫的大模型智慧體(GPTs)
      • 系統提示與 Workflow 工具呼叫的原理
      • 實際應用案例與效果展示
    • 基於 GUI 和推理模型的大模型自主智慧體(發展中)
      • 最新進展與技術亮點
      • GUI 和推理模型的整合方式
      • 當前階段的挑戰與解決方案
      • 初步應用與前景展望
  • 方案比較與實際表現
    • 三種方案的優劣對比
    • 在不同場景下的實際表現分析
    • 使用者反饋與評價
  • 大模型自主智慧體的發展方向
    • 技術趨勢與未來展望
    • 潛在的應用領域與市場機會
    • 研究與發展的挑戰與對策
月之暗面:大規模叢集訓推混部經驗及框架側最佳化
近日,月之暗面推出了全新的最佳化器 Muon,Scaling law 實驗表明,與計算最優訓練的 AdamW 相比,Muon 的計算效率提升了 2 倍。基於此,月之暗面還訓練出了 3B/16B 引數的 混合專家模型(MoE)——Moonlight,訓練資料量達 5.7T tokens。透過 Muon 最佳化器和 Moonlight 模型,月之暗面重新定義了高效訓練與效能的平衡,同時在長文字處理領域提出創新架構。
在 QCon 北京站上,月之暗面系統工程師黃維嘯將帶來《月之暗面穩定高效的 LLM 基礎設施構建之道》的主題分享,具體介紹月之暗面在訓推混部叢集中的實踐經驗,重點探討如何快速定位並隔離故障,實現任務的高效恢復,從而提升系統整體穩定性。同時,黃維嘯還將分享如何在資源有限的情況下最大化利用率,避免浪費,進一步將該思路應用於強化學習任務的訓練中。
演講提綱:
  • 大規模訓練推理叢集的挑戰
    • 大規模叢集中機器故障頻率高,任務失敗率高
    • 推理場景中的使用者請求具備潮汐效應
    • 強化學習場景存在資源浪費情況
  • 提高訓推混部叢集穩定性和資源利用率
    • 務檢查點的高效儲存和回覆
    • 故障節點快速發現和隔離,提高訓練可觀察性,快速找到慢節點、
    • 潮汐優先順序排程,最大化提高資源利用率
  • 透過混合架構提高強化學習效率
    • 混合 Sidecar 部署架構
    • 訓推任務高效切換
百川智慧:大語言模型落地垂直領域的實踐經驗
百川智慧近期的技術路線主要集中於全模態能力突破、醫療等垂直領域的深化及產業生態擴充套件,透過開源與產學研合作加速技術落地。3 月 2 日,百川開源了全模態模型 Baichuan-Omni-1.5,支援文字、影像、音訊、影片的全模態理解及文字 / 音訊生成,資料顯示,在視覺、語音、多模態流式處理等場景其表現超過 GPT-4o mini,尤其在醫療多模態評測集(如 GMAI-MMBench、OpenMM-Medical)中大幅領先。
在 QCon 北京站上,百川智慧研究小組負責人閻棟將帶來《Learn to Reason : The way of Baichuan-M1-ClinicReasoning》的主題分享,從介紹合情推理開始,首先回顧強化學習視角下的大語言模型訓練的數學基礎,然後以 Deepseek R1 為例梳理大語言模型推理技術的發展,再介紹百川智慧研究小組在訓練大語言模型進行臨床推理的實踐,最後討論如何繼續提升模型能力的可能方向以及大語言模型與人類在智慧上的差異表現。
演講提綱:
  • 推理:真實世界中的合情推理
  • 序章:強化學習視角下的大語言模型訓練
    • 在充滿噪聲的反饋迴路下,帶著鐐銬學習跳舞
    • 模仿學習、演示學習和偏好學習
  • 脈絡:大語言模型的推理技術的發展,以 Deepseek R1 為例
    • 少有人走的路:程式碼、數學和通用
    • R1-Zero 帶來的啟示:Test Time Scaling 和 SFT Seed
  • 臨床:醫療的內生複雜性,推理能力 + 領域知識的臨床推理正規化
    • 臨床推理正規化:生成診療假設,繼而透過檢驗檢查資料進行假設證偽與排除,最終經由自反思機制對剩餘假設進行機率排序,輸出符合臨床思維路徑的診療建議
    • 基於 Monte-Carlo Tree Search 進行推理的幾個問題:缺乏多樣性、樹結構退化以及無法利用前序探索路徑
    • 臨床推理中的 state 和 action 定義,以及基於此進行的 Process Reward Model 資料標註
    • 在沒有 R1 的世界大殺四方,Recall “The Bitter Lesson"
  • 展望
    • 重談場景的摩爾定律 (楊植麟 vs 閆俊傑)
    • 大模型是否比我們更靠近終極真理?大模型智慧與人類智慧的差異表現
除了階躍星辰、智譜、月之暗面、百川智慧之外,還有來自百度、阿里、騰訊、華為、字節跳動、小紅書、小米、美團、餓了麼等企業的 100+ 資深專家將出席 4 月 QCon 北京站,聚焦大模型背景下的 AI 研發基礎設施重構、工程生產力升級、組織管理創新、AI 搜尋實踐、大模型安全,以及多模態大模型及應用和技術人成長等話題進行議題分享。
更多議題內容可點選【閱讀原文】檢視完整日程。

相關文章