觀點|從Deepseek-R1看2025模型的未來

作者 | 欒小凡  
年初以來,DeepSeek 的爆火引發了行業震動,各大模型廠商紛紛預告下一代大模型的研發計劃,包括 OpenAI 的 GPT-4.5 和 GPT-5、Anthropic 的 Claude 4,以及國內眾多 AI 公司也開始重新聚焦技術研發。本篇短文將探討幾個值得關注的賽道,看看今年是否會迎來技術落地。
COT 模型的演進:
探索 Latent Space 推理
當前,OpenAI 的 O1 系列模型和 DeepSeek R1 的核心能力依賴於基於文字互動的思維鏈(Chain-of-Thought, CoT)推理正規化。這一正規化推動了 Scaling Law 的新發展方向,特別是基於強化學習(RL)的 Scaling Law 以及推理時間(Test-Time)的 Scaling Law。對此,俊林老師在《S 型智慧增長曲線:從 DeepSeek R1 看 Scaling Law 的未來》一文中提出的觀點——Scaling Law 呈現 S 形曲線,並且多種 Scaling law 可以疊加,非常有新意,值得大家關注細細品味。
然而,一個核心問題是:推理的本質究竟是什麼?
傳統 CoT 依賴文字上下文,具備良好的可解釋性,但 DeepSeek R1-zero 模型證明了監督微調(SFT)並非必需。儘管 R1-zero 的可解釋性有所下降,但它能夠自主生成 DSL(領域專用語言)完成推理。這引發了一個新的思考:推理是否必須依賴人類可理解的文字?文字互動是否是必要的?
事實上,大模型的推理過程完全可以在潛在空間(latent space) 中進行,即透過向量表示進行資訊傳遞。這種方法可以解決以下關鍵問題:
  • 減少文字生成的計算開銷 —— 傳統 CoT 需要生成可讀文字,導致額外的算力消耗,而潛在空間推理可直接在隱藏狀態中完成計算;
  • 自適應計算資源分配 —— 傳統 CoT 所有 token 被分配相同算力,未能區分語義重要性,而潛在空間推理可動態調整計算資源,關注關鍵部分;
  • 並行推理與剪枝 —— CoT 採用線性推理路徑,一旦出錯難以糾正,而潛在空間推理可以並行探索多個可能路徑,並逐步剪枝錯誤選項,提高推理的魯棒性。
如果對這一方向感興趣,推薦閱讀 Meta 論文 "Training Large Language Models to Reason in a Continuous Latent Space",該研究探討了如何在潛在空間中最佳化推理能力,擺脫文字互動的限制,以提升推理效率與泛化能力。
Test-Time 記憶正規化與外部知識增強
“學而不思則罔,思而不學則殆。” ——《論語》
儘管增加推理時間可以提升模型的表現,但如果無法有效利用外部知識、合理剪枝計算,並最佳化記憶管理與推理狀態維護,模型可能陷入無效迴圈,徒然消耗算力。因此,如何在測試時設計更高效的推理方式,成為未來模型最佳化的關鍵方向。
傳統方法的挑戰
  • 迴圈神經網路(RNN):依賴向量傳遞上下文,但受限於固定大小的隱藏狀態,難以儲存長期依賴資訊。
  • 注意力機制(Attention):可捕捉完整的上下文關係,但計算複雜度為 二次方,使得模型的有效記憶受限於固定上下文視窗。
未來最佳化方向可能有兩個重要突破口:
1. 引入遺忘與壓縮機制,降低長上下文注意力計算成本
Google Titans 論文針對高效長序列建模進行了深入研究,提出了一種能在減少計算開銷的同時保持資訊完整性的方法。其核心機制包括:
三種不同的記憶體型別:
  • 短期記憶(Short-Term Memory, STM):負責處理當前的上下文資訊。
  • 長期記憶(Long-Term Memory, LTM):利用門控機制(Gating Functions)和遺忘因子(Forgetting Factors)對資訊進行篩選並實現長期儲存。
  • 任務相關持久記憶(Persistent Memory):用於儲存與特定任務相關的關鍵資訊,例如 Titans 引入的一組可訓練但與輸入無關的引數,用以儲存全域性知識,提升模型的推理能力。
記憶體模組的三種使用方法:
(1)Memory as Context
(2)Memory as Gating
(3)Memory as a Model Layer
2. 增強外部知識檢索,提高推理效率和定製化能力
外部知識檢索(External Knowledge Retrieval) 不僅能降低模型幻覺問題,加速推理,還提供了一種 Agent 級別的定製化輸出方案,使模型能夠根據使用者上下文和領域知識生成更精準的回答。
MetaAI 在該領域的長期研究:從 KNN-LM 到 最新的 Nearest Neighbor Speculative Decoding for LLM Generation and Attribution
未來,Test-Time 記憶正規化 與 外部知識增強 的結合,將進一步推動大模型在 高效推理、個性化輸出 以及長期知識
推理模型和基礎模型的融合
隨著 Latent space 推理和 Test time 正規化的進一步發展,大模型架構正面臨根本性重構——推理模組與基礎語言模型的深度融合將成為下一代模型的標配。OpenAI 的 GPT-4.5 向多模態推理架構演進,Anthropic 在 Claude4 中引入的"滑動條"(動態計算分配控制器),本質上都在探索同一命題:如何讓語言模型在基礎文字生成與高階推理能力之間實現動態切換。這一融合的主要挑戰是算力和推理質量之間的可控權衡,這裡我有如下大膽的猜測:
動態路由機制
類似於 MoE(專家混合模型)的架構,未來推理模組將根據任務動態啟用。
聯合訓練與融合
基礎模型與推理模組將透過 latent space 連結,最終融合成單一統一模型,既具備通用文字生成能力,也能高效進行多步推理。其訓練正規化可能會類似之前的多模態模型,採用凍結基礎模型,使用 RL Post train,在全引數協同最佳化的方案。
算力異構分配
在推理過程中,將對邏輯推理節點投入更多計算資源,而對描述性文字節點分配較少資源,從而在準確性和效率之間實現最佳平衡。
可以預見,傳統 MMLU 基準將會逐漸失效,需建立包含計算效率 – 準確性 – 能耗比的三元評估指標。隨著大模型的更加廣泛應用,訓練的成本被逐步 amortize(實際上也是因為資料問題很難繼續 scale),推理效率將逐步成為主線。這其實也給了硬體廠商,尤其是 ASIC 供應商彎道超車的機會,2025 年也同樣謹慎看好硬體加速賽道和推理賽道。
寫在最後
2025 年,無論從技術還是商業角度,都是激動人心的一年。站在這一歷史性拐點,我們唯有在技術敬畏與創新勇氣之間保持微妙的平衡,方能駕馭這場認知革命的風暴。
那些在潛空間中悄然進化的 AI,正書寫智慧演化史的新篇章——這或許是人類歷史上第一次,我們不再是唯一的敘事主角
然而,無論 AI 如何發展,資料始終是智慧演進的基石。願 2025 年,所有深耕 AI + Data 領域的企業都能收穫突破與成長。
加油開源 AI,加油中國 AI,加油 Milvus&&Zilliz!
作者介紹
欒小凡,Zilliz 合夥人和研發 VP,LF Al & Data 基金會技術諮詢委員會成員
今日好文推薦
我一個人,12 個月內,創辦了 12 家公司,獨立開發者十三年創業風雲錄
DeepSeek 等“六小龍”出圈背後,浙大系創業者的"組織文化程式碼"被寫進 DNA 了?
從1000名銷售到0個工程師!?權威資料揭示全球軟體工程人才需求創五年新低
Linus 將不顧反對合並Rust程式碼?!核心維護者無奈強調:不能讓“癌症”擴散!

相關文章