大模型撞上“算力牆”，超級應用的探尋之路

OSCHINA

↑點選藍字關注我們

最近，開源中國 OSCHINA、Gitee 與 Gitee AI 聯合釋出了《2024 中國開源開發者報告》。

報告聚焦 AI 大模型領域，對過去一年的技術演進動態、技術趨勢、以及開源開發者生態資料進行多方位的總結和梳理。

在第二章《TOP 101-2024 大模型觀點》中，浙江大學計算機博士、美國南加州大學訪問學者傅聰提出，“算力牆”下，模型效果邊際收益遞減，訓練和運營成本高昂，在這個時間節點，最好的 AI 產品會是智慧體，2025 將會是智慧體元年。

全文如下：

大模型撞上 “算力牆”，超級應用的探尋之路

文 / 傅聰

近日，大模型教父 Sam Altman 在 Reddit 上的評論透露出 GPT-5 難產的隱憂，直言有限的算力約束讓 OpenAI 面臨迭代優先順序的艱難抉擇，在通往 AGI 的道路上一路高歌猛進的領頭羊似乎撞上了“算力牆”。

除此之外，能耗、資金，難以根除的幻覺，有限的知識更新速率、有限的上下文寬度、高昂的運營成本等等，都讓外界對大模型的發展憂心忡忡。面對棘手的困境與難題，大模型的未來，又該何去何從呢？

下一代 “明星產品”

“算力牆”下，模型效果邊際收益遞減，訓練和運營成本高昂，在這個時間節點，最好的 AI 產品會是什麼？奧特曼、蓋茨、小扎、吳恩達、李彥宏等一眾大佬給出了一致的答案 —— 智慧體（AI Agent）。

2025，將會是智慧體元年。

什麼是智慧體？目前業界一致認可的公式是“智慧體 = LLM + 記憶 + 規劃 + 工具”：

大模型充當智慧體的“大腦”，負責對任務進行理解、拆解、規劃，並呼叫相應工具以完成任務。同時，透過記憶模組，它還能為使用者提供個性化的服務。

智慧體為什麼是“算力牆”前 AI 產品的最優解決方案？這一問題的底層邏輯包含兩個方面。

1. LLM 是目前已知最好的智慧體底層技術。

智慧體作為學術術語由來已久，從上世紀的“符號、專家系統”【1】，到十年前風頭無兩的強化學習（代表作 AlphaGo【3】），再到現在的 LLM，agent 底層技術經歷了三個大的階段。

符號系統的缺點在於過於依賴人工定義的“符號”和“邏輯”，強化學習苦於訓練資料的匱乏和“模態牆”，而 LLM 一次性解決這些問題。

人類語言就是一種高度抽象、跨模態、表達力充分的符號系統，同時它作為知識的載體，自然地存在大量資料可用於訓練，還蘊含了人類的思維模式。

在此基礎上訓練得到的 LLM，自然具備被誘匯出類人思考的潛力。在 COT（思維鏈）【4】、TOT（思維樹）【5】等技術的加持下，大模型正在學習拆解自己的“思維”，OpenAI 的 o1 就是典型案例，強化了推理能力的同時，也大大緩解了幻覺問題。

2. 大模型做不到的，“現存工具”強勢補位。

無法持續更新的知識庫，可以透過 RAG（Retrieval Augmented Generation，檢索增強生成）來解決。

RAG 的出現，讓各界越來越深刻地認識到，大模型沒必要儲存那麼多知識，只需要如何使用搜索引擎這個外部工具即可。大模型可以在搜尋結果上做進一步的資訊篩選和最佳化，而搜尋引擎彌補了大模型的知識缺陷，實現了 1+1>=2 的效果。

RAG 可以被理解為智慧體的最簡單形式。未來的智慧體可以實現多種工具的混合使用，甚至多智慧體協作，這不是猜想，我們已經在學術界看到了驚豔的早期方案【6，7】。

“四把鑰匙”解鎖潛力

1. 領域模型小型化、平臺化會成為新趨勢。

“算力牆”是一方面因素，但基座模型的趨同化和運營成本是源動力。GPT、Claude、Gemini 雖然各有所長，但實際體驗越來越讓大家分不出差異，基座模型作為智慧體核心，決定了智慧體效果下限，人人訓練基座的可能性越來越低，“基座服務化”很可能是最合理的商業模式。

甚至，在錯誤不敏感的應用領域，出現一個開源、無商業限制的基座的可能性也很高。小應用開發商很可能很容易獲得一個低成本 serving 的“量化小基座”。

“7B” 是一個 magic number！無論是 RAG 裡的向量表徵模型，還是文生圖、文字識別（OCR）、語音合成（TTS）、人臉識別等等垂直領域，一個 1B~7B 的小模型已經可以滿足很多生產、應用需要，並且效果也在逐步推高【8，9，10】。這些模型，作為智慧體的“三頭六臂”，不需要太“大”。

同時，從學術角度來講，各種領域專用模型的技術最優解也在逐漸趨同。應用開發者越來越不需要了解模型的底層技術，只需要懂得如何設計自己應用的任務流，懂一點點 COT 系列的 prompt engineering 的技巧，就可以利用 Maas（Model as a service）、Aaas（Agent as a service）這樣的平臺，如玩樂高一般搭建自己的 AI 雲原生應用。

2. 算力層深挖定製化、低能耗的可能性，但固化 transformer 可能不是最優解

雖說智慧體不需要太大的模型，但其運營成本（模型推理計算成本）仍然較高。在短時間內，算力、能源仍然會是大模型領域令人頭疼的高牆。

根據報告【1】，能源消耗將會是 2030 模型 scaling 最卡脖子的因素。也就是說，在算力到達瓶頸之前，首先可能會出現電能供應不足甚至交不起電費的問題。因此，算力層可以根據大模型底層技術的特性，產出針對性的晶片，尤其是加速運算和降低能耗。這是未來 AI 晶片領域的最優競爭力。

那麼，把 transformer “焊死”到板子上就是最佳方案嗎？我知道你很急，但你先別急。大模型底層框架還存在底層路線之爭。

我們知道，Transformer 架構呈現了 O (n²) 的理論計算複雜度，這裡的 n 指的是大模型輸入序列的 token 數量，但其前任語言模型擔當 RNN 只有 O (n) 的理論計算複雜度。

最近，以 Mamba、RWKV 為代表的類 RNN 結構死灰復燃，公開挑戰 transformer 地位。更有最新研究【13】從理論上表明，RNN 對比 Transformer 的表達力，只差一個 in-context-retrieval。在這個方向的持續投入下，我們很可能會迎接一個介於 RNN 和 Transformer 之間的“新王”。

因此，算力層短時間內的主題仍然是“半通用化”“高算力”“低能耗”。

3. 合成數據驅動新產業鏈

早有機構預測，人類社會可利用訓練資料會在 2026 年耗盡。這可能還是一個樂觀估計。光頭哥 Tibor Blaho 還曾爆料，OpenAI 用於訓練“獵戶座“的資料中，已經包含了由 GPT-4 和 O1 產出的合成數據。

這不僅是因為自然存在的高質量文字的匱乏，還因為智慧體所需的資料很可能需要顯式地蘊含任務思考和規劃的拆解資訊。然而，針對合成數據的問題，學術界早有預警，模型可能會在合成數據上的持續訓練中崩壞【14】。

這是因為合成數據往往攜帶“錯誤”和“幻覺”，在一些冷門的知識上尤甚。因此，合成數據的實用秘訣是“去粗取精”，需要一定程度的“人機協同”。在如何構造大批次、高質量的合成數據，讓智慧體能夠在持續地與使用者的互動中自我最佳化而不是劣化，將會成為眾多無機器學習技術背景的開發者的頭號難題。

因此，面向資料進行定製化合成、評估、測試、標註、人機協同的“純資料”產業，有可能會走上越來越重要的位置，不僅僅是服務於基座模型廠商。

4. 多模態對齊很可能給基座模型帶來質的提升

最新研究發現，在沒有預先約束和約定下，不同模態領域的最強模型正在向著某個世界模型認知領域收縮【15】，AI 模型對不同概念的數字化表達（向量表徵）會逐步趨同，構建對這個世界的統一認知。這也符合我們人類對世界的認知：人類透過語言文字這種符號，將不同模態的訊號統一地表達，並在腦中構建了某種受限於當前科技水平的統一模型，這是人類意識、社會溝通的前提。

從這個角度理解，多模態大模型很可能是通向真正 AGI 的必經之路。將多模態訊號統一對齊，是智慧體與這個世界“無障礙”互動的前提，換個新潮的詞彙，就是我們期待的“具身智慧”。

誰不想擁有一臺自己專屬的“Javis” 呢？而多模態大模型的突破，也同樣依賴前文所述的算力和資料上的沉澱。

參考文獻

【1】https://epoch.ai/blog/can-ai-scaling-continue-through-2030

【2】Newell, A., & Simon, H. A. (1956). The Logic Theory Machine – A Complex Information Processing System. IRE Transactions on Information Theory, 2(3), 61-79.

【3】Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." nature 529.7587 (2016): 484-489.

【4】 Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in neural information processing systems 35 (2022): 24824-24837.

【5】Yao, Shunyu, et al. "Tree of thoughts: Deliberate problem solving with large language models." Advances in Neural Information Processing Systems 36 (2024).

【6】Karpas, Ehud, et al. "MRKL Systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning." arXiv preprint arXiv:2205.00445 (2022).

【7】Schick, Timo, et al. "Toolformer: Language models can teach themselves to use tools." Advances in Neural Information Processing Systems 36 (2024).

【8】https://huggingface.co/spaces/mteb/leaderboard

【9】https://github.com/deep-floyd/IF

【10】https://developer.nvidia.com/blog/pushing-the-boundaries-of-speech-recognition-with-nemo-parakeet-asr-models/

【11】Mamba: Linear-time sequence modeling with selective state spaces

【12】Peng, Bo, et al. "Rwkv: Reinventing rnns for the transformer era." arXiv preprint arXiv:2305.13048 (2023).

【13】Wen, Kaiyue, Xingyu Dang, and Kaifeng Lyu. "Rnns are not transformers (yet): The key bottleneck on in-context retrieval." arXiv preprint arXiv:2402.18510 (2024).

【14】AI Models Collapse When Trained on Recursively Generated Data’

【15】The Platonic Representation Hypothesis

作者簡介