
就在剛剛結束的 NeurIPS 2024 上,OpenAI 前首席科學家、聯合創始人 Ilya 提到“預訓練即將終結”,“接下來將是超級智慧:agent、推理、理解和自我意識。”

從商業價值的角度看,儘管大模型技術的發展進步值得欣喜,但對投資者而言,如何帶來商業價值才是他們最為關注的。Ilya 提到的推理,也被認為很具商業潛力。近期,來自紐約的風投專家 Eric Flaningam 對AI 模型推理(Inference)的技術現狀、市場格局和發展趨勢進行了全面梳理,旨在從日新月異的技術變革中捕捉最具投資潛力的機會點。
什麼是“模型推理”
(熟悉的讀者可以跳過)
模型推理的簡單解釋
簡單來說,如果把 AI 模型比作一個"學生",那麼:
-
模型訓練就是老師帶著學生反覆學習、練習,讓模型從海量資料中總結規律、積累“知識”的過程;這個過程需要消耗大量的計算資源。 -
模型推理則是學生運用所學,針對新輸入的資料給出判斷、預測、決策等反饋的過程。這裡則是使用者實際使用這個模型(“學生”)的過程。

“訓練”是在教會模型,“推理”是在使用模型
模型推理最關注什麼
從使用者的角度講,推理效能的關鍵在於:
-
效果好壞:模型給出的反饋是否準確、有效,能否滿足實際需求; -
互動延遲:從使用者提出請求到模型給出響應,中間的時間延遲同樣關乎使用者體驗。
從技術實現的角度看,除了滿足使用者體驗需求之外,還需要關注:
-
硬體依賴:推理過程對算力硬體(如 GPU)有多大依賴,能否靈活適配多種硬體; -
資源利用率:推理任務能否充分利用硬體算力,提高單位成本的效益; -
部署靈活性:能否方便地將模型部署到雲端或邊緣端,甚至直接在終端裝置上執行推理。
模型推理的 Scaling Law
OpenAI o1 模型的釋出取得了驚豔的效果,而效果變好的同時,模型的反應時間(推理時間)也有了明顯的延遲,這讓模型推理的研究首次受到關注。

大多數大模型推理(Inference)的計算量佔比很小,而 OpenAI o1(草莓模型)的出現,從推理側進行最佳化,提升模型效能的同時也增加了推理的計算量。這是否意味著新的 Scaling Law(規律):模型 “思考” 的時間越長,它就會越準確?
o1 is explicitly trained on how to solve problems, and second, o1 is designed to generate multiple problem-solving streams at inference time, choose the best one, and iterate through each step in the process when it realizes it made a mistake. That’s why it got the crossword puzzle right — it just took a really long time.
o1 經過準確地訓練以掌握解決問題的方法,o1 的設計邏輯是在推理時生成多個問題解決方案,並選擇最好的一個,而且在意識到犯錯時能在整個過程的任意步驟中進行修正。這就是它能正確解決字謎難題的原因 —— 只是花費了非常長的時間。
模型推理的競爭格局
儘管各大公司在樂此不疲的卷大模型的研發,但最終真正面向用戶並帶來商業價值的還是模型推理。
如今的模型推理市場也已經逐漸繁榮,從上游的算力硬體,到中游的推理服務,再到下游的行業應用,都有眾多玩家爭相角逐。Flaningam 將推理的提供方式劃分為幾個主要陣營:
-
基礎模型 API:大模型提供商開放的 API 介面。儘管最簡單易用,但因為模型對使用者來說完全黑盒,因此調整的靈活性最低。長期來看,使用成本也最高; -
推理服務代理運營:提供託管推理服務,使用者可以在平臺上自由選用基礎模型,也可以部署開源模型進行微調,是易用性和靈活性之間很好的權衡; -
AI 雲平臺:提供 GPU 算力租用和維護,以及部分推理的最佳化服務。使用者可以高度定製模型和部署方案,但需要更多的技術投入和運維成本; -
AI 晶片廠商:以英偉達、AMD 為代表,提供通用 GPU 晶片。企業購買晶片後,可靈活自建推理服務叢集,並針對特定任務深度調優。專業門檻和前期投入最高,但理論上後期能實現極致價效比。

不同推理提供方式的國外玩家:API、雲服務(代理運營、AI 雲平臺)、硬體廠商
可以看到,推理已成為眾多科技公司爭相佈局的新藍海。隨著算力成本的持續下降和應用規模的爆發增長,推理賽道未來有望迎來井噴式發展。
推理價值的多維博弈
價值總是流向稀缺資源。
在複雜的推理市場中,價值的流向取決於供給和需求的動態博弈。放眼當下,推理的商業價值很可能會在供給和需求的多重博弈中被重新洗牌。具體而言,可以從以下三個方面著重分析:
-
一方面,隨著大模型不斷突破效能天花板,對推理的規模、複雜度也提出了越來越高的要求。這意味著擁有頂尖算力、先進演算法、高效架構的頭部玩家將在競爭中佔據優勢,並有望率先盈利。可以說,先發優勢和技術壁壘是價值的“稀缺資源”,將吸引更多的資本投入。 -
另一方面,行業應用的廣度、深度決定了推理的需求曲線。如果 OpenAI、微軟、谷歌等(國內如 BAT、位元組等)“超級獨角獸”壟斷了應用市場的大部分份額,那麼價值可能更多地向基礎設施層傾斜。相反,如果越來越多的企業,哪怕是初創公司、小微企業,也能借助日益成熟完善的 AI 工具和平臺,開發出有競爭力的 AI 應用,那麼專注於推理服務的供應商將有機會爭奪更多市場蛋糕。這種情況下,“應用創新”和“市場空白”成為了新的稀缺資源。 -
此外,隨著技術進步,裝置端推理(邊緣計算)也將是一個潛在的增量市場。一旦小模型、端側晶片的能力能滿足終端使用者的基本使用需求,邊緣端推理的發展空間可能被迅速開啟。到那時,或許“端雲協同”和“算力下沉”或許又會成為大模型競爭的新的制勝法寶。

邊緣計算能夠降低公司計算叢集的資本支出(CapEx)和運營支出(OpEx),消費者也能獲得本地推理帶來的低時延和更好的資料安全保障等諸多好處。
總結
AI 推理是大模型商業化的關鍵一環。隨著技術突破、市場爆發,AI 推理的商業價值正在多維博弈中不斷重塑。當下來看,擁有頂尖算力和架構優勢的頭部玩家,毫無疑問在佔據先發優勢。但放眼將來,端雲協同、算力下沉很可能帶來新的增量。
對於投資者而言,在洞察技術趨勢的同時,把握行業發展的節奏也至關重要。需要在技術趨勢、行業格局、市場容量等多個維度權衡利弊,審時度勢地佈局價值高地。
注:本文不構成投資建議
Eric Flaningam 個人主頁:https://www.linkedin.com/in/ericflaningam/)



參考文獻
https://substack.com/@ericflaningam/p-152106163
https://youtu.be/WQQdd6qGxNs?si=FRb74Im5XNRBWykKhttps://youtu.be/WQQdd6qGxNs?si=FRb74Im5XNRBWykK