
自從 ChatGPT 問世以後,LLM 相關技術對人工智慧技術領域形成了衝擊性的影響,許多圍繞 LLM 的技術架構的發展也一直在如火如荼的展開,比如 RAG 和 AI-Agent,以及時下比較火爆的 Model Context Protocol (MCP)[1]。在展開之前結合行業現實,筆者認為解釋清楚 LLM Inference(LLM 推理)和 LLM Serving(LLM 服務)的概念是十分必要的。
事實上,由於行業的快速發展,許多概念和知識點一直在業界混淆不清,比如對於 LLM Inference 和 LLM Serving 兩個概念我相信不少人都是相當不清晰的。筆者認為造成這些問題的主要原因之一是在 LLM 的工程實踐過程中將其所負責的功能範疇相互交錯導致的。簡單來說,為了滿足業務需求很多 LLM 相關的技術框架不得已將 LLM Inference 和 LLM Serving 的功能集合都實現成在一起,導致功能集合的邊界模糊不清。因此,除了從 Inference 和 LLM Serving 的角度去談 MCP 的發展,解釋清楚此兩者的概念範疇同樣也是本文的主要目的之一。
準確來說 Service Inference 和 Model Serving 不是什麼新的概念,而是在傳統機器學習時代就已經形成的共識。只不過由於 LLM 的劃時代創新和流行普及,行業裡才出現了 LLM Inference 和 LLM Serving 這樣的術語。需要說明的是雖然 LLM Inference 和 LLM Serving 是 LLM 技術中兩個密切相關的術語,但是它們卻在大語言模型的部署和使用上有各自的側重點。筆者將兩者的內涵和區別列舉如下:
-
定義:指執行經過訓練的 LLM,以根據使用者給定的輸入(例如,使用者提示或查詢)生成預測或輸出(包括文字,語音,圖片或影片等)的過程。 -
責任範圍:專注於模型本身的執行(這裡指模型的執行時狀態,包括預測過程)。 -
場景示例:比如向 GPT 等 LLM 提供提示並接收響應是一項推理任務。其中 vLLM[2] 是典型的 LLM Inference 實現框架。
主要特點:
-
計算密集型,通常需要專用硬體(例如 GPU 或 TPU)。 -
最佳化可以採用量化或蒸餾等技術來降低延遲和計算成本。 -
直接關注模型的執行時行為。 LLM Serving 主要特點: -
通常包含 API 接入層、負載均衡、自動擴縮容、服務監控和日誌記錄。 -
支援多租戶、速率限制和故障轉移等高階特性。 -
針對高可用性、可擴充套件性和使用者體驗等系統實現整合並進行最佳化。 -
定義:指支援使用者或應用程式能夠大規模地訪問 LLM Inference 的基礎設施和軟體系統。 -
責任範圍:主要是指支援 LLM Inference 的端到端的服務流程,包括但不限於請求接入處理、請求路由處理、流量管理和模型管理等。 -
場景示例:譬如支援 vLLM[2] 的 Kserve[3] 框架,可以便捷和高效地為多個使用者或應用程式提供 LLM 推理預測服務。
從上面的對比我們可以看出來 LLM Inference 的關注點在模型的執行本身,譬如模型的記憶體管理和算力資源的分配,如上面列舉到的 vLLM,它透過借鑑作業系統中虛擬記憶體和記憶體分頁管理的理念,實現了 LLM 服務推理中記憶體使用的最佳化方案,並解決了大模型載入和執行時許多記憶體使用的問題。而 LLM Serving 則是更多的面向使用者和客戶端,透過 IT 工程實踐去解決使用大語言模型的問題。以上面的 Kserve 為例,在技術層面提供了模型服務的擴縮容能力,並支援同系列模型不同版本(譬如 ChatGPT3 和 4,Llama2 和 Llama3)的服務(模型的路由服務)。Kserve 也透過提供標準化的資料平面協議和自身的 ServingRuntime 等概念來支援不同的機器學習框架訓練出來的模型,以此來提供一致的服務推理體驗。
筆者列舉上述技術框架的原因並不是為了打廣告,而是透過實際的技術案例來強調說明 LLM Inference 和 LLM Serving 的差別。同時,細心的讀者應該關注到,LLM Serving 一般來說是需要整合特定 LLM Inference 的能力的。但是絕不能就此武斷的說:LLM Serving 包含了 LLM Inference。也就是說,兩者並不是簡單的包含與被包含的關係。打個比方,不能因為一個 Web 應用開發框架集成了關係資料庫的能力,就說這個開發框架包含了關係資料庫。
為了說明清楚這個問題,不得不再以此說明一下 MCP 的概念,為了簡單起見,筆者將 MCP 官網的定義直接放在了下面:
MCP is an open protocol that standardizes how applications provide context to LLMs. Think of MCP like a USB-C port for AI applications. Just as USB-C provides a standardized way to connect your devices to various peripherals and accessories, MCP provides a standardized way to connect AI models to different data sources and tools.
透過 MCP 官網的定義看來,MCP 更像一個橋樑,用來連線 AI 模型(當然包括大語言模型)和不同的資料來源與工具(讀者覺得這裡的 tools 可能含義很寬泛,可以包括上文提到的 AI applications,可以是 function calling,也可以是 AI-Agent,甚至可以是包含外部知識庫和提示詞工程的應用等等)。那麼對比上面 LLM Inference 和 LLM Serving 的概念,其實是很難做出一個確定的劃分的。
再來看看 MCP 的架構:

圖片來源於:MCP Architecture
從上圖展示的情況來看,MCP Server 承擔的角色更像是 LLM Serving 的角色,而從它面向 Host(可以想象成是使用者端)的 MCP Client 來看也印證了這個想法。然而,事情到這並不算結束,因為 MCP 的引入主要是為了實現 AI 模型和不同資料來源和工具的標準化接入。可以考慮如下的場景(包括不僅限於):
-
連線提示詞工程最佳化的 function calling 或者工具,使得服務推理更加精準有效。 -
連線外部知識庫,使得 LLM 能夠得出更專業和有價值的反饋。 -
連線外部智慧體來實現複雜的任務和工作流 -
……
從上面的場景上來看,MCP 的引入可以最佳化 LLM 的服務推理過程,提升 LLM 的執行時行為的準確度和針對性,同時也增強了 LLM 與外界的互動體驗。而這些點又正好是 LLM Inference 所關注的地方。綜上分析可以明顯的看到,MCP 實際上對於 LLM Inference 和 LLM Serving 的功能範圍都是有所涉及的。雖然 MCP 並不是完整的功能點覆蓋,而是一個 Inference 和 Serving 的簡單複合體,但是很難將其歸類於 LLM Inference 和 LLM Serving 的任何一邊。做出這樣的分析,其目的當然是為了更好的評估和理解未來 MCP 的發展方向。
根據上一小節的分析可以知道,MCP 作為一個連線 LLM 和 AI 應用的橋樑,它是 LLM Inference 和 LLM Serving 的簡單複合體,它未來是還有很多事情需要去做的。這些事情不僅僅是功能點的覆蓋,比如“橋樑連結”之間的鑑權和認證策略的增強,大規模使用者使用場景時的路由負載均衡,流量管理,以及基礎設施服務建設等等,讀者覺得更重要的是對 LLM Inference 和 LLM Serving 的功能範圍的明確劃分,將 LLM Inference 劃分為 MCP 的 Backend Service,而將 LLM Serving 劃分為 MCP 的 Frontend Service。經過這樣的分離,MCP 的 Backend Service 部分可以重點關注模型自身的執行時最佳化,而 MCP 的 Frontend Service 則可以聚焦於工程技術的最佳化,以更好的實現其與使用者之間的橋樑作用,兩個部分分別獨立的發展演進,引入前沿的技術成果且互不影響。
當然,以上分析和預測純屬於筆者自己的一些思考和感想,並不代表技術社群的既定發展方向,僅用於與讀者分享看法和共同探討。
張懷龍,曾就職於阿爾卡特朗訊、百度、IBM、英特爾等知名公司擔任高階開發職位,擁有 16 年技術研發經驗,專注於雲原生微服務技術,並在雲原生與 LLM 技術的交叉領域進行創新實踐,如致力於雲原生場景下的 LLM 服務推理, 曾工作在 Istio,OpenVINO、Kserve 和 OPEA(企業 AI 開放平臺)等技術社群。作者也曾在 KubeCon、ServiceMeshCon、IstioCon、GOTC、GOSIM 和 InfoQ/Qcon 等會議上發表技術演講。
參考文件:
https://modelcontextprotocol.io/introduction
https://docs.vllm.ai/en/latest/
https://kserve.github.io/website/latest/
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!!
