LLMInference和LLMServing視角下的MCP

作者 | 張懷龍

背景介紹

自從 ChatGPT 問世以後，LLM 相關技術對人工智慧技術領域形成了衝擊性的影響，許多圍繞 LLM 的技術架構的發展也一直在如火如荼的展開，比如 RAG 和 AI-Agent，以及時下比較火爆的 Model Context Protocol (MCP)[1]。在展開之前結合行業現實，筆者認為解釋清楚 LLM Inference（LLM 推理）和 LLM Serving（LLM 服務）的概念是十分必要的。

事實上，由於行業的快速發展，許多概念和知識點一直在業界混淆不清，比如對於 LLM Inference 和 LLM Serving 兩個概念我相信不少人都是相當不清晰的。筆者認為造成這些問題的主要原因之一是在 LLM 的工程實踐過程中將其所負責的功能範疇相互交錯導致的。簡單來說，為了滿足業務需求很多 LLM 相關的技術框架不得已將 LLM Inference 和 LLM Serving 的功能集合都實現成在一起，導致功能集合的邊界模糊不清。因此，除了從 Inference 和 LLM Serving 的角度去談 MCP 的發展，解釋清楚此兩者的概念範疇同樣也是本文的主要目的之一。

LLM Inference 和 LLM Serving 概念介紹

準確來說 Service Inference 和 Model Serving 不是什麼新的概念，而是在傳統機器學習時代就已經形成的共識。只不過由於 LLM 的劃時代創新和流行普及，行業裡才出現了 LLM Inference 和 LLM Serving 這樣的術語。需要說明的是雖然 LLM Inference 和 LLM Serving 是 LLM 技術中兩個密切相關的術語，但是它們卻在大語言模型的部署和使用上有各自的側重點。筆者將兩者的內涵和區別列舉如下：

LLM Inference

定義：指執行經過訓練的 LLM，以根據使用者給定的輸入（例如，使用者提示或查詢）生成預測或輸出（包括文字，語音，圖片或影片等）的過程。
責任範圍：專注於模型本身的執行（這裡指模型的執行時狀態，包括預測過程）。
場景示例：比如向 GPT 等 LLM 提供提示並接收響應是一項推理任務。其中 vLLM[2] 是典型的 LLM Inference 實現框架。

主要特點：

計算密集型，通常需要專用硬體（例如 GPU 或 TPU）。
最佳化可以採用量化或蒸餾等技術來降低延遲和計算成本。
直接關注模型的執行時行為。

LLM Serving

主要特點：

通常包含 API 接入層、負載均衡、自動擴縮容、服務監控和日誌記錄。
支援多租戶、速率限制和故障轉移等高階特性。
針對高可用性、可擴充套件性和使用者體驗等系統實現整合並進行最佳化。

定義：指支援使用者或應用程式能夠大規模地訪問 LLM Inference 的基礎設施和軟體系統。
責任範圍：主要是指支援 LLM Inference 的端到端的服務流程，包括但不限於請求接入處理、請求路由處理、流量管理和模型管理等。
場景示例：譬如支援 vLLM[2] 的 Kserve[3] 框架，可以便捷和高效地為多個使用者或應用程式提供 LLM 推理預測服務。

從上面的對比我們可以看出來 LLM Inference 的關注點在模型的執行本身，譬如模型的記憶體管理和算力資源的分配，如上面列舉到的 vLLM，它透過借鑑作業系統中虛擬記憶體和記憶體分頁管理的理念，實現了 LLM 服務推理中記憶體使用的最佳化方案，並解決了大模型載入和執行時許多記憶體使用的問題。而 LLM Serving 則是更多的面向使用者和客戶端，透過 IT 工程實踐去解決使用大語言模型的問題。以上面的 Kserve 為例，在技術層面提供了模型服務的擴縮容能力，並支援同系列模型不同版本（譬如 ChatGPT3 和 4，Llama2 和 Llama3）的服務（模型的路由服務）。Kserve 也透過提供標準化的資料平面協議和自身的 ServingRuntime 等概念來支援不同的機器學習框架訓練出來的模型，以此來提供一致的服務推理體驗。

筆者列舉上述技術框架的原因並不是為了打廣告，而是透過實際的技術案例來強調說明 LLM Inference 和 LLM Serving 的差別。同時，細心的讀者應該關注到，LLM Serving 一般來說是需要整合特定 LLM Inference 的能力的。但是絕不能就此武斷的說：LLM Serving 包含了 LLM Inference。也就是說，兩者並不是簡單的包含與被包含的關係。打個比方，不能因為一個 Web 應用開發框架集成了關係資料庫的能力，就說這個開發框架包含了關係資料庫。

LLM Inference 和 Serving 視角下的 MCP

為了說明清楚這個問題，不得不再以此說明一下 MCP 的概念，為了簡單起見，筆者將 MCP 官網的定義直接放在了下面：

MCP is an open protocol that standardizes how applications provide context to LLMs. Think of MCP like a USB-C port for AI applications. Just as USB-C provides a standardized way to connect your devices to various peripherals and accessories, MCP provides a standardized way to connect AI models to different data sources and tools.

透過 MCP 官網的定義看來，MCP 更像一個橋樑，用來連線 AI 模型（當然包括大語言模型）和不同的資料來源與工具（讀者覺得這裡的 tools 可能含義很寬泛，可以包括上文提到的 AI applications，可以是 function calling，也可以是 AI-Agent，甚至可以是包含外部知識庫和提示詞工程的應用等等）。那麼對比上面 LLM Inference 和 LLM Serving 的概念，其實是很難做出一個確定的劃分的。

再來看看 MCP 的架構：

圖片來源於：MCP Architecture

從上圖展示的情況來看，MCP Server 承擔的角色更像是 LLM Serving 的角色，而從它面向 Host（可以想象成是使用者端）的 MCP Client 來看也印證了這個想法。然而，事情到這並不算結束，因為 MCP 的引入主要是為了實現 AI 模型和不同資料來源和工具的標準化接入。可以考慮如下的場景（包括不僅限於）：

連線提示詞工程最佳化的 function calling 或者工具，使得服務推理更加精準有效。
連線外部知識庫，使得 LLM 能夠得出更專業和有價值的反饋。
連線外部智慧體來實現複雜的任務和工作流
……

從上面的場景上來看，MCP 的引入可以最佳化 LLM 的服務推理過程，提升 LLM 的執行時行為的準確度和針對性，同時也增強了 LLM 與外界的互動體驗。而這些點又正好是 LLM Inference 所關注的地方。綜上分析可以明顯的看到，MCP 實際上對於 LLM Inference 和 LLM Serving 的功能範圍都是有所涉及的。雖然 MCP 並不是完整的功能點覆蓋，而是一個 Inference 和 Serving 的簡單複合體，但是很難將其歸類於 LLM Inference 和 LLM Serving 的任何一邊。做出這樣的分析，其目的當然是為了更好的評估和理解未來 MCP 的發展方向。

MCP 未來的發展預測

根據上一小節的分析可以知道，MCP 作為一個連線 LLM 和 AI 應用的橋樑，它是 LLM Inference 和 LLM Serving 的簡單複合體，它未來是還有很多事情需要去做的。這些事情不僅僅是功能點的覆蓋，比如“橋樑連結”之間的鑑權和認證策略的增強，大規模使用者使用場景時的路由負載均衡，流量管理，以及基礎設施服務建設等等，讀者覺得更重要的是對 LLM Inference 和 LLM Serving 的功能範圍的明確劃分，將 LLM Inference 劃分為 MCP 的 Backend Service，而將 LLM Serving 劃分為 MCP 的 Frontend Service。經過這樣的分離，MCP 的 Backend Service 部分可以重點關注模型自身的執行時最佳化，而 MCP 的 Frontend Service 則可以聚焦於工程技術的最佳化，以更好的實現其與使用者之間的橋樑作用，兩個部分分別獨立的發展演進，引入前沿的技術成果且互不影響。

當然，以上分析和預測純屬於筆者自己的一些思考和感想，並不代表技術社群的既定發展方向，僅用於與讀者分享看法和共同探討。

關於作者

張懷龍，曾就職於阿爾卡特朗訊、百度、IBM、英特爾等知名公司擔任高階開發職位，擁有 16 年技術研發經驗，專注於雲原生微服務技術，並在雲原生與 LLM 技術的交叉領域進行創新實踐，如致力於雲原生場景下的 LLM 服務推理，曾工作在 Istio，OpenVINO、Kserve 和 OPEA（企業 AI 開放平臺）等技術社群。作者也曾在 KubeCon、ServiceMeshCon、IstioCon、GOTC、GOSIM 和 InfoQ/Qcon 等會議上發表技術演講。

參考文件：

https://modelcontextprotocol.io/introduction

https://docs.vllm.ai/en/latest/

https://kserve.github.io/website/latest/

活動推薦

AICon 2025 強勢來襲，5 月上海站、6 月北京站，雙城聯動，全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合，匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票，一同探索 AI 應用邊界！！