手搓Manus+DeepSeek：橫掃企業私有化AI場景應用

作者：ZStack

在我們前幾篇文章中，我們深入探討了 DeepSeek-R1 系列模型（蒸餾版7B、32B，以及671B 量化版和非量化版）的部署和推理原理。

然而，面對如此多樣的模型選擇，企業在實際應用中常常困惑：哪種模型適合特定場景？該使用推理模型還是通用模型？不同模型的投入成本與效能表現如何平衡？本文將針對這些問題，先對目前最常見也火爆的知識庫、程式碼輔助和智慧體（Manus）場景進行分析，最後結合當前硬體成本和實際企業應用場景，提供系統的分析和建議。

本文目錄

一、場景 1：知識庫

二、場景 2：程式碼輔助

三、場景 3：智慧體（Manus）

四、企業 AI Infra 建設方案建議

五、總結與展望

場景 1：知識庫

企業知識庫應用是大模型落地最常見的場景，對於簡單的、對幻覺容忍度較高的場景，例如旅遊景點問答或內部輔助等場景，業界已經形成了非常標準的 RAG 三件套——embedding + LLM + rerank（文件切片、向量化、檢索內容重排、大模型總結答案），在上述簡單場景中已經可以運用到實踐中。

但在要求更高的企業場景中，知識庫常常是“Demo 三天、最佳化半年”，這是因為在企業實際應用中，知識庫的核心技術 RAG 往往會面臨諸多挑戰。根據業內實踐，知識庫部署主要存在以下難點：

多跳問題處理
多跳問題常見於企業報告資料整理環節、大量同義近義用語乃至指代等場景，如"從多份報表中找出企業近三年的複合增長率並與競對比較"。這類問題需要模型具備理解意圖、拆分實體和進行多步推理的能力。
上下文內容丟失問題

企業文件中的關鍵資訊如時間、區域標記往往分散在文件不同位置，傳統 chunking 方法容易造成資訊丟失。例如，財報中年份資訊可能只在檔名和大標題出現，導致分割後的文字片段失去時間背景。
結構化資料處理
企業需要同時處理結構化資料（如資料庫、Excel 表格）和非結構化資料。大模型原生處理的是非結構化資料，但企業場景中結構化資料同樣重要。
計算與邏輯推理問題

在一些場景裡，需要對輸入資訊進行綜合計算和推理，例如已知某些配件的價格，需要計算總體的成本等。
多模態內容解析
企業文件中包含大量圖表、思維導圖等複雜視覺內容，需要佈局識別和理解能力，而非簡單的 OCR。

對此，業界也提出了諸如問題分類（Routing）、問題最佳化（Rewriting）、知識圖譜（GraphRAG）、複雜文件提取等方法，但這些方法往往涉及不同模型的配合，那麼如何選擇模型、如何讓模型快速配合、確保每個步驟的落地就變成了關鍵問題。

（圖片來自網路）

接下來，我們將這些業界方案分為“知識構建”、“知識檢索”和“答案生成”三個階段來看。

階段 1：知識構建

不難發現，知識構建階段會涉及到多種大小各異的模型，例如 embedding、OCR 之類小模型可能最低僅需要幾 GB 視訊記憶體，而企業級的知識圖譜提取、大語言模型則通常需要上百 GB，因此，在 AI Infra 層面一定要考慮到對視訊記憶體的靈活切分，以適應各種模型的測試、推理需求。

如圖，透過 ZStack AIOS 智塔所支援的視訊記憶體切分，可以將 24GB 卡切分出 4GB，足以滿足高效能向量模型的需要，並能夠提供 360 以上 QPS。

階段 2：知識檢索

結構化輸出 是指大語言模型(LLM)生成的具有預定義格式的輸出，如JSON、XML、表格或其他特定結構的資料，而不是自由形式的文字。這種輸出方式使模型的回答具有一致的格式和明確的資料結構，便於後續程式處理和解析。

如下圖所示，ZStack AIOS 智塔支援結構化輸出（這裡透過 Swagger UI 演示），這樣開發者不需要處理小模型不遵循指令的情況，這樣用小模型處理問題分類或問題最佳化會方便很多。

階段 3：答案生成

答案生成階段對大引數模型的依賴更重，需要更加龐大的 GPU 算力叢集，也意味著更高昂的硬體成本，企業需要重視叢集架構、網路傳輸及儲存系統的規劃和效能提升方案，力求將硬體效能發揮到極致。

如下面影片所示，ZStack AIOS 智塔支援 Nvidia、Huawei、Hygon 等 GPU/NPU 的大模型推理，充分發揮多晶片叢集的效能，並且在橫向擴充套件方面具備出色的靈活性，為企業最佳化算力資源、降低成本提供了有力支援。

小結

知識庫是企業應用中常見且需求旺盛的部分。然而，RAG 知識庫 “Demo 易，上線難” 的問題，始終困擾著大模型應用開發者。這不僅依賴大模型能力提升、工程應用創新微調，更離不開底層平臺的支撐最佳化，多方協作才能構建線上 AI 服務。

如今，知識庫不再由單一的大語言模型包攬所有問題，而是在多種工具、模型配合實現，特別是大小模型配合、向量多模態語言模型、OCR 類傳統模型和生成式模型配合，

在實踐中不斷運用各類工具，充分結合業務資料的多樣性和特定場景達到比較好的效果，這都需要底層平臺的強大支撐。

若想了解 ZStack 在 RAG 場景的經驗，可參考此前文章《DeepSeek 企業應用落地：智慧客服如何助力科技企業》

場景 2：程式碼輔助

得益於大量的開源高質量程式碼，目前 AI 在程式碼生成上是非常擅長的，我們將 AI 程式碼輔助分成幾種場景，以方便我們在效果、成本之間進行權衡。

1. 開發者以對話形式向 AI 提問

2. 開發者完成程式碼後由 AI 進行程式碼評審

3. 開發者透過 IDE 整合 AI 來完成程式碼補全

4. 開發者提出思路或目標由 AI 完成程式碼或任務

1、對話場景

目前適合程式碼輔助的 AI 主要分為通用模型、推理模型和專用模型，其中推理模型意味著模型在生成最終答案之前會輸出“思考過程”，專用模型意味著模型為程式碼場景專門調優。

從上述表格可知，HumanEval 測試生成的程式碼較短，多數模型已經可以取得較高分數，所以在小規模函式生成以及特定程式碼的 UT 生成方面，大部分模型基本可以勝任。但想要更好效果，一方面需要較長上下文（開發者常對程式碼片段反覆修改），另一方面則需要得分更高的模型。據我們經驗，LiveCodeBench 分數達到 DeepSeek V3，對輔助編寫程式碼就會有很大幫助。

如下圖所示，ZStack 產品研發中心每日 Token 消耗量在 300 萬至 500 萬左右（週末用量會減少），主要使用 Qwen2.5 – 72B、DeepSeek 等模型。

2、程式碼評審場景

程式碼評審任務的實現門檻較低，但其上限頗高。最基礎的程式碼評審，僅需將程式碼的 diff 補丁傳送至模型即可，開發者依據常見程式碼風格或其他要求設計 prompt，待 AI 回覆後，再將回復發送至 Gitlab、Gerrit 等內部評審系統。

然而，這種方式效果欠佳，主要存在以下問題：

AI 難以洞悉整個程式碼庫的程式碼風格；
AI 無法掌握程式碼片段的依賴關係與上下文；
AI 無法結合傳統 lint 工具進行細緻檢查。

因此，當下 AI 程式碼評審常採用一系列手段來增加模型輸入，以提升評審效果：

在虛擬機器（適用於測試程式碼涉及複雜現有環境操作的情況）或容器（適用於僅進行靜態 lint 檢查等場景）中執行測試及程式碼掃描；
支援使用者對話，並將相關內容結合 Jira 等問題跟蹤平臺存入向量資料庫，便於搜尋；
藉助依賴分析工具為程式碼搜尋更豐富的上下文。

以上架構目前在 ZStack 產品研發中心也得到運用，平均每天 200 多個 contributions（包含程式碼總結、評論），Review 30 多個 PR，給出 50 多條可行的建議。

下面是 AI 評審的一個具體例子，可以看到 AI 指出了原本在呼叫的 ZStack 內部庫函式 subprocess.call 不夠安全，建議改用內部的 check_call 庫函式，並給出了示例。

接下來這個例子中，AI 評審的效果更為顯著，AI 指出了程式碼中使用的 SystemTag 可能有誤用，這裡無論 DataVolume、SystemTag 都是 ZStack 內部的程式碼概念。這一成果表明，AI 已深度理解 ZStack 的專有概念與架構思路，不僅能夠精準發現問題，還能提供切實可行的指導建議。

3、程式碼補全場景

前面我們看到大部分模型在 HumanEval 上得分都是比較高的，這意味著簡單“程式碼補全”場景使用以上模型基本都可以正常使用，使用小模型可能更有速度和價效比上的優勢。但如果我們希望 AI 更加智慧，當前的 AI IDE 或外掛往往採用了 Plan+Act 的架構，可能需要推理模型和通用模型配合使用，例如 DeepSeek R1 + DeepSeek V3 或者 DeepSeek R1 Distilled Lllama 70B + Qwen2.5 72B。

4、AI 直接完成任務

以上場景都是以人為主，AI 輔助的形式，哪怕是程式碼補全不斷 Tab 或者 Plan+Act 也往往需要人去驗證、測試程式碼。我們最終期望的形式是人只要提要求，AI 就可以自動完成了，這個對系統的要求與程式碼評審類似，但是沙盒的重要性會更高，此外需要更多的儲存來存放執行過程的記錄，下面以 OpenHands 為例進行分析，涉及物件儲存、向量模型、大語言模型、容器沙盒：

當前，AI直接執行任務大多仍處於實驗階段，效果高度依賴大模型自身效能。在2024年的測試裡，Claude 3.5 Sonnet 是表現最為出色的模型，DeepSeek v2.5 的得分僅為 Claude 3.5 Sonnet 的50% 。雖然尚未對DeepSeek V3展開測試，但鑑於 DeepSeek V3 在 SWE Verified 測試中的表現相較於 V2.5 提升了86%，大致可推斷其效能能夠達到 Claude 3.5 Sonnet 的水平。

不過，仍存在以下情況：

– OpenHands目前無法基於推理模型制定計劃，後續仍有最佳化空間；

– DeepSeek系列模型暫不支援Vision功能，在支援任務的多樣性方面相比 Sonnet存在一定差距。

5、小結

企業應搭建基於本地化基礎設施的AI輔助編碼體系，結合自身程式碼庫與工作流特性，靈活融合AI技術，進而提升開發效率與程式碼質量。具體體現在以下幾方面：

多樣化應用場景：目前 AI 在程式碼輔助領域應用廣泛，涵蓋對話問答、程式碼評審、IDE 補全以及自動化任務執行等場景。在不同場景中，企業可按需選用通用模型、推理模型或專用模型，實現精準適配。
合理權衡模型選擇與效能：在短小函式生成和基本程式碼補全方面，多數模型已能獲得較高分數。但面對複雜程式碼片段以及需反覆修改的上下文場景，就需要得分更高且支援長上下文的模型，如 DeepSeek V3、Qwen2.5 系列等進行規劃。企業應依據實際需求，綜合考量成本效益，合理調整模型部署。
程式碼評審和上線檢驗：儘管最簡單的評審方式只需傳遞 diff 補丁，但為了更準確識別程式碼問題與安全風險，需要結合傳統的 lint 工具、虛擬機器/容器測試環境，以及依賴分析工具。透過將 AI 評審建議與內部版本控制、 issue 跟蹤系統結合，能夠更好地滿足企業級質量控制要求。
本地化部署的重要性：透過自建本地化基礎設施，企業可以利用內部程式碼庫和專有工作流來對 AI 模型進行調優，確保模型能更好地理解專案程式碼風格、依賴關係和特定業務邏輯，從而在安全性、準確性與效果上取得更高保障。與此同時，本地化部署也便於整合企業現有工具體系（如 Gitlab、Gerrit 等），推動 AI 輔助編碼方案的落地。

總體而言，企業在構建 AI 輔助編碼方案時，不僅要關注 AI 模型的原始生成能力，更要整合內部資源，構建一個包含程式碼生成、評審、補全及全自動任務執行的閉環體系，實現高效、可靠的編碼輔助與質量管控。

場景 3：智慧體（Manus）

自上週 Manus 釋出以來，智慧體直接執行通用任務進入了大眾視野，社群中也湧現出 Open Manus、Owl 等各類開源復現成果。這實際上是隨著平臺支撐能力的發展，上層應用綜合運用多種工具所呈現出的成效。

其實在上個月 OpenAI Deep Research 憑藉模型+自主搜尋+自主閱讀已經讓很多人感到 AI 的便利，隨著 Manus 釋出，讓更多人看到了 AI 直接完成報告、計劃、遊戲、網頁、聲音的可能性。

智慧體的概念並不稀奇，但 Manus 相比最早的 Agent 在多個方面實現了革新：

充分運用 Browser Use，即透過 AI 使用瀏覽器閱讀網頁
充分運用 Computer Use，即透過 AI 操作電腦，編寫檔案、執行程式碼等
透過沙盒執行程式碼，模仿熟悉計算機和程式設計的人類來完成任務

接下來，我們將逐一對這幾項技術進行介紹。

1、Browser Use

瀏覽器自動化是個非常“古老”的課題。在 UI 測試中，對瀏覽器進行各類自動化操作的需求極為迫切。因此，從 Selenium 到 playwright，無論是採用 headless 設計，還是結合截圖的設計方式，UI 自動化領域幾乎探索了所有可能的途徑。自 Vision 模型釋出後，尤其是 GPT – 4o、Claude 3.5 展現出對網頁極為出色的理解能力以來，人們開始嘗試運用模型以端到端的方式去理解和操作瀏覽器，並且取得了良好的效果。

例如，我們使用開源模型 Qwen2.5 – VL – 72b，成功實現了從 ZStack 官網進入了“幫助與支援”選單，進而跳轉至最新版本特性頁面的操作過程。不過該過程存在較高的延遲，Manus 團隊或許已針對此情況進行了一定程度的最佳化。

透過測試集測試也可以看到目前 Qwen2.5-VL-72B 已經在多個測試上超過 Claude 3.5，甚至 7B 模型目前的效能也不錯且可以大幅提升執行速度。

2、Computer Use

除了操作瀏覽器之外，有些情況可能需要 AI 編寫程式碼、呼叫程式甚至執行一些測試等，測試需要運用到 Computer Use，例如在下面的演示中我們讓 AI 自動打開了瀏覽器，瀏覽了一些網頁最後生成了 Markdown 格式的檔案（影片已經過加速）。

Computer Use 對模型的能力要求和 Browser Use 基本是類似的，區別在於目前 Computer Use 往往需要大量編寫程式碼，透過檔案來一步步完成工作，對程式碼的要求比較高，因此推薦使用程式碼能力強、支援 Tool Use 的模型。

3、沙盒技術

透過上面的分析可以看到，Browser Use 、特別是 Computer Use 在實際執行過程中是存在一定安全風險的，因此需要考慮透過沙盒來確保安全性，因此我們在看 Manus 工作的時候可以看到右側始終有一個 Manus 的電腦，從最終效果來猜測應該是一個虛擬機器或輕量虛擬機器而非容器。在我們測試 OpenManus 和 Owl 等 Agent 平臺時，均採用了在 ZStack AIOS 平臺智塔上啟動 Ubuntu 的雲主機來測試。

4、小結

Deep Research 基於深度網頁搜尋構建報告，為我們的調研與學習帶來了極大便利。Manus 在此基礎上更進一步，儘管不少網文認為其技術壁壘不高，主要依靠工程實現，但我們認為 Manus 這類應用的發展，為企業運用 AI 開闢了廣闊的想象空間：

模型能力提升驅動最佳化：隨著模型不斷進步，其對 Computer Use 的理解將愈發迅速且深入，制定計劃的能力也會相應增強。當下，Manus 存在多 Agent 配合時錯誤可能逐步放大的隱患，但隨著模型能力提升，這一問題有望得到緩解。
解決企業老舊應用自動化難題：企業內部存在大量無法 API 化的老舊應用，或缺乏 API 支援的業務。藉助Browser Use、Computer Use 實現自動化不失為一種可行方案。相較於 RPA，編寫 Prompt 更為靈活、便捷。
推動生成式 AI 融入企業業務：目前生成式AI主要以文字形式輸出，然而文字難以直接對接業務。唯有透過工具呼叫、函式呼叫、網頁呼叫等方式，才能加速生成式AI融入企業業務流程。

企業 AI Infra 建設方案建議

透過上面的介紹可以看到企業完整落地各類 AI 應用需要：

不同的模型，例如小尺寸的 embedding、rerank、語音，中等尺寸的圖形理解、文生影片，大尺寸的推理模型和通用模型等；
不同的算力形式，例如沙盒需要啟動雲主機，模型啟動可能透過容器；
充分測試工具，快速檢驗模型服務可支撐的線上併發、比較模型之間的能力差距等；
良好的運維輔助，監控和分析模型負載狀態、GPU 的工作狀態，提供掉卡報警等。

因此如果要構建一個整體化的 AI 平臺，可以通過幾種方式，我們把各自優缺點和適合場景整理到了下面的表格中：

得益於 ZStack AIOS 智塔的靈活架構，我們給客戶提供了多樣性的解決方案，不同的客戶可以根據自身的機房條件、業務需求和未來規劃進行選擇，而且得益於同一品牌的軟體，現有叢集可以透過升級版本納管 GPU，一體機既可以加入現有平臺也可以獨立使用，如果處於業務安全訴求不能升級也可以透過雲管來統一管理、統一監控、統一運維，給予使用者充分的自由度。

總結與展望

在剛過去的2024 年，AI 落地的關鍵場景聚焦於文生圖、知識庫與程式碼輔助領域。在設計、影視、廣告及遊戲行業，文生圖技術已廣泛落地應用。隨著知識提取技術的精進以及大量開源知識庫軟體的興起，知識庫也為更多人所熟知。而程式碼輔助更是成為多數開發者工作中不可或缺的部分。

然而，生成式 AI 融入業務的路徑與上一代決策式 AI 有所不同。決策式 AI 往往直接切入業務，如提升風控準確率、最佳化商品推薦等。新一代 AI 則率先從賦能個體的生產效率起步，首先提升了設計師、軟體工程師以及客服技術支援人員的工作效率。基於此，企業有必要搭建起支撐底層創新的平臺。這一平臺應確保無論有無程式碼基礎的業務人員，都能在無需擔憂 “Token” 費用及 “資訊安全” 問題前提下，藉助流暢且高效能的模型 API，充分釋放自身創造力，快速嘗試各類新興的 AI 應用。

因此 ZStack AIOS 智塔實現了上述的三層架構：

智算底座：確保運維人員能夠安全、便捷的運維智算叢集，透過多晶片相容保障供應鏈安全；
模型層：允許使用者及時使用到新發布的模型、簡化模型的運維，如果企業自身具有 AI 的團隊，AI 團隊也可以將自身最佳化過的模型或測試的模型直接釋出到雲上，供業務部門測試和對比；
運營層與應用層：不僅提供了服務評測對比不同模型的效果和效能，還內建了一些常用的 AI 應用方便企業快速部署搭建常見應用，加速創新，如果有門戶運營的需求，也可以實現多租戶管理、計費賬單等功能。

基於上述三層架構，充分融合雲平臺本身具備的雲主機、VPC 網路、多租戶等功能，ZStack AIOS 智塔為多個企業打造了智算創新的底座，為企業發揮 AI、落地 AI 奠定了堅實的基礎。