
在當今數字化轉型的浪潮中,大模型技術已然成為企業提升競爭力的關鍵驅動力。DeepSeek 作為國內極具實力的大模型代表,正引領著眾多企業邁向智慧化變革的新徵程。從教育領域到金融行業,再到網際網路巨頭的核心業務,越來越多的頭部企業紛紛完成 DeepSeek 的私有化部署,並積極開展垂直訓練,以滿足特定業務場景的深度需求。
近期,國產 DeepSeek 大模型憑藉其卓越的自然語言處理能力和強大的深度學習架構,在各行業掀起了智慧化升級的浪潮。2 月 15 日深夜,有媒體發現微信搜一搜在測試接入 DeepSeek – R1 ,入口在微信首頁上方的搜尋框,點開會出現一個 “AI 搜尋” 功能,處於灰色測試階段,只有部分人可以看到。點選之後可選擇 “深度思考”,即 DeepSeek R1 模型,搜尋時會展示思考推理的流程。騰訊相關人士回應稱,微信搜一搜在呼叫混元大模型豐富 AI 搜尋的同時,正式灰度測試接入 DeepSeek,被灰度到的使用者,可在對話方塊頂部搜尋入口,看到 “AI 搜尋” 字樣,點選進入後,可免費使用 DeepSeek – R1 滿血版模型,獲得更多元化的搜尋體驗。此前,騰訊多款產品已接入 DeepSeek,如騰訊 AI 助手 “騰訊元寶” 完成更新,同時支援混元和 DeepSeek 兩大模型;騰訊雲 AI 程式碼助手 ima 也接入了滿血版 DeepSeek – R1 模型。

2 月 16 日晚間,百度搜索和文心智慧體平臺宣佈將全面接入 DeepSeek 和文心大模型最新的深度搜索功能。搜尋使用者可免費使用 DeepSeek 和文心大模型深度搜索功能,文心智慧體平臺的開發者也將能隨時呼叫 DeepSeek 模型建立並調優智慧體。這一舉措標誌著百度搜索技術體系的重大升級,有望為使用者帶來全新的搜尋體驗。
在金融領域,多家頭部公募基金積極行動,匯添富基金率先宣佈完成 DeepSeek 系列開源模型的私有化部署,並將其應用於投資研究、產品銷售、風控合規、客戶服務等核心業務場景。天弘基金利用原生 DeepSeek R1 訓練自己的金融推理大模型,博時基金在不同階段不斷升級部署 DeepSeek 模型,並探索其在投資研究、諮詢服務和軟體開發等方面的應用 。國泰基金完成私有化部署後,搭建了 AI 應用開發平臺,在品牌持營、風險管控等業務場景中取得不俗表現。數禾科技也已完成 DeepSeek – R1 – 32B 和 DeepSeek – R1 – 671B(滿血版)的私有化部署,強化了企業 AI 生態的自主可控能力,為普惠金融業務流程數智化轉型提供有力支撐。
在教育行業,好未來、中公教育、網易有道等頭部機構也密集宣佈 DeepSeek 技術融合進展。中公教育完成 DeepSeek 系列模型私有化部署方案,其自主研發的 “雲信” 垂直大模型已進入應用階段,藉助 DeepSeek – R1 模型出色的上下文處理能力,測試中的 AI 就業規劃系統能同時解析多頁的崗位說明文件。網易有道全面接入 DeepSeek – R1 大模型,優化了 AI 全科學習助手 “有道小 P” 的個性化答疑功能。
這些企業的積極實踐表明,DeepSeek 私有化部署已成為各行業提升業務效率、創新服務模式的重要手段。然而,在實際操作過程中,企業也面臨著諸多挑戰,如資料隱私保護、硬體資源需求、模型最佳化等問題。這種大模型在垂直領域的遷移存在很高的技術門檻。例如,如何解決大模型在領域遷移中的資料處理問題,如何在有限的算力下進行高效微調,如何部署這些模型以滿足實際應用的需求,以及如何持續最佳化以降低部署後的推理成本等。整個工業界與學術界都缺乏這樣的專業人才,也沒有合適的資料介紹垂直領域遷移所涉及的完整知識體系,而這些問題在《大模型垂直領域低算力遷移:微調、部署與最佳化》一書中都能找到解決方案。

在企業內部使用 DeepSeek 進行私有化資料的垂直訓練時,資料隱私保護至關重要。書中詳細介紹了資料加密、差分隱私、聯邦學習等技術方案。在資料傳輸過程中,透過使用 TLS/SSL 協議加密,確保資料在網路中傳輸的安全性;對於儲存的資料,採用 AES 加密對訓練資料和企業模型權重進行加密儲存。在訓練過程中,利用差分隱私技術,新增隨機噪聲,防止模型洩露原始資料,還可使用開源工具 Opacus 實現差分隱私訓練。對於聯邦學習,書中介紹瞭如何將訓練過程分散到多個裝置或節點,使原始資料不離開本地,透過開源框架 PySyft 實現聯邦學習,從而在保障資料隱私的前提下完成模型訓練。
許多企業在進行大模型訓練時,面臨硬體資源有限的問題。本書針對這一痛點,提出了引數高效微調(PEFT)的方法。以 LoRA(Low – Rank Adaptation)技術為例,在模型的關鍵層(如注意力層)插入低秩矩陣,僅訓練這些矩陣,這樣可以顯著減少訓練引數,降低視訊記憶體佔用,使訓練在低算力條件下也能高效進行。Adapter 技術則是在模型層之間插入小型神經網路模組,僅訓練這些模組,同樣能達到減少訓練資源消耗的目的。Prompt Tuning 方法透過設計提示詞引導模型生成特定領域的輸出,在節省算力的同時,實現模型在特定領域的有效應用。
書中從需求分析、環境搭建、模型微調、模型評估到部署與應用,給出了一套完整的垂直訓練實施步驟。在需求分析階段,指導企業確定垂直訓練的目標,如構建智慧客服、文件摘要等系統,並評估自身的資料量和硬體資源。在環境搭建方面,詳細介紹瞭如何配置 GPU 伺服器或雲平臺,以及安裝 PyTorch、DeepSpeed 等訓練框架和工具。在模型微調環節,不僅講解了全引數微調(適用於資料量較大且硬體資源充足的情況),更著重介紹了適合低算力場景的引數高效微調方法。模型評估階段,書中介紹瞭如何在驗證集上測試模型效能,使用準確率、F1 分數等指標評估模型效果,以便及時調整超引數。最後,在部署與應用階段,指導企業將微調後的模型部署到企業系統中,並結合 RAG 和向量資料庫實現智慧搜尋等功能。
假設一家企業希望基於 DeepSeek 構建智慧客服系統,以自動回答客戶關於產品和服務的問題。根據書中的指導,企業首先進行資料準備,收集客服對話記錄和產品文件,構建問答對資料集。在模型微調階段,由於企業硬體資源有限,採用書中介紹的 LoRA 方法對 DeepSeek – V3 進行微調,訓練模型理解企業產品和客戶問題。完成微調後,在驗證集上對模型進行評估,根據評估結果調整超引數,確保模型效能達到預期。最後,將微調後的模型部署到企業客服系統,並結合 RAG 技術實現即時答案生成。透過這樣的實踐,企業成功構建了高效的智慧客服系統,提升了客戶服務質量和效率。
大模型的訓練需要大量的資金投入,只有少數大型企業才有可能推出與 ChatGPT 競爭的大模型。中小規模的企業只能選擇低成本的垂直領域遷移技術路線,透過結合領域資料在開源基座模型上進行微調,並結合提示工程,這可能是平衡垂直領域遷移效果與成本的最佳技術選型。基於開源大模型的低算力微調與部署技術無疑是垂直領域低算力遷移的關鍵部分。
如圖 2.1 所示,有多種方式可以實現大模型在垂直領域的遷移與應用,每種方式所 需資源差異巨大。提示工程透過設計專門的提示詞來指導模型回應,不直接涉及模型 引數的調整,因此是一種資源消耗較少的方法。檢索增強生成在生成過程中結合了外部資訊,提高了回答的質量和相關性,同樣也是一種效率較高的方法。引數高效微調 透過對模型引數的區域性最佳化來實現效能提升,是一種既考慮效能又考慮資源消耗的折 中方案。與此相對的是全引數微調,它透過更新模型的所有引數來適應特定任務,盡 管能夠達到最優效能,但需要更多的成本投入。最後,從頭預訓練需要構建一個全新 的模型,這是所有方法中成本最高的一種方案。因此,在選擇模型遷移的方法時,應 權衡效能與成本,根據專案需求和資源限制做出合理決策。

從成本的角度考慮,LoRA 等引數高效微調是低成本微調的首選。在數學和機器學習中,低秩近似是一種常見的技術,用於透過較低維度的表示來近似高維度資料或 矩陣。這種方法可以有效捕獲資料的主要變化方向,而忽略噪聲或不重要的變化。大 多數垂直領域遷移的微調任務只需要對原始模型的引數進行較小的修改就能達到較好 的效果。LoRA 方法透過使用一個較小規模的矩陣來近似這些修改,如圖 2.8 所示。

LoRA 方法的優勢在於,透過對權重矩陣施加低秩近似,實現了對模型的有效微 調,同時顯著減少了災難性遺忘的風險。這種方法平衡了新舊任務之間的知識保留和 遷移,特別適用於那些要求高度知識保持的場景。
降低大模型的訓練與推理成本是解決垂直領域低算力遷移的核心問題。如圖 2.9 所 示,訓練中最佳化(In-training Optimization)和訓練後最佳化(Post-training Optimization) 是兩種常見的推理最佳化策略。

DeepSeek 的私有化部署和垂直訓練為企業帶來了巨大的發展機遇,但同時也伴隨著諸多技術挑戰。程戈老師的《大模型垂直領域低算力遷移:微調、部署與最佳化》為企業提供了全面、系統且實用的解決方案,無論是資料隱私保護、低算力最佳化還是完整的訓練實施步驟,都能在書中找到專業的指導。

對於正在或計劃進行 DeepSeek 私有化部署和垂直訓練的企業來說,這本書無疑是一本不可或缺的技術指南,助力企業在大模型時代的浪潮中乘風破浪,實現智慧化轉型與創新發展。因此,我們為讀者朋友準備了 3 本《大模型垂直領域低算力遷移:微調、部署與最佳化》。現在,關注 【AI 前線】 公眾號,回覆關鍵字 “大模型” 即可參與抽獎。
