

本文整理自 InfoQ 策劃的 DeepSeek 系列直播第九期節目。在直播中,極客邦科技創始人 &CEO 霍太穩對話神州數碼集團首席 AI 專家謝國斌,深入探討了 DeepSeek 爆火背後,AI 競爭格局將發生哪些變化,以及在新的格局下,AI 企業會面臨哪些新的機會和挑戰,企業又該如何抓住這些機遇。
謝國斌表示,隨著 AI 接入門檻和成本的降低,金融、醫療、教育和汽車等行業的應用可能會率先爆發。除此之外,製造業、辦公行業等也有很大的發展空間。
但對於 B 端企業而言,除了 DeepSeek 這樣的開源大模型外,還需要多方面的技術進行疊加,從多個維度考慮技術的應用,比如:在部署過程中儘可能利用 GPU 算力最佳化,進行進行場景化、專業的小模型訓練,引入私域化的知識,提供一套智慧體協同框架等等。
下文為直播部分內容精選,完整直播回放 & 最新直播預約可關注“AI 前線影片號”檢視。
以下為謝國斌的分享實錄部分(經編輯):
在原創核心技術方面,我們特別關注以下幾個方面。
-
群體相對策略最佳化(GRPO):在傳統的強化學習中,評價一個模型表現好壞的函式通常需要人工設定。而 DeepSeek 採用了一種創新方法,即引入多個“評委”進行投票,取平均值作為評價標準。這種方法省略了人工設定評價函式的流程,簡化了演算法,是強化學習領域的一個關鍵創新。
-
多頭潛在注意力(MLA):該架構透過降維操作大幅壓縮了計算量,顯著降低了模型的訓練和推理成本。
-
混合專家模型(MoE):這種架構透過整合多個專家網路,極大地擴充套件了模型的引數規模,同時在推理側顯著加速了推理過程。這種結構類似於“有通識專家、有專識專家,相互配合、各司其職”,與傳統方法相比,效果顯著提升。
-
多令牌預測(MTP):這一技術已經在很多技術專家的分享和網路部落格中被廣泛討論,因此我們這裡也不再詳細介紹。

在企業應用落地方面,DeepSeek 的價值主要體現在以下四個方面,這些價值對全球 AI 格局產生了深遠影響。
-
降低推理成本:雖然訓練成本已經較低,但 DeepSeek 的最大優勢在於推理成本。透過 MLA 等技術,推理成本降至之前的約 3%,降低了 97%。這一優勢對中小企業尤其友好,能夠加速 AI 大模型在企業應用場景中的落地。
-
模型思考,深度如人:R1 模型是一個深度思考模型,不僅提供問題的答案,還展示了推理過程,類似於數學題的解題步驟。這種推理模型的可解釋性更強,更適合賦能更多企業應用場景。使用者可以透過模型的推理過程,清晰地看到模型是如何得出答案的。
-
小模型,大作為:除了完整的全參模型,DeepSeek 的 R1 模型還蒸餾出了 7 個不同尺寸的小模型。這些小模型資料質量高,蒸餾效果優於同類尺寸模型。在企業落地時,可以選擇這些小模型,進一步降低推理成本,同時保持良好的效果。
-
開源、全棧自主可控:DeepSeek 將模型開源,為全球同行和企業提供了一個自主研發和迭代的基礎。目前,國內眾多企業,包括晶片企業和雲廠商,已經開始接入 DeepSeek 原生態模型。這不僅推動了國產化程序,也為建立安全可控的 AI 生態提供了重要的參考和標杆。
在全球市場,包括國內的重點領域,AI 市場格局發生了諸多變化,對企業與個人而言,機遇與挑戰並存。以神州數碼為例,我們是一家專注於 ToB 的技術服務公司,從客戶市場需求的角度出發,探討客戶需要什麼樣的 AI 技術企業為其提供服務。除了 DeepSeek 這樣的開源大模型外,企業客戶還需要以下幾方面的技術進行疊加。
-
企業需要將 DeepSeek 大模型部署起來,並在部署過程中儘量利用 GPU 算力最佳化,以節省 GPU 算力成本,無論是訓練成本還是推理成本。
-
基於 DeepSeek 開源模型,企業可以進行場景化、專業的小模型後訓練,例如 7B、14B 等,以降低算力門檻。在訓練過程中,資料來源就像炒菜的原材料一樣重要。只有透過專業的模型訓練,才能保證模型的質量和效果。
-
企業還需要引入私域化的知識,例如企業內部的文件和專家經驗等。這是因為通用的大模型無法滿足企業的個性化需求,就像廚師需要根據客人的口味進行私人化的調製一樣,企業也需要將內部的知識和經驗融入模型中,透過知識管理實現這一點。
-
企業需要提供一套智慧體協同框架。以炒菜為例,整個過程可以分為多個步驟,如放油、炒佐料、放菜品、勾芡等。在企業中,智慧體可以將這些步驟串聯起來,讓每一步都發揮專業功能。在 AI 技術中,這可能涉及引入外部工具,此外,還可以結合不同的大模型和小模型、專業模型和通用模型,以提升智慧體的效果。
當企業的應用越來越多時,就需要一個大模型平臺來承載這四方面的功能,以便在企業中有上百個、上千個應用和智慧體時能夠正常運轉。神州問學平臺正是按照這樣的邏輯進行研發和服務於企業的。在實現過程中,客戶不僅需要技術手段,還希望在業務中實現高準確性和高併發能力。例如,對話機器人在回答客戶問題時,需要較高的準確性,並且能夠同時支援上百個、上千個 C 端客戶的提問。同時,專案還需要滿足經濟預算要求,例如對話機器人的預算可能是 50 萬或 100 萬。最終目標是讓大模型在企業應用場景中落地,幫助企業實現增收降本和提升辦公效率。

客戶需求和市場需求的變化正在深刻地引導整個 AI 市場格局的演變,尤其是 ToB(企業服務)領域。雖然 ToC 領域也會受到影響,但這裡我們重點關注的是 ToB 市場格局的變化。DeepSeek 的出現,憑藉其開源、低成本等特性,正在引發 AI 市場格局的重大變革,並推動商業模式的重塑。
生態格式變化: 眾多企業圍繞 DeepSeek 建立生態,上下游企業紛紛進行 適配。這可能導致市場格局轉向更加開放和多元化的競爭格局。更多的企業將有機會參與到 AI 技術的研發和應用中,推動 AI 技術的普及和創新。
垂直領域分化: 醫療、法律等專業場景將出現基於 DeepSeek 的細分模型,打破通用基礎模型的統治。
產業鏈價值轉移: 上游算力需求向推理側傾斜,下游應用開發門檻降低將催生更多垂直領域 SaaS 服務商。硬體廠商需轉向算力部署和能效最佳化,軟體企業則需強化工程平臺和應用能力。
開源重要性上升: 從 DeepSeek R1 的成功我們可能會看到更多的公司轉向開源或部分開源模型,以保持競爭力。這種變化將促使 AI 市場形成更加良性的競爭環境,消費者也將獲得更具價效比的 AI 服務。
催生新的商業模式:DeepSeek R1 的成功及開源,改變了市場競爭的格局和態勢,將來也會催生新的商業模式。比如圍繞開源生態、高效推理、模型蒸餾等模型架構創新、 核心關鍵技術展開新的商業正規化。
企業流程重塑與再造:DeepSeek R1 的成功及開源,改變了市場競爭的格局和態勢,將來也會催生新的商業模式。比如圍繞開源生態、高效推理、模型蒸餾等模型架構創新、 核心關鍵技術展開新的商業正規化。
對於企業而言,AI 技術的發展既帶來了機遇,也帶來了挑戰,兩者是並存的。
-
DeepSeek 生態的建立為技術企業帶來了新的機會。例如,中小企業可以透過低成本接入 DeepSeek 生態,實現低成本創新。
-
DeepSeek 透過模型蒸餾技術賦能中小企業,降低 AI 開發門檻, 推動 AI 應用從頭部企業壟斷轉向長尾場景滲透,如金融、醫療、 教育等領域。
DeepSeek 輕量版適配手機、電腦 AIPC、IoT 裝置,催生本地 化 AI 應用(如離線語音助手)。
專業標註公司可能會向推理鏈標註等高階服務轉型。
技術企業將面臨更多樣化的挑戰:例如,如何在保證模型效能的同時進一步降低訓練成本和推理延遲等。企業需要不斷提升自身的技術實力和創新能力,以應對這些挑戰。
軟硬協同能力:技術企業需建立演算法 – 硬體協同最佳化能力(如 DeepSeek 的 GRPO、MLA、MoE 與架構創新結合)。
安全合規風險:垂直開源模型應用可能面臨一定的安全風險,需內嵌審計模組。
以我們公司過往的經驗為例,首先,作為一家專注於 AI 技術落地應用的公司,神州數碼的第一個策略是為行業提供完整的 DeepSeek 解決方案。這包括模型的部署,無論是滿血版還是各種尺寸的蒸餾版,以及模型訓練和算力管理。例如,基於千問 32B 這種主流模型,我們現有的平臺產品不僅能支援模型訓練,還能實現多元異構算力的高效利用和管理,從而提升算力的使用效率。同時,我們的平臺還集成了智慧體和知識管理模組,以支援企業場景的應用和適配。我們認為,這個過程不是一個單向的,而是一個不斷迭代的迴圈。透過模型的部署、訓練和應用適配,我們不斷迴圈最佳化,持續抽取企業行業中的最佳實踐案例,從而為客戶提供更優質的解決方案。

我們的第二個策略是踐行 DeepSeek 在行業中的實驗應用,特別是在企業的知識治理平臺上。我們會將企業內部的結構化資料中臺和資料倉庫中的結構化資料,與中臺裡的知識物件以及非結構化資料進行融合。這裡所說的非結構化資料,是指大家常見的 PDF 文件、Word 文件、PPT 文件,甚至是圖片和語音等。這些資料都可以被納入我們的知識治理平臺進行利用。當然,在使用過程中,我們會充分考慮資料的脫敏和安全,確保這些資料僅在企業內部使用,不會對外洩露。基於我們問學的知識治理平臺,我們將企業的知識類化到模型中,或者作為外部工具進行呼叫。

我們的第三個策略是提供一個敏捷的應用流程平臺,類似於廚師炒菜的步驟規劃。我們將其稱為智慧體平臺,它的作用是將一個複雜的應用分解為多個步驟。這就好比人腦的規劃過程——比如從北京到上海出差,我們會先規劃訂機票的時間、起飛時間,以及當地的酒店和行程安排。規劃完成後,在出差過程中會用到各種工具,比如訂機票和酒店,這些工具在我們的平臺上被稱為“功能呼叫”(Function Call)。在此基礎上,我們在規劃過程中設計了執行流程,透過這些流程提高效率並創新企業的業務流程。最後,我們利用低程式碼工具將這些流程串聯起來,從而輕鬆構建智慧體,賦能企業的應用。

神州數碼的未來願景是透過 AI 助力企業內部流程的重塑與再造,提升效率,併為此提供相應的工具和服務。我們認為企業流程主要體現在三個方面:首先是商業模式,即企業如何創造、傳遞和獲取商業價值;其次是管理方法,涉及企業內部運營資源的決策、績效管理等基本實踐;最後是技術的領先性,透過技術架構(如大模型架構、AI 架構和中臺架構)與商業模式和管理方法的融合,提升企業的執行效率、降低成本並最佳化資源配置。
神州數碼提出的“AI for Process”概念,正是商業模式、管理方法和技術架構三者的融合點。我們倡導的企業落地方法論是“大小模型通專融合”,以促進企業 AI 在流程中的應用。具體而言,橫向的基礎模型,如 DeepSeek V3 以及其他商業或開源模型,透過不斷迭代,逐漸從狹義走向廣義,最終邁向通用人工智慧。這些模型就像通識專家,能夠解答各種問題,其通用能力會越來越強。而縱向的專業能力則是透過小模型 (專識專家) 結合場景資料進行微調,例如 7B、14B 模型,它們可能針對金融、招聘、財務或風險管控等具體場景,逐步達到甚至超越專業人才的水平。

以下為對話實錄部分(經編輯):
謝國斌: 我個人認為 MoE 架構很有可能成為主流的大模型架構。在 MoE 出現之前,尤其是在 DeepSeek 出現之前,大約 90% 以上的模型架構都不是 MoE 的。自 2 月份 DeepSeekMoE 架構推出後,我們觀察到許多公司,都在積極跟進這一技術。從現實情況來看,越來越多的企業傾向於嘗試 MoE 架構。
從 MoE 演算法本身的邏輯來看,它也非常適合在行業中佔據重要地位。MoE 架構將專家分為通識專家和專識專家,類似於通用大模型和專業大模型的搭配使用。從 DeepSeek V1 到 V2 再到 V3,專家數量不斷增加,從 16 個提升到現在的 250 多個。我們可以預見,隨著 MoE 架構的不斷發展,專家數量的增加將使其在語義理解上比傳統架構更深入,因為每個專家都專注於特定的任務。此外,與相同引數量的其他大模型相比,MoE 在推理過程中能夠顯著降低成本,對行業應用非常友好。
我們觀察到 AI 競爭的一個趨勢是,國外主要依靠硬體堆砌,尤其是透過大量 GPU 來提升算力,這種方式被稱為“Scaling Law”。但我們認為,演算法創新同樣重要。現在,架構性、核心演算法的創新正在成為一種趨勢,而不僅僅是算力的堆砌。實際上,MoE 架構與傳統非 MoE 架構、硬體堆砌與演算法創新之間並不矛盾,它們是相輔相成的。 當算力堆砌達到一定程度後,自然會有團隊和公司去考慮演算法創新。而在演算法創新的過程中,也會進一步推動資料利用、算力利用和應用創新方面的“Scaling Law”。這種動態的、相輔相成的發展模式更適合未來 AI 在企業中的落地。
謝國斌:RAG 技術,中文稱為“檢索增強生成”,它與大模型的最大區別在於:大模型像是一個已經內化了知識的學生,比如一個學生學習數學,知識被吸收並理解後儲存在模型內部。而 RAG 技術則透過向量檢索和文件切片的方式,從資料庫中調取與問題最相關的片段,這種能力屬於模型外部的增強,與大模型的內部知識儲存有本質區別。簡單來說,一個是模型內部的知識運用,另一個是模型外部外掛的輔助檢索。
RAG 技術本身可以通俗地分為三個步驟:
1. 文件處理。將文件(例如一千頁的內容)進行切片,可以按段落、每 1000 詞或每頁等不同方式切分,然後將這些切片存入向量資料庫。目前有很多開源和商業版的向量資料庫可供選擇。
2. 檢索和召回。當用戶提出問題時,系統會透過向量大模型演算法計算問題與文件片段之間的相似度,從一千頁文件中找出與問題最相關的 5 個片段。這一步主要是基於向量運算的相似度匹配。
3. 答案生成。最後將問題和這 5 個最相關的片段一起輸入到大模型(如 V3 或 R1)中,由大模型理解並生成最終答案。只有這最後一步真正利用了大模型的能力,而前兩步主要依賴於向量運算,與大模型關係不大。
謝國斌:RAG 技術確實能讓大模型的搜尋更加精準。一方面,大模型的訓練資料通常有一個截止日期,比如截止到今天。這意味著模型在上線後無法即時處理新資訊,例如明天北京下雨這樣的即時資訊或新聞。這時,就需要透過外部知識或企業內部知識,以資料灌入的方式臨時更新模型的知識庫。這就是 RAG 的切片和檢索增強生成過程。另一方面,企業內部資料量龐大,不適合直接用於模型訓練,而 RAG 技術提供了一種低成本的解決方案。目前,許多雲廠商提供的向量資料庫報價非常低廉,幾乎可以忽略不計。RAG 技術不僅能即時更新資訊,還能快速處理資料。如果 RAG 配置得當,其檢索速度可達毫秒級,尤其在文件切片合理、資料量較小時,效能優勢尤為明顯。不過,RAG 的語義理解能力相比大模型內化的語義理解稍弱。因此,RAG 技術在 2024 年得到了廣泛應用,尤其是在企業知識管理領域。
謝國斌: 對於中小企業而言,大模型 DeepSeek 的影響主要體現在以下幾個方面。首先,在具體場景中選擇落點時,中小企業可能對資料隱私和準確性要求並不那麼敏感。因此,我們建議的低成本接入方法是,選擇一個數據隱私要求不高、對準確性要求不那麼嚴格的場景,先將其跑通。在這個階段,企業可以使用 DeepSeek 的開源雲 API,利用雲上的資料進行開發。這樣可以讓企業內部的 IT 人員和業務人員對整個流程有一個全新的認識,瞭解對話機器人或內部問答系統是如何運作的。
當企業對流程有了全面理解後,可迅速切換到更敏感的場景,就可以開始考慮私有化部署 DeepSeek。在私有化部署的初期,可以選擇一些小引數模型,比如 14B、32B,或者是 DeepSeek 蒸餾版本的模型。透過小引數模型的私有化部署,企業既能保證資料安全,又不會因為一次性部署滿血版模型而承擔過高的伺服器成本。當某些場景對精度要求較高時,企業可以選擇兩條路徑:一是直接使用 DeepSeek 的滿血版開源模型;二是基於企業自身資料進行微調或模型蒸餾,從而提升精度。這些方案對中小企業來說較為友好,關鍵在於先跑通流程。
我們判斷,金融、醫療、教育和汽車等行業的應用可能會率先爆發。這些行業對 AI 技術的需求大,市場空間廣闊,但同時也面臨著較高的開發成本和門檻。透過我們提到的技術落地方案,如模型微調、資料蒸餾等,結合平臺工程能力,可以大幅降低開發門檻,釋放行業潛力。當然,除了這些行業,製造業、企業辦公等應用也有很大的發展空間。
謝國斌: 在金融領域,我們已經有了一些大模型的應用案例。神州數碼在金融領域已有多年佈局,尤其是透過上市公司神州資訊與相關企業展開合作,專注於金融科技和金融軟體的研發和服務。在銀行核心系統的開發中,以前 程式碼編寫和業務場景設計 主要依賴人工。現在,我們透過 DeepSeek 和大模型技術,將其應用於銀行核心系統,提升程式設計效率和交付能力,同時最佳化與企業業務相關的流程設計。在銀行獲客和營銷方面,我們利用大模型處理結構化和非結構化資料,幫助銀行更好地理解客戶、獲取客戶,並助力零售業務發展。大模型不僅可以作為對話機器人,還能最佳化企業內部資訊溝通流程,尤其在客戶認知和客戶獲取方面,提供了很大幫助。
此外,我們在金融風控和監管報送領域也進行了實踐探索。例如,在銀行、監管部門的一些業務應用中,大模型能夠快速分析資料之間的複雜關係,幫助防範金融風險。因為銀行流程中存在大量控制點,僅靠人工判斷有時難以快速響應,而大模型可以高效處理這些複雜關係,從而在金融風控和監管報送領域發揮重要作用。
謝國斌: 在為 ToB 客戶提供 IT 運維服務時,DeepSeek 可以從兩方面帶來價值。一方面是為客戶(甲方)創造價值。對於客戶的機房和後臺系統,包括安全系統、日誌系統、郵件系統等,運維過程中涉及大量非結構化資料,如計算機日誌和文件。這些場景非常適合利用大模型進行處理。過去依賴人工的環節,現在可以透過運維框架中的運維智慧體來實現,從而降低服務成本,最佳化流程。這正是 AI for Process 在運維領域的體現,能夠為甲方帶來顯著的流程最佳化價值。
另一方面,對於提供 IT 運維服務的企業自身而言,DeepSeek 也具有巨大價值。在運維過程中,企業可以基於大模型開發小型工具,例如程式碼工具、自動檢測工具、警報工具或 BI 工具等。這些工具能夠降低企業在服務過程中的自身人力成本和研發成本,提高服務效率。因此,從服務甲方和最佳化自身成本兩方面來看,DeepSeek 都具有潛在的巨大收益。
謝國斌: 從學術和常識角度來看,蒸餾分為 資料蒸餾和模型蒸餾。資料蒸餾是指透過呼叫優質模型的 API,以問答形式按照固定格式生成標準答案,甚至推理過程。DeepSeek 在其論文中就採用了資料蒸餾的方式。模型蒸餾則是用大模型去指導小模型學習。業界有一個通俗的比喻:假設有一個資深的高階數學教師(大模型,如 R1/V3),他要教一個聰明的學生(小尺寸模型,如 32B)。教師將自己的知識和技能逐步傳遞給學生,這個過程就是蒸餾。經過蒸餾,小尺寸模型在企業應用中會有兩個顯著好處:
-
模型尺寸變小,推理時算力需求降低,從而極大節省成本。例如,一個滿血版的大模型(如 R1-671B)可能需要兩臺機器、16 張顯示卡來部署,成本極高。但如果將其蒸餾到 32B 模型,僅需一張顯示卡即可部署,成本節約可達十幾倍到幾十倍。
-
經過蒸餾的小模型在特定領域會變得越來越聰明,甚至可能在某個細分領域超過大模型。比如在數學的某個子學科(如代數或幾何)上,經過良好訓練的小模型可能表現得比大模型更出色。我們在實踐中也觀察到類似現象,許多論文也復現了這些結果。
因此,對中小企業而言,蒸餾技術最大的好處是降低成本,同時在具體場景中可能實現比大模型更優的效能。
