

幻方目前擁有 1 萬枚英偉達 A100 晶片,2023 年 4 月幻方宣佈成立新組織,集中資源和力量,探索 AGI(通用人工智慧)的本質,在一年多時間裡進展迅速。
自2024年起,DeepSeek在AI領域迅速崛起並不斷迭代。從年初發布初始版本,到後DeepSeek持續迭代升級時間模型名稱模型型別主要特點持續迭代升級續融入數學、視覺語言技術的版本,技術實力穩步提升。2024年12月底至2025年1月底,更新尤為密集,釋出了引數眾多且效能提升的V3、支援思維鏈輸出和模型訓練的R1,以及深耕影像領域的視覺和多模態模型。

DeepSeek 的產品體系不斷豐富,每個模型都在不同的領域和任務中展現出了獨特的優勢和效能特點。隨著時間的推移,DeepSeek 在不斷最佳化模型效能的同時,也在推動著人工智慧技術的發展和應用。
DeepSeek 產品技術特點
DeepSeek 採用模型蒸餾技術,極大提升模型推理能力。DeepSeek 官方技術文件顯示,研究人員使用 DeepSeek 模型遴選了 80 萬個樣本,並且基於 DeepSeek-R1 模型的輸出對阿里 Qwen 和 Meta 的 Llama 開源大模型進行微調。評測結果顯示,基於 DeepSeek-R1 模型蒸餾的 32B 和 70B 模型在多項能力上可對標 OpenAI o1-mini 的效果。DeepSeek 研究結果表明,蒸餾方法可以顯著增強小模型的推理能力。

DeepSeek 採用蒸餾技術得到的模型效果優於同等條件下使用強化學習(RL)的效果。技術文件顯示,DeepSeek-R1-Zero-Qwen-32B 模型是研究人員在 Qwen-32B-Base 模型基礎上使用數學、程式碼、STEM 資料進行超過 10,000 步的 RL 訓練得到,其各項測評結果均差於 DeepSeek-R1 模型透過蒸餾得到的 DeepSeek-R1-Distill-Qwen-32B 模型。考慮 RL 方法需要大量的計算資源,蒸餾方法在效能和價效比方面均呈現出顯著的優勢。

Janus-Pro 是 DeepSeek 釋出的一款統一多模態理解與生成的創新框架,透過解耦視覺編碼的方式,極大提升了模型在不同任務中的適配性與效能。其中,Janus-Pro 的 SigLIP編碼器專門負責理解影像,能提取影像的高層語義特徵,並關注影像的整體含義和場景關系;而 VQ tokenizer 編碼器,專門用於創作,將影像轉換為離散的 token 序列,這樣架構創新使得 Janus-Pro 在 7B 引數規模下,僅用 32 個節點、256 張 A100 和 14 天的時間就完成訓練並取得出色效能表現。

DeepSeek-V3透過演算法創新和工程最佳化大幅提升模型效率,從而降低成本,提高性價比。
1)從演算法創新層面來看,DeepSeek-V3採用了自主研發的MoE架構,總引數量達671B,每個token啟用37B引數,實現多維度對標GPT-40。其稀疏專家模型MoE,拓展至256個路由專家加1個共享專家,每個token啟用8個路由專家、最多被髮送到4個節點,並引入冗餘專家部署策略,實現推理階段MoE不同專家間的負載均衡,還提出無輔助損失的負載均衡策略,減少效能下降。
此外,多頭注意力機制MLA圍繞推理階段的視訊記憶體、頻寬和計算效率展開,透過創新底層軟體架構,引入數學變換減少KV-cache記憶體佔用,緩解transformer推理時的視訊記憶體和頻寬瓶頸,最佳化注意力計算方式,進一步提高效率。同時,採用創新訓練目標MTP,讓模型訓練時一次性預測多個未來令牌,擴充套件預測範圍,增強對上下文的理解能力,最佳化訓練訊號密度,將推理速度提升1.8倍。
2)在工程最佳化方面,DeepSeek-V3創新性地大範圍落地FP8+混合精度策略,計算精度從主流的FP16降到FP8,保留混合精度策略,在重要運算元模組保留FP16/32保證準確度和收斂性,兼顧穩定性和降低算力成本。
3)在解決通訊瓶頸問題上,採用DualPipe高效流水線並行演算法,實現接近於0的通訊開銷。
據DeepSeek-V3的技術文件,該模型使用資料蒸餾技術生成的高質量資料提升了訓練效率。透過已有的高質量模型來合成少量高質量資料,作為新模型的訓練資料,從而達到接近於在原始資料上訓練的效果。DeepSeek釋出了從15億到700億引數的R1蒸餾版本。這些模型基於Qwen和Llama等架構,表明複雜的推理能力可以被封裝在更小、更高效的模型中。
蒸餾過程包括使用由完整DeepSeek-R1生成的合成推理資料對這些較小的模型進行微調,從而在降低計算成本的同時保持高效能。讓規模更大的模型先學到高水平推理模式,再把這些成果移植給更小的模包。
英偉達、微軟等巨頭攜手 DeepSeek,推動 AI 落地革新
國內外晶片廠商和雲服務廠商迅速響應,紛紛接入 DeepSeek 模型,在海外,以英偉達、微軟、亞馬遜為首的科技巨頭率先採用 DeepSeek,在國內,騰訊雲和華為雲已經上線DeepSeek 相關服務。
-
英偉達:2025 年 1 月 31 日,英偉達(NVIDIA)宣佈,NVIDIA NIM 已支援使用 DeepSeek – R1。
-
微軟:2025 年 1 月 30 日,微軟宣佈已將 DeepSeek – R1 正式納入 Azure AIFoundry,成為該企業級 AI 服務平臺的一部分。微軟強調,DeepSeek – R1 模型已透過 “嚴格的紅隊測試與安全評估”,並歷經 “模型行為自動化檢測與廣泛的安全審查” 以降低潛在風險。
-
亞馬遜:2025 年 1 月 31 日,亞馬遜表示 DeepSeek – R1 模型已可在 AmazonWeb Services 上使用,這一合作彰顯了 DeepSeek 模型在雲計算場景中的價值,有助於亞馬遜為使用者提供更具創新性和高效性的 AI 技術,提升使用者在電商、數據分析等領域的體驗,推動業務發展。
-
騰訊雲:2025 年 2 月 2 日,騰訊雲宣佈將 DeepSeek-R1 大模型一鍵部署至其HAI 平臺,開發者僅需 3 分鐘即可完成接入。這一舉措降低了開發者使用DeepSeek-R1 模型的門檻,使得更多基於該模型的創新應用能夠快速開發和部署。藉助騰訊雲 HAI 平臺的強大算力和豐富的生態資源,DeepSeek-R1 模型有望在內容創作、智慧客服、資料分析等多個領域發揮更大的作用,為騰訊雲的使用者提供更加智慧化的服務。
-
華為雲:2025 年 2 月 1 日,矽基流動和華為雲團隊聯合首發並上線基於華為雲昇騰雲服務的 DeepSeekR1/V3 推理服務。
國產大模型推理能力提升,加速在應用端落地
DeepSeek 最新版模型展現出來的優異能力,表明國內大模型推理能力提升到一個新的階段,大模型在各領域的應用有望加速加速落地。我們認為,DeepSeek 給 AI 研究和企業端應用都將帶來革新。
-
以秘塔 AI 搜尋為例,在融合 DeepSeek-R1 後,實現了 “國產最強推理 + 全網即時搜尋 + 高質量知識庫” 的結合,在多個方面利用 DeepSeek 技術提升使用者體驗:
-
處理複雜問題:藉助 DeepSeek-R1 強大的複雜推理能力,結合自身的聯網檢索和海量知識庫 / 論文資料,處理複雜查詢。
-
提升專業知識查詢能力:在查詢專業知識時,如 OpenAI 模型進展相關問題,秘塔 AI 搜尋可利用 DeepSeek 的推理能力深入分析資料。
-
最佳化搜尋結果質量:對接 DeepSeek-R1 的推理能力後,秘塔 AI 搜尋可以更準確地理解使用者查詢意圖,處理多條件篩選、語義模糊等複雜查詢,返回更快速、相關、精準的資訊結果。同時,透過分析資訊來源和內容邏輯性,過濾謠言等虛假資訊,增強搜尋結果的真實性和可靠性。
-
助力深度知識挖掘:讓 DeepSeek-R1 擁有 AI 聯網搜尋及背後的高質量索引庫,能夠即時查詢最新資料,全網蒐羅、分析各種論文並形成思維導圖彙總,滿足使用者從查詢一項研究 / 技術的最新進展到縱觀一個學科技術發展歷程等多樣需求。
相關文章:



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(44本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

