過去兩個月,國產大模型DeepSeek席捲全球。
之所以能夠在全球引起如此廣泛的討論,首先因為它擁有了媲美全球領先的OpenAI-o1模型的效果;其次,該模型將推理成本壓縮到極致。就連OpenAI 執行長Sam Altman在談到DeepSeek的時候也直言:“DeepSeek R1 是一款令人印象深刻的模型,尤其是考慮到它們的價格。”其他如英偉達CEO黃仁勳、圖靈獎得主Yann LeCun和AI科學家吳恩達也對DeepSeek不吝讚美。
在自身實力的加持和這些行業領先專家的背書下,DeepSeek的訪問量暴漲。現如今,DeepSeek訪問使用量急速上升,已經成為目前最快突破3000萬日活躍使用者量的應用程式。又因為這是一個開源模型,進而催生了很多本地部署的需求。
有見及此,各大雲廠商和包括晶片公司在內的AI硬體廠商,都開始打造相應的解決方案,為DeepSeek的落地做好充分的準備。
DeepSeek落地,三種方式


因為本身的特點,市場上的使用者使用DeepSeek主要有三種路徑:
一是使用DeepSeek官方的提供的服務,即是透過其官網或者APP訪問。但正如前文所說,因為其訪問流量大增,該公司的算力配置目前似乎並不能滿足當前的需求,導致頻頻出現“伺服器繁忙,請稍後再試”這樣的提示,大大降低了使用體驗;
二是使用雲供應商提供的服務,例如百度雲、AWS、阿里巴巴、騰訊雲以及華為雲等國內外知名的雲廠商都提供了DeepSeek V3/R1服務,這些公司甚至還將DeepSeek植入到自己的產品矩陣中;
以百度為例,早在2月3號,百度智慧雲千帆平臺就已正式上線滿血版本的DeepSeek-R1和DeepSeek-V3模型,提供超低呼叫價格以及限時免費體驗。“百度搜索”在2月16日進一步披露,百度搜索和文心智慧體平臺宣佈將全面接入DeepSeek和文心大模型最新的深度搜索功能。搜尋使用者可免費使用DeepSeek和文心大模型深度搜索功能,文心智慧體平臺的開發者也將能隨時呼叫DeepSeek模型建立並調優智慧體。
三是本地部署DeepSeek。和以上兩種透過網路訪問DeepSeek的方式不一樣,在本地部署DeepSeek不但在隱私上得到了最高維度的保障。在效能表現方面,本地部署可實現微秒級響應,也優於很多網路訪問的服務。其他諸如使用的便捷性、控制權,甚至整個系統使用週期的成本,也都是優於前兩種。這也正是各地企業、政府甚至私人都在紛紛部署本地DeepSeeK的原因之一。
於是,對於想要部署本地DeepSeek的開發者來說,如何選擇相應的硬體,就成為了他們頭疼的問題。因為如上所述,包括晶片廠商在內的AI硬體供應商都在紛紛切入這個賽道,併發布了其產品。尤其是本土的晶片公司,更是紛紛切入這個賽道,爭先恐後地推出支援DeepSeek的裝置。
值得一提的是,當前推出的機器五花八門,當中有不少受限於本身的實力,只推出僅支援引數量較少的“蒸餾”模型的單機裝置,或者是透過多機協同部署“滿血版”的DeepSeek R1,這時候,能夠支援滿血版DeepSeek R1的單機裝置顯得尤為可貴。因為相較於多機部署,單機部署成本更低、資料更安全、部署更快。不過,因為滿血版的DeepSeek R1需要處理大量資料,而晶片的算力和視訊記憶體直接影響模型的執行效率。因此要想單機部署滿血版DeepSeek R1,就需要能提供高視訊記憶體和算力的晶片。
其中,崑崙芯正是國內少有的,能支援單機部署滿血版DeepSeek R1的晶片。


崑崙芯全方位支援DeepSeek


據瞭解,崑崙芯(北京)科技有限公司前身為百度智慧晶片及架構部,於2021年4月完成獨立融資。公司團隊在國內最早佈局AI加速領域,深耕十餘年,是一家在體系結構、晶片實現、軟體系統和場景應用均有深厚積累的AI晶片企業。
2025年2月20日,崑崙芯科技正式宣佈,崑崙芯P800成為首款支援單機部署DeepSeekV3/R1671B滿血版大模型的國產AI晶片,標誌著國產AI晶片領域的一次重要突破。
作為國產高效能AI晶片的代表之一,崑崙芯P800是本土率先支援單機部署滿血版DeepSeek R1的國產芯,單機部署就能發揮DeepSeek R1全部效能。崑崙芯P800還率先支援 8bit 推理,可提供精度無損的推理服務,在保證計算精度的同時,用更低的計算量完成任務,效率更高。
根據崑崙芯官方資訊,P800在配置上提供了8卡與16卡兩種選擇。其中,單機8卡配置便可實現 2437 tokens/s 吞吐(處理資料快),在效能、功耗和部署靈活性上達到行業領先水平,滿足輕量化與極致效價比需求。如果使用16卡版本,則最高能夠實現每秒處理4825個token的吞吐量。
基於這些表現,對比市面上業已公開資料的廠商,崑崙芯的表現也是國內領先的。如上所述,這主要得益於其大視訊記憶體的設計。

也正是在這個領先晶片支援下,早在2月初,百度智慧雲就成功點亮了崑崙芯三代萬卡叢集,該叢集突破了硬體擴充套件性瓶頸,採用了創新的散熱方案,並對模型進行了分散式訓練最佳化。其實為了提升企業部署、管理大規模計算叢集的效率,百度智慧雲早在2021年就推出了百舸異構計算平臺,目前百舸平臺已升級到4.0,百舸4.0提供了為崑崙芯萬卡叢集提供了容錯和穩定性機制,以確保有效訓練率達到98%。針對機間通訊頻寬需求,百舸還建設了一套超大規模HPN高效能網路來最佳化拓撲結構,從而降低通訊瓶頸並提高頻寬有效性。
面對DeepSeek R1/V3需求的崛起,在公有云服務方面,百度智慧雲千帆大模型平臺為客戶提供了極高價效比的API呼叫服務,價格低至DeepSeek官方刊例價的3折,創下全網最低價。
針對本地部署需求,百度智慧雲也為企業使用DeepSeek提供最具效價比的解決方案。據瞭解,百度智慧雲已經推出搭載崑崙芯 P800的百舸、千帆一體機產品,可支援在單機環境下一鍵部署DeepSeek R1/V3 全系列模型,提供開箱即用的便捷體驗。其中,百舸DeepSeek一體機更是憑藉其領先的配置,能滿足高效能訓練與推理需求。
據介紹,該機單機高吞吐,資料處理速度快,可支援500人團隊併發使用,推理延遲低,響應速度快,平均50毫秒以內,運維成本低,最高可降低80%,這使其價格成為了國內最低的方案,省錢又省心;從開箱到上電到服務上線最快僅需0.5天,省時省力。

回看DeepSeek這一個多月來的夢幻經歷,離不開效能與成本的極致平衡和開源生態的繁榮。作為國內唯一支援單機部署滿血版DeepSeek R1的AI晶片,崑崙芯不僅以高算力、高視訊記憶體和低成本的解決方案重新整理行業標準,更透過百舸、千帆一體機為企業和開發者提供了即開即用的便捷體驗。
從另一個角度看,也正是因為DeepSeek的異軍突起,給崑崙芯等國產晶片創造了更多可能。展望未來,本土硬體和軟體的緊密結合,將為本土大模型的發展提供一條更可控的成長路線,這一切都值得期待。
END
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4047期內容,歡迎關注。
推薦閱讀



『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦

