本週六上午10:00,與英偉達董鑫、Agent2.AI秦楚辭、畫素綻放/ AiPPT.cn江天宇、微軟金瀛探討DeepSeek開源模型引發的AI最新趨勢!
掃描上方二維碼即可報名
蛇年春節,來自中國的開源基座大模型公司DeepSeek火遍全球。其實最早在去年12月下旬, DeepSeek-V3版本開源模型釋出,其創新性地融合了三項關鍵技術——FP8、MLA(多頭潛在注意力)和MoE(混合專家)架構,大幅提升了效能和效率。華爾街隨即將目光聚焦於DeepSeek,因為其後續釋出的模型一次比一次驚豔。2025年1月20日,其釋出DeepSeek-R1,專門適用於數學、編碼和邏輯等任務,效能對標OpenAI o1。1月27日,DeepSeek又釋出了Janus Pro 7B和1.5B模型, 值得一提的是,7B和1.5B這兩個引數量,令DeepSeek的模型具備端側消費級硬體,比如AIPC執行模型的潛力。
從資料來看,DeepSeek爆發力耀眼。2025年2月初,其日活已突破4,000萬,是ChatGPT的約70%,這一增長速度超過了許多同類產品。在沒有任何廣告投放的情況下,DeepSeek僅用7天就完成了1億使用者的增長。
DeepSeek不僅引領了開源模型社群的火爆,還開闢了高性價比訓練模型的全新路徑,並被業界迅速採用,比如加州大學伯克利和香港科技大學的一些小規模實驗就獲得了有效的證實,說明更小規模、更容易採用的模型,也能受益於DeepSeek的創新。這勢必會提升小型研究實驗室、創業公司和小機構的AI參與熱情。此外,開源社群正圍繞DeepSeek-R1迅速形成協作環境,近期Huggingface就計劃上線一系列基於R1模型的版本,工具和教程,更多的公司正加入進來,加速創新和應用的步伐。
由於模型效能卓越,使用者眾多,國內外已有眾多巨頭公司與DeepSeek進行深度合作。在海外,英偉達宣佈DeepSeek-R1模型可作為NVIDIA NIM微服務預覽版使用,稱該模型為推理、數學和編碼等任務提供了“最先進的推理能力”,“高推理效率”以及“領先的準確性”;AMD則將DeepSeek的新模型整合到自己的GPU中,並針對推理進行了最佳化。國內,華為雲宣佈與矽基流動聯合首發並上線基於華為雲昇騰雲服務的 DeepSeek R1/V3推理服務;騰訊雲宣佈在高效能應用服務HAI上支援一鍵部署 Deepseek-R1模型,還將其與騰訊雲的Cloud Studio、物件儲存等服務無縫整合。百度雲、阿里雲也接入相關部署。在汽車行業,東風汽車於2月7日宣佈,已完成DeepSeek全系列大語言模型的接入工作,旗下猛士、奕派、風神、奈米等自主品牌車型將於近期陸續搭載應用;吉利汽車在2月 6日宣佈,其自主研發的星睿大模型已成功與DeepSeek-R1完成技術融合。OPPO手機近日宣佈,本月即將釋出的OPPO Find N5將正式接入DeepSeek-R1人工智慧推理模型。
在訓練技術方面,DeepSeek也取得了一系列突破性的進展。其誕生出的訓練模式廣泛且有效,多個其他模型沿用其訓練方式實現了模型推理進步和效能提升,同時在小規模模型上的驗證依然有效。
其中,GRPO(Group Relative Policy Optimization)強化學習演算法是 DeepSeek的重要創新之一。它作為Proximal Policy Optimization(PPO)的變體,取消了對critic模型的依賴,而是透過“組內評分”來估計基線,從而大幅降低了訓練時的記憶體消耗和計算資源。在數學指令調優階段,GRPO透過這種方式顯著提升了模型在各類數學基準(如GSM8K、MATH以及其他外域數學任務)的表現。
此外,DeepSeek還首創了FP8 Mixed Precision Training Framework,首次在極大規模模型上引入並驗證了FP8混合精度訓練框架。透過支援FP8運算和儲存,實現了訓練加速和減少記憶體佔用。在訓練過程中,DualPipe演算法實現了流水線並行,減少了流水線空泡,實現了計算與通訊重疊;開發的專門跨節點All-to-All通訊核心,則充分利用了InfiniBand (IB)和NVLink的頻寬,確保各節點之間的資料交換高效且低延遲。
DeepSeek的出現,對AI行業格局產生了深遠的影響:
-
未來大模型的開源與普及加速。目前全球AI產業都在早期階段,閉源大模型短期內暫未有明確的商業化路徑,DeepSeek以開源+生態+價效比的方式異軍崛起,其示範效應激勵了眾多科研機構和巨頭公司自己開發基座模型,也吸引了更多開發者投入到AI產業中來;
-
AI行業對算力的需求結構可能發生變化。DeepSeek透過極致的工程能力、演算法最佳化和架構創新,大幅降低了模型訓練與推理對高規格算力的依賴。此外,邊緣裝置和終端產品中的應用逐漸增多,對能夠支援高效推理的端側算力晶片的需求升高,未來推理算力和端側算力的需求也將迎來顯著增長。
2月15日,本週六上午10:00,熱愛創新的嘉程資本攜手矽星人開啟嘉程創業流水席第249席!我們邀請了英偉達研究院研究科學家董鑫、Agent2.AI創始人秦楚辭、畫素綻放 / AiPPT.cn CFO江天宇、Microsoft Senior Research Scientist金瀛一起深度探討DeepSeek開源模型引發的AI最新趨勢!歡迎各位關注DeepSeek領域上下游的研發人員、創業者、投資人和行業專家一起參加!

再次邀請上車!

主題:探討DeepSeek開源模型引發的AI最新趨勢!
時間:2025年2月15日10:00-12:00
形式:騰訊會議
名額:為保證活動私密性和討論質量,限100位!
本場活動免費參加!


點選下方“閱讀原文”,即可報名參會!