“時至今日,我們依然處在DeepSeek海嘯引發的震盪中。”從去年12月26日釋出671B引數規模的DeepSeek-V3模型,到1月20日開源了效能、效率、成本顯著卓越的推理模型DeepSeek-R1,再到春節期間引發市場連鎖反應,以及後續帶動開源全球加速,DeepSeek帶來的衝擊波持續擴散。
除了關注DeepSeek的技術創新和價值重構,我們也關心:DeepSeek-V3和R1等模型,為AI應用層和垂直場景的創業者帶來哪些切實的利好?基於開源模型做行業應用,有哪些真實的經驗和反思?
近日,榕匯邀請AI互動內容平臺、AI+旅遊、AI+金融投研、AI+醫療、AI Coding等領域的創始人展開線上研討。

以下我們摘取了部分思考,談及創業者最關注的模型能力、成本以及垂直場景商業化機會等話題。

DeepSeek模型核心創新點
2024年12月底,DeepSeek釋出主幹模型DeepSeek-V3,V3引數規模達到671B,效能已經接近GPT-4等頂級閉源模型。V3模型的創新點非常多,最為人津津樂道的包括5個重點:
01. 混合專家架構(DeepSeekMoE),在總引數量高達671B的情況下,每個token的啟用數量僅37B引數,有效提高了計算資源的利用效率; 02. 多頭潛在機制(MLA),透過低秩壓縮技術減少計算量,降低了記憶體和顯示卡佔用率,有效減少推理延遲; 03. 多令牌預測技術(MTP),可同時預測多個tokens,將訓練效率提升至1.8倍,減少生成時間; 04. FP8混合精度訓練,結合FP8低精度計算與高精度引數儲存,減少GPU記憶體佔用,同時維持訓練穩定性,顯著降低成本。 05. Dual pipeline是一種創新的雙向流水線並行演算法,允許正向和反向計算同時進行,顯著減少GPU空閒時間。
此後,DeepSeek基於V3進行純強化學習訓練,讓模型湧現了推理能力,得到R1-zero;R1則基於DeepSeek-V3,結合兩次監督微調和強化學習訓練,最終讓這一強大的推理模型問世。
DeepSeek是真正的正規化創新
DeepSeek意味著真正的正規化創新,因為其帶來了六重價值拐點。

01. 算力拐點
DeepSeek憑藉在演算法、模型架構、訓練策略等方面的極致創新,顯著減少了對高算力硬體的依賴,證明“唯有斥巨資拼算力才可達頂尖”的大模型研發模式並不是唯一解。算力一直是各國AI角逐的關鍵點。DeepSeek“夾縫中的創新”打破了算力的瓶頸,為國產晶片、ASIC晶片等帶來了發展機遇。
02. 引數拐點
DeepSeek運用模型蒸餾技術,將強大“教師”模型的推理模式提取並轉移到較小的“學生”模型中,例如從R1蒸餾出的較小模型(1.5B、7B、14B、32B、70B)在推理任務上表現出色,且保留了模型的精華。這意味著在端側小算力條件下——例如AI手機、AI PC、人形機器人、物聯網等場景,也可以完成推理模型的部署。
03. 演算法拐點
DeepSeek在演算法上進行了多方面的創新,如混合專家架構、R1-zero採用純強化學習策略(GRPO)直接最佳化推理能力、多令牌預測等,顯著提升了模型效能和效率,降低了模型成本。相信接下來全球大模型公司都會擁抱DeepSeek發明的一些新正規化。
04. 開源拐點
DeepSeek採用了MIT開源協議,這是最寬鬆的一種開源協議,允許商用。更重要的是,以往開源模型往往落後於閉源,但DeepSeek的部分模型在效能上比肩甚至超越了頂尖閉源模型。2月底是DeepSeek開源周,DeepSeek進一步公開了諸多工程層面的創新。可以說,DeepSeek引領了“開源的勝利”,也帶動其他大模型公司重新審視開源策略。
05. 應用擴散拐點
2024年7月,我們曾預測未來18個月隨著硬體成本下降、模型架構最佳化和演算法最佳化,AI產品開發成本有望降低100倍。今天看來,DeepSeek引發的模型成本下降可能會進一步突破上述預測,也讓應用層真正迎來爆發。進一步看,近期“傑文斯悖論”被討論很多,指的是當效率提高、成本下降,會加速採用,帶動整體需求擴張。未來的創新擴散不會侷限在網際網路的應用層,也會滲透到全產業鏈各種場景,例如晶片、雲、機器人、自動駕駛等領域。
06. 價值重估拐點
DeepSeek不僅促進對中國資產的重估,也展示了“中國在科技發展上的創新性和包容性”,體現了民營經濟和創業者的創新活力。
AI應用落地開發原則
01. 亞馬遜雲科技AI應用Lab專注於模型的前沿性研究和AI專案開發落地與交付。基於不同的場景,實驗室會使用各種不同的模型做適配和組合,最終服務B端客戶。一個工作鏈路上,可能會包含基座模型,也會包含微調模型或行業模型。

近期實驗室積極利用DeepSeek模型為客戶打造具體落地應用方案,例如基於Deepseek-R1 Distill 70B版本模型的知識庫,實現了對使用者問題的深度理解、分析推理和資料溯源,輸出內容不僅給出答案,還有詳細的分步解釋。
02. 與此同時,有一個重要的原則和思考是——DeepSeek模型很強,但不意味著DeepSeek可以解決一切問題。需要把專業的事情交給專業的模型去做,然後把專業模型組合起來,進而完成一個複雜的任務。
例如實驗室近期結合DeepSeek-R1和任務分類檢測微調模型,為農業客戶進行馬鈴薯葉片疾病檢測服務並給出應對建議。整體技術方案是先基於微調的CV模型,對馬鈴薯葉片進行檢測;隨後將檢測結果給到R1,藉助R1的推理能力為農戶提供指導,包括疾病成因和防治建議。

AI互動內容平臺
01. 想法流核心產品「造夢次元」是一個多模態AI驅動的互動內容平臺。平臺背後搭建了一整套workflow、接入了多個模型,包括大語言模型、生圖模型、音樂生成模型以及工程模組等,進而允許創作者基於模型能力,去建立有趣的互動內容乃至有遊戲性的內容和玩法。

02. DeepSeek-V2釋出伊始就引起了團隊的關注。當時我們意識到MoE架構將越來越重要,讓應用開發者能夠在啟用引數沒那麼大、但是模型整體引數足夠大的情況下去呼叫模型,進而平衡模型成本、延時和模型智慧程度之間的關係,最終利好應用開發者以更低成本使用大引數的模型。
此前內容領域AI應用有一個很大的問題是,如果用一個小引數模型,無法解決內容泛化問題,導致模型的指令遵循能力不佳,可能導致劇情和人設崩掉;如果用一個大引數模型,除了成本很高之外,內容生成的速度會很慢。MoE架構很好解決了這個問題,我們呼叫了MoE架構模型後(最早使用的是豆包大模型),發現當泛化到玄幻、古風等型別內容時,依然有不錯的表現。
03. 我們還意識到快取(cache)命中這件事情非常重要。每百萬tokens輸入,快取命中和快取未命中的價格差距很大。「造夢次元」的產品特點是使用者無時無刻不在用模型,日均活躍互動時間超過100分鐘。而且我們的場景中,輸入tokens遠大於輸出tokens,如果我們的輸入90%能夠打到cache裡,能夠極大降低成本。
04. 團隊一直以來關注模型的進展,特別是模型推理能力的提升。「造夢次元」產品裡有很多的玩法,例如一些帶數值和分數的遊戲玩法,或者推理兇手玩法,都需要有一定的推理能力支援。最早我們基於workflow的方式實現;R1出現之後,我們知道,一直在追求的低成本、強推理能力並且推理速度足夠快的模型已經到來。
05. 未來,我們希望AI互動內容平臺從“有趣”發展到“有用”,比如將生活場景的一些能力,例如時間/定位/天氣的API接入進來,或許會有更多有趣的玩法。比如我去北京出差,AI會跟我說北京現在零下6度、你有沒有帶羽絨服。
AI驅動的旅遊平臺
01. 視旅科技致力於打造AI驅動的新一代旅遊平臺,過去幾年我們看到了幾點機會。首先,大語言模型帶來的自然互動革命,將為旅遊場景帶來非常大的變革機會;其次,多模態大模型的應用,可能讓旅遊產品本身的表達相較今天主流OTA平臺有顛覆性的變化;第三,行業垂直模型和向量化的數字供給體系,有機會改變旅遊行業一直以來存在的供給分散現狀。

02. 2023年5月,視旅科技釋出了國內首個旅遊領域大模型VtripGPT,這也是旅遊行業首個透過國家網信辦等主管部門稽核備案的大模型。在DeepSeek-R1開源之後,我們第一時間做了私有化部署,並用蒸餾技術將R1的推理能力遷移到我們的旅遊大模型中。從業務增長來看,推理模型對業務有非常大的促進作用。
03. 2023年,我們基於自研行業大模型上線第一個目的地的時候,4-5位資深的運營專家花了差不多2個月的時間做預訓練和監督反饋,才讓模型的輸出結果達到行業可用標準;模型跑了一年多時間,基本可以做到1-2位業務人員用1個月的時間新增一個目的地;當部署R1之後,我們發現在沒有業務專家反饋的情況下,差不多2天時間就能上線一個目的地(在模型輸出環節增加了一個專家糾偏的模組,用一些通用規則限定輸出結果)。
04.R1的推理和長思維鏈(CoT)能力,對於旅遊行業的行程規劃、有特定要求的方案設計以及動態的商品組合,都有非常大的促進作用。以一個場景為例,海外出差涉及2、3箇中轉地的國際機票,今天基本需要依賴人力去解決,而且需要平臺積累的大量資料作為支援。未來,大模型的深度推理能力完全有機會應用於這類複雜場景。
05. 更進一步,如果開源的高效能模型可以幫助每一位普通使用者在沒有旅行專家參與的情況下完成高階私人定製,將會對旅行體驗有非常大的重構,也會讓垂直創業公司更快找到商業化突破的可能性。
AI智慧投研
01. 熵簡科技打造的AlphaEngine產品是一款AI投研工具,基於最新的大模型技術幫助專業投資者在投研乃至投資決策過程中提升決策效率和勝率。2年前,我們訓練了自己的行業大模型FinGPT;R1釋出之後,我們蒸餾了具備推理能力的FinGPT-Deep,使模型具備邏輯推理、因果分析和多步決策能力,並搭載在AlphaEngine產品上。依託深度推理能力,AlphaEngine實現了三大核心功能升級:1)多步推理問答,2)精準資料溯源,3)融合分析師思維。上線之後,使用者與產品問答的互動量提升了3倍左右。

02. 相比此前模型,R1推理的廣度幾乎相同,但是推理的深度至少深入兩步。例如提問“如何分析某家機器人公司的走勢”,以往大模型會看公司的基本面、市場競爭格局等;有了R1,模型會自己推理——分析公司走勢還需要研究公司的產業鏈上下游,再進一步推導到下游可能會涉及感測器、軸承。
03. DeepSeek帶來的一個底層變數是,讓我們這類垂直SaaS公司能夠以很低的成本去獲得基本比肩o1水平的大模型能力。只有成本大幅降低,我們才有可能大規模讓使用者去體驗,真正提升生產力。
04. 基於大模型做行業應用,有三大要素。第一,底模足夠好;第二,在垂直行業積累足夠全量、時效性強的資料庫,目前熵簡基本可以實現對A股和美港股公開資料的全量覆蓋;第三,還需要配套一些小模型,以及Multi Agent的一整套編排體系。小模型方面,熵簡訓練了向量化模型FinBERT,提升資料召回率;專業的面向投研場景的語音大模型FinAudio,支援將投研領域的會議音訊準確轉錄成文字;以及解析PDF的文字大模型。
05. 編排方面,需要和行業具體場景做深度編排,打造一套Multi Agent框架,其中涉及大量工程工作和具體規則。例如目前熵簡針對投研問答其實有三個Agent——內省Agent、推理Agent和回答Agent在相互配合。
AI醫療健康助手
01. 醫療領域有兩大問題——1)醫療資源不足,2)醫療供給不平衡。最早春雨醫生重點解決醫療供給不平衡的問題,透過平臺做供給和需求的連線。隨著大模型不斷成熟,2023年4月,我們上線了AI健康助手產品「春雨慧問」,並著手解決醫療資源不足的問題。

02. 當前醫療領域的重點是醫療資源不足,尤其是權威優質醫生的供給不足。為了解決這一核心矛盾,我們計劃兩步走:首先是作為醫生的Copilot進行輔助預問診,然後逐步向AI醫生過渡。我們知道,醫生問診過程中前期資訊收集階段是非常耗時的,這背後對映的其實是診斷的思路與過程。我們打造的醫生Copilot,就是希望透過AI把預問診過程完成,醫生在此基礎上專注於提供診斷和治療方案,從而幫助醫生節省時間,提高工作效率。
03. 「春雨慧問」已經接入R1,R1對比以往的基座模型有兩大進步。第一,以前我們需要用多個prompt讓模型實現問診的過程,今天可以快速實現多步思維鏈任務;第二,接入R1後,我們發現模型的泛化能力更強。以往大模型可能針對一個單科的問題能夠有不錯的回答;但一旦擴充套件到全科,面對不同的科室、疾病,分析和回答問題的難度就會急劇增加。基於R1,當泛化到不同科室的問診和智慧診斷任務時,效果會有明顯的提升。
AI Coding
01. AI Coding的變遷:最早僅依賴程式設計師,這是“按字寫程式碼”;2022年ChatGPT出現之後,程式碼領域先火了,GitHub Copilot等可以實現“按行寫程式碼”;2024年,以Cursor為代表的AI Coding工具開始支援“按塊寫程式碼”,AI Coding領域也因其有很強的閉環領跑AI應用商業化;今天我們正在推進的是“按片寫程式碼”,或者說是按feature程式碼,相信會幫助程式設計師實現效率的大幅提升;L4級別,我們相信AI自主寫程式碼會成為終極演進的方向。
02. ClackyAI定位為L3級別的Agent AI CDE,即在雲端實現從issue到PR的工作,面向嚴肅開發人員,有互動時光機機制,提供全倉庫的識別和檢索,以及多工處理系統。技術層面,我們全棧自研了一個多工的Agent架構,DeepSeek對我們也有巨大的助力,目前基座模型的推理模組已經部署了R1。

03. 在程式碼生成維度,DeepSeek模型目前與Claude 3.5、Claude 3.7等相比還有一定差距;但是程式設計不只是程式設計本身,我們也關注推理能力,例如對問題的理解、任務規劃、路徑設計等。我們也期待DeepSeek後續一代模型能夠在Coding方面取得進步,我們就有可能把主力模型完全切過來。現階段,我們會平衡SOTA模型和DeepSeek開源模型的使用。
AI Agent
01. 推理模型的極速發展讓Agent這個方向變得越來越有價值,相信今年Agent方向能夠看到突破性的進展,從Agent的通用框架、基礎設施到各場景Agent,將百花齊放。To C領域,未來AI搜尋將全面Agent化。實際上,DeepSeek的C端應用本身就是一個Agent,出色的基座模型之上再透過一套流程(如聯網搜尋),使得自身不斷進化。
02. To B領域,包括橫向場景和縱向場景。橫向場景中,程式設計、客服、生產力效率、營銷、銷售、人力招聘領域,都有機會看到Agent落地。例如客服Agent除了能和使用者自然對話,更進一步可以和內部的workflow打通,將客戶的問題自動轉入業務部門,問題解決之後再回流給客戶。縱向垂直場景,法律、醫療等領域也會優先看到Agent落地應用。
……
“DeepSeek炸裂的成功印證了一個道理——偉大不能被計劃。我們在創業的探索過程中要珍視這種偶然性和獨特性,並且保持開放和探索。當你積累了足夠多的墊腳石,偉大或許就與你不期而遇。”
未來,我們也期待陪伴使命驅動、有創新活力的創業者,“相信2025年有更多中國AI應用創新綻放”。


