一文講透關於DeepSeek的7個核心問題

作者:峰瑞資本
來源:峰瑞資本(ID:freesvc)
2月10日至11日,巴黎舉辦了人工智慧(AI)行動峰會。《紐約時報》稱,與過去一個月的所有AI活動一樣,巴黎AI峰會上充滿了關於中國人工智慧企業深度求索(DeepSeek)的討論,這家中國公司以其強大的推理模型震驚了世界。據《財經》雜誌統計,百餘家中國公司已經宣佈“接入DeepSeek”,覆蓋從晶片、算力服務商到AI使用者到終端使用者各級生態圈
開年復工後的第一次全員週會上,峰瑞科技組的同事們對DeepSeek進行了深入討論。本文將透過七個關鍵問題,剖析DeepSeek爆火的原因及其帶來的多維度影響:
  • DeepSeek為什麼這麼火?
  • DeepSeek真正的技術創新是什麼?
  • 為什麼是DeepSeek?
  • Scaling law還成立嗎?
  • DeepSeek給其他模型廠商帶來什麼影響?
  • DeepSeek對硬體生態帶來什麼影響?
  • DeepSeek如何影響應用生態?
此外,我們還在文末總結了部分與此相關的投資機會。
在這個AI技術飛速發展的時代,DeepSeek的故事或許只是開始

01

DeepSeek為什麼這麼火?

第一個問題,我們先來回答DeepSeek到底為什麼這麼火?
從我們的觀察來看,DeepSeek這一輪的爆火,有20%是得益於技術創新80%是來自於它從開源生態中獲得影響力和背後的中國元素
技術上,簡單說,DeepSeek用極低的算力成本,實現了比肩全球一線預訓練大模型的能力。以及,DeepSeek第一次真正公開了用強化學習(Reinforcement Learning,簡稱RL)做推理模型的可能路徑。強化學習是一種機器學習方法,透過智慧體(Agent)與環境(Environment)的互動,學習最佳策略。
實話說,僅靠這些,DeepSeek可能還不足以引起全球範圍內如此強烈的反應。
更多的影響力其實要歸功於這些創新背後的中國元素。某種程度上,由於海內外的資訊差,中國團隊這一次推出的大語言模型使人們驚訝——中國AI行業的發展情況可能與OpenAI所代表的最先進水平之間,沒有想象中差距那麼大。但同時,DeepSeek也引發了很多質疑和討論。當然,這些都是短期影響。
長期來看,DeepSeek的成功給中國帶來了更多進行技術創新的信心,無論是投資人還是創業者,可能都從其中看到了更多的可能性。
另外,開源這件事情功不可沒。DeepSeek作為後來者,不像海外大廠,沒有什麼包袱,所謂“光腳的不怕穿鞋的”。DeepSeek幾乎將其所有研究成果都直接開源,打破了OpenAI o1系列模型的壟斷地位,這對整個圈子造成很大的衝擊。
小結
所以,理性來看DeepSeek出圈這件事,市場情緒因素佔大頭。當然,我們也不能否認DeepSeek團隊確實在技術上做了很多創新。

02

DeepSeek真正的技術創新是什麼?

DeepSeek從成立至今,一共發過9篇論文。其實在大模型技術圈子裡,大家對DeepSeek的技術實力早有認知。
DeepSeek技術創新的答案,在2024年底和2025年年初發布的兩篇技術報告——《DeepSeek-V3 Technical Report》、《DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,以及它們推出的開源模型之中。
從目前的觀察而言,DeepSeek的技術貢獻主要體現在工程上的創新。它沒有發明新的正規化,但在現有技術的基礎上進行了大量最佳化。
讓我們著重看看讓DeepSeek出圈的核心工作:
一、DeepSeek V2
2024年5月,DeepSeek釋出了V2模型,將API(Application Programming Interface,應用程式程式設計介面)價格大幅降低,定價為每百萬tokens輸入1元人民幣、輸出2元人民幣,直接將價格打到GPT-4的1/35。
DeepSeek掀起了大模型市場的價格革命。據《21世紀經濟報》報道,2024年5月,百度旗下文心大模型兩款主力模型全面免費。阿里雲緊隨其後,將通義千問GPT-4級主力模型的API輸入價格從0.02元/千tokens降至0.0005元/千tokens,降幅達97%。
DeepSeek V2的效能已經接近GPT-4,成為價效比極高的選擇。可以說,國內其他同行還在努力追趕GPT-4的效能時,DeepSeek已經憑藉低價和高效能脫穎而出。
二、DeepSeek V3
DeepSeek V3在V2的版本上,進一步強化了降本增效的能力。V3相當於是對標OpenAI GPT4o的預訓練大模型,它以極低的算力成本,實現了和其他模型同等甚至表現更好的結果。
DeepSeek之所以能做到降本增效,可能要歸功於團隊在工程層面做了大量的工作和創新,比如,在演算法軟體框架以及配合硬體的實現方面。
在軟體上,核心有兩點,一個是MoE(Mixture of Experts,專家混合模型)的專家模型架構,“用空間換時間”
2023年,法國AI公司Mistral AI最早大規模開源MoE模型,它曾經推出Mixtral 8x7B模型,採用了8個專家,每次推理時啟用其中的2個專家。
DeepSeek則增加了專家數量,縮小了每個模型的規模。雖然單個專家效能有所下降,但整體效能卻因“人多力量大”而提升。
具體來說,DeepSeek的MoE架構把前向推理網路劃分成了1個共享專家以及256個獨立專家。模型每次預測的時候,只會啟用共享專家以及另外256個專家中的8個專家,大大降低了算力消耗。
此外,DeepSeek還在訓練過程中透過偏離函式,調整專家負載,避免出現“強者越強,弱者越弱”的馬太效應。
雖然MoE架構很有價值,但在不少應用場景裡,Dense Model(單一專家模型)也有優勢,比如面向B端的專用領域或者端側小模型。所以,我們也不能完全下定論,認為MoE未來就會“一統江湖”。大家有各自不同的模型架構,選擇的應用場景也不同。
另一點,MLA(Multi-head Latent Attention,多頭潛在注意力)是DeepSeek成為“價格屠夫”的核心技術之一,這種方法是“用時間換空間”
大模型推理離不開Attention計算,而Attention計算中,KV快取(Key-Value快取)是主要的儲存開銷。在Transformer模型的自注意力機制中,輸入元素會被轉換成查詢(Query)、鍵(Key)和值(Value)這三種類型。KV快取就是在推理過程中,把先前步驟計算得到的Key和Value矩陣快取起來,避免在生成新token時重複計算整個序列的Key和Value。
DeepSeek透過矩陣分解的方法,將KV快取壓縮後再投影回高維空間,從而大幅降低了儲存開銷。這種技術原理簡單但非常有效,實現了推理價格驟降。
MOE和MLA結合在一起,降低了模型對硬體算力和視訊記憶體頻寬的需求,因此,DeepSeek讓整體成本下降了一個數量級
前面談到的是軟體架構上的創新,那麼在硬體架構實現上,DeepSeek V3第一次公開了很多新的工作。比如,用低精度的FP8(即8位浮點數表示法,是一種用於提高計算效率和動態範圍的資料格式)做了大量的計算工作。再比如,透過大量PTX(Parallel Thread Execution,是NVIDIA為其GPU設計的一種並行指令集架構)的底層開發能力,“壓榨”硬體的效能,來降低計算和通訊的開銷。
所以,從DeepSeek V3整體的工作來看,其實沒有太多概念創新,大多是站在前人肩膀上,優化了MoE、MLA等已有的方法,但卻有極高壁壘的工程創新
以及,還有一個問題值得我們思考——V3中的這些工作,是團隊主動創新的結果?還是隻是硬體資源受限情況下的被動選擇?如果能有更多更強的算力資源,這些創新是否還會出現,以及是否還有必要?
三、R1 Zero和R1
接下來我們再看看R1 Zero和R1,它們是對標OpenAI o1系列的推理模型。自從o1釋出之後,業界和學術界對它的實現方法有很多猜想,甚至還有人說OpenAI團隊主動放出了一些不相關或錯誤的方向來誤導大家。
拋開這些猜測不談,這次DeepSeek釋出了R1,實實在在地透過自己的探索,用強化學習實現了比肩o1的推理大模型,並開源了相關的工作,非常厲害。從我們的觀察來看,強化學習是通向AGI的一個遞進路徑,業界已經在嘗試這個方向。
為什麼在當下,大模型們開始“卷”起了推理能力
這一趨勢的背後,是大模型在開放性問題上難以超越人類的困境。儘管大模型在諸多工上表現出色,但在需要深度推理和專業知識的複雜問題上,它們仍然面臨巨大挑戰。
GPQADiamond基準資料集為例,該資料集專門用於評估模型在複雜問題上的推理能力和專業知識水平。即使是經過博士學術訓練的人類,回答這些問題的準確率大約在65%到70%之間。而目前,大多數大模型在這類問題上的表現,仍遠低於人類水平。
可喜的是,已經有少數領先的大模型,如DeepSeekR1、OpenAI o1,它們在GPQADiamond等難題上的表現,已經超過經過博士學術訓練的人類。
這種進步揭示了行業競爭的焦點正在從單純的規模擴充套件轉向更深層次的智慧最佳化。推理能力的“內卷”,可能意味著大模型進入了新的發展階段。
同樣是推理模型,R1 Zero和R1有所區別:
R1 Zero是更純粹的RL-based Model,用DeepSeek自己的預訓練模型V3,沒有經過任何人類知識的調教,直接用一些數學或者程式碼的這類有明確“ground truth”(真實值,在機器學習和計算機視覺領域,指的是資料集中每個樣本的真實標籤或結果)的問題,做強化學習,得到了不錯的結果。
R1相比R1 zero,用了更多工程化的方法,也加入了類似模仿學習的SFT(監督微調),進一步提升語言能力和全面性能,使用者來說更好友好。
具體的技術細節和評測結果不詳細展開了,強烈建議大家去讀《DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》這篇論文,寫得非常清楚、優美。
某種程度上,DeepSeek R1也沒有發明任何新正規化。OpenAI已經給業界指明瞭方向,一個是用純粹的強化學習而非人類反饋做後訓練,來提升模型推理能力。
另一個是Test-Time Compute的方法,透過延長推理時間,來提高輸出質量。模型不是直接輸出結果,而是先推理出中間結果,隨著推理時間的增加,最終結果的質量也會提升。這一點在大家用DeepSeek過程中應該都有體會,就是看到的那個中間有點兒自言自語的思考過程。
因此,DeepSeek核心的貢獻是幫助強化學習、Test-Time Comput這兩個正規化快速出圈。相比其他模型廠商,它手比較快,而且直接把工作開源了。
但無論是R1中的強化學習框架GRPO,還是上文提到的用很多數學、程式碼問題來做reward(獎勵機制),都是一些相對常用的方法。DeepSeek R1更多還是靠V3的強大能力,能在有限的搜尋空間內找到正確答案,從而幫助模型快速迭代和收斂。打個比方,如果基礎模型不夠好,可能需要從1萬個樣本中找到1個正確答案;而好的基礎模型,則可以在100個樣本中找到正確答案,從而大大加快迭代收斂的速度。
小結
總的來說,DeepSeek的技術貢獻主要體現在工程上的創新。儘管它沒有發明新的正規化,但在現有技術的基礎上進行了大量最佳化,特別是在強化學習應用於推理模型方面。我們需要以更理性的心態來看待DeepSeek爆火。

03

為什麼是DeepSeek?

為什麼是DeepSeek?
首先,從整體上看,模型的發展速度雖然很快,但其實AI行業整體的創新速度放緩了,不同團隊的認知差異也在縮小,大家能想到的方法正在逐漸收斂。這種現象跟國別無關,是全球學術界和產業界共通的情況。當技術創新變慢的時候,中國團隊的工程能力優勢就體現出來了。
第二,我們也不能忽視DeepSeek背後的這家公司——幻方量化,以及其“工程基因”的影響。要做好量化交易,一方面需要有強大的策略,但另一方面,能否以最快的速度執行這些策略可能更為關鍵。哪怕只是納秒級別的速度優勢,也可能決定你在某次交易中能否賺錢。
幻方量化的基因使得DeepSeek在底層硬體最佳化和開發方面擁有豐富經驗,從而能夠加速演算法的執行效率。例如,幻方量化在過去面對複雜的量化交易任務時,可能需要對FPGA(現場可程式設計門陣列)進行深度定製研發,並在C語言中嵌入組合語言,以提高硬體排程的效率。
這些工程經驗已經體現在DeepSeek的V3版本中。比如,在最佳化GPU時,DeepSeek大量使用了在量化中交易中經常用到的底層開發思路,選擇“繞過CUDA”,直接使用PTX進行程式設計,從而進一步提升效能。
第三點,DeepSeek的商業模式和開源文化,支撐了他們的長期發展。這種長期效能夠幫助團隊建立研究導向和創新的文化。DeepSeek可能沒有短期的營收和商業化壓力,反而能吸引更多真正想做事的人才,“做正確而非容易的事情”。
小結
DeepSeek的成功源於多方面的優勢:在AI行業整體創新放緩的背景下,中國團隊的工程能力優勢凸顯;孵化公司幻方量化在硬體最佳化和高效執行方面的經驗影響了DeepSeek;DeepSeek的商業模式和開源文化,使團隊能夠專注於技術創新而非短期商業化壓力。

04

Scaling law還成立嗎?

DeepSeek發展到了今天,那麼大模型的未來會走向哪裡?Scaling Law(縮放定律)還會成立麼?
大模型最開始出現時,其根基就是Scaling Law。Scaling Law描述了隨著資料量、計算資源和模型引數的增加,語言模型效能如何顯著提升。具體來說,從GPT到GPT-4,研究人員透過增加更多的資料、算力和模型引數,使得模型效果顯著提高。這種規律為設計更大規模的模型提供了理論依據,併成為近年來大模型發展的核心驅動力。
那麼,Scaling Law在未來是否仍然成立?我們可以從三個方面來看。
一、預訓練階段:Scaling Law接近極限
在預訓練階段,目前業界共識是Scaling Law已經接近極限。主要問題在於缺乏新的高質量資料。在這種情況下,盲目增加模型引數可能導致過擬合,也就是說,模型對於見過的資料表現很好,但泛化能力反而下降,從而影響模型的整體效能。例如,OpenAI在開發GPT-5時遇到的困難,也反映了這一挑戰。儘管如此,研究者們仍在努力推進。
二、後訓練階段:Scaling Law優勢顯現
在後訓練階段(post-training),Scaling Law的優勢變得更加明顯。無論是傳統的監督微調(SFT),還是基於人類反饋的強化學習(RL),都能看到這種優勢。最新的DeepSeek和其他模型系列已經開始採用基於強化學習的後訓練正規化,顯示出良好的規模效應。
值得注意的是,在後訓練階段,目前所需的算力還相對較少,平均僅佔預訓練階段的1%不到。當然,這一比例正在逐漸增加。據業內人士推測,R1的後訓練算力佔比已經接近10%。如果能進一步擴大後訓練的規模效應,那麼模型的整體效能有望得到進一步提升。
然而,在後訓練階段,大模型仍面臨一些挑戰,比如,怎麼定義reward,這是做好強化學習的關鍵;以及獲取高質量的資料,特別是專業問答和CoT(Chain of Thought,思維鏈)資料。目前,學術界和產業界正在探索人工標註和合成資料的方法來解決這些問題。
三、推理階段:延長推理時間,提升效能
在推理階段,Scaling Law同樣有所體現,比如在上文提到的Test-Time Compute上。模型的輸出過程本質上是一個計算過程。如果允許模型有更長的思考時間,它可以透過反覆嘗試和自我修正來最佳化答案。例如,模型可能一開始給出簡單的答案,但在中間發現錯誤並進行調整,最終得出更準確的結果。這種方法能夠顯著提高模型輸出的準確性,也是Scaling Law的一個具體表現。
小結
總結來看,Scaling Law仍然成立,只不過應用正規化發生了變化,其在後訓練和推理階段依然具有重要意義。

05

Deepseek給其他模型廠商

帶來什麼影響?

首先,我們需要明確一點:DeepSeek目前主要是一個大語言模型,暫時不具備多模態的能力。在與其他有多模態能力的模型進行比較時,需要考慮到這一點。
一、對海外大廠的影響
對於海外的大廠,如OpenAI(GPT-4系列)、Anthropic(Claude 3.5)和Google(Gemini 2.0),這些公司在多模態能力、泛化能力以及工具鏈開發者生態方面仍然具有顯著優勢。它們有很多的儲備技術,因為戰略考慮可能暫時不會都放出來。此外,它們在算力資源上也有明顯的優勢。
儘管DeepSeek引起了廣泛關注,但我們仍需正視與這些海外一線公司的差距,實現真正的超越還有很長的路要走
就在2月18日,馬斯克的xAI釋出了更新版Grok 3大模型。在直播的現場演示中,Grok 3在數學、科學和程式設計基準測試中,擊敗了包括DeepSeek的V3模型和GPT-4o在內的多個模型。
二、對國內模型廠商的影響
在國內市場,DeepSeek對於對面向消費者的(ToC)模型廠商影響較大,對於面向企業的(ToB)模型廠商影響相
在ToC領域,部分廠商可能會感受到較大的衝擊。這些廠商面臨的挑戰更多在於開源與商業化的選擇:如果保持閉源,是否能達到一線模型水平?如果選擇開源,是否會顛覆現有的商業模式?
不過,我們不能低估國內其他模型廠商團隊的技術創新能力。比如Kimi最新發布的K1.5模型在學術界獲得了很高的評價,其工程創新也非常值得學習。
目前來看,ToB的模型廠商也受到了定的影響。長期來看,企業客戶會做出理性決策,但在短期內,可能受市場情緒影響,嘗試使用DeepSeek。這有助於教育市場,但長期效果還需觀察。
此外,DeepSeek本身其實也要考慮如何持續“接住潑天的富貴”。未來,DeepSeek是否會透過融資擴大規模,還是繼續保持小規模專注於研發?我們拭目以待。
三、對開源社群的影響
DeepSeek對開源社群無疑是利好的。DeepSeek爆火,將促使其他開源模型(如Llama)不斷創新,而不是固守已有成果。這對整個社群的發展是有益的,同時也促進了閉源廠商的進步。
四、對小模型公司的影響
DeepSeek曾在論文中展示了透過大模型的能力蒸餾(distillation)來提升小模型推理能力的可能性,並同步開源了基於通義千問Qwen或Llama的蒸餾模型。這表明,優秀的“老師”模型可以更高效地指導小模型學習。
這將對自研模型的中小企業產生積極影響。尤其是在端側部署的應用中,無論是C端還是B端應用,或許能借助這一方法提升效能。
小結
整體來看,DeepSeek雖然在多模態等方面有欠缺,但其無疑在推動行業的發展。我們既不能低估國內團隊的技術創新能力,也需正視與這些海外一線公司的差距,想要實現真正的超越,我們還有很長的路要走。

06

DeepSeek對硬體生態帶來什麼影響?

接下來,我們討論一下DeepSeek對硬體生態的影響。在DeepSeek最火的那幾天,它對整個美股市場,尤其是英偉達的股價造成了短期衝擊。那麼,未來DeepSeek是否會挑戰英偉達的地位?
要回答這個問題,我們首先需要了解英偉達的核心壁壘是什麼。英偉達的核心壁壘不僅僅在於其單晶片的設計能力,儘管這一點已經非常強大。更重要的是,英偉達透過其晶片互聯能力(如InfiniBand、NVLink以及強大的軟體生態系統CUDA)形成了一個堅固的生態壁壘。這種生態壁壘是英偉達最核心的能力之一。
瞭解了英偉達的核心競爭力後,我們可以分析出DeepSeek對英偉達的影響。首先是正面影響:
一、DeepSeek的成功教育了市場,增強了人們對AI應用的信心,並吸引了更多的初創企業嘗試開發AI應用。
據業內人士訊息,自DeepSeek釋出以來,市場上H100H200等高階GPU的價格有所上漲,這表明更多公司願意購買這些硬體來開發自己的模型和應用。
二、推動通用GPU的需求。DeepSeek這樣的廠商,持續在模型架構方面進行創新,這對英偉達這樣的通用GPU製造商是有利的。因為通用GPU更適合用來嘗試新的方案和架構,而一些專用晶片可能沒那麼適合。
然而,DeepSeek也給英偉達帶來了一些負面影響,比如英偉達的市場定價策略可能會受到衝擊。
原因在於,首先,DeepSeek採用的Mixture of Experts(MoE)架構顯著降低了對晶片間互聯能力的要求,從而減少了對高階互連技術的依賴。如果越來越多的模型廠商開始採用MoE或其他類似的架構,將會帶來新的硬體機會。
其次,DeepSeek提供了潛在“繞過”CUDA的可能性。DeepSeek提出了適配其模型的硬體架構設計需求,暗示著未來“繞過”英偉達的CUDA生態系統的可能性。
同時,國產晶片對DeepSeek模型的快速適配,也反映了中國硬體行業的潛力。但需要注意的是,DeepSeek團隊並沒有直接繞開英偉達。DeepSeek使用了比CUDA更底層的程式語言PTX,以便於更好地發揮出硬體效能,而PTX是英偉達的核心技術。
DeepSeek是否推動了除英偉達以外的AI晶片行業的創新機會?這也是我們非常關注的一個熱點方向。
短期來看,DeepSeek確實帶動了許多低效能卡的應用,包括一些國產卡。只要企業具備足夠的工程最佳化能力,這些卡就能夠被用起來,我們也能實現軟硬體閉環式的自主創新。
長期來看,AI晶片行業無疑存在新的機會。除了近期備受關注的新硬體架構(如3D堆疊、大規模互聯技術和高視訊記憶體設計)外,編譯和軟體生態的建設也至關重要。正如我們在討論英偉達壁壘時所提到的,僅有單晶片能力和互聯能力是不夠的,整個軟體生態系統才是決定其長期成功的關鍵因素。
小結
總的來說,DeepSeek一方面對英偉達帶來了挑戰,另一方面,也為整個AI晶片行業帶來了新的機遇和發展方向。對於行業參與者來說,如何適應這種變化並找到適合自己的發展路徑,將是未來需要重點考慮的問題。

07

DeepSeek如何影響應用生態?

我們再來討論DeepSeek對整個應用生態的影響,可以從三個方面來看:
一、提供了低成本方案,完成了市場教育
首先,DeepSeek提供了一種非常低成本的方案,這顯然能夠為應用(無論是ToC還是ToB)帶來更高的投入產出比,並助推更多的行業應用落地。
在短短幾周內,DeepSeek完成了全市場的教育,使政府、企業高層管理人員以及普通使用者都開始使用相關的大模型。甚至我們的父母都開始用起了大模型。
然而,在短期內,市場可能會存在高估的情況。尤其是在B端,實際落地效果可能會與預期有所偏差。從我們問到的幾家企業的反饋來看,客戶的呼聲很高,但實際測試結果顯示,DeepSeek在某些任務上的表現,可能並沒有外界傳聞的那麼領先。
二、驗證了大模型蒸餾小模型的可行性
其次,DeepSeek R1驗證了大模型蒸餾小模型是可行的,這對於端側模型部署和應用有很大推動作用。無論是在PC、手機還是其他智慧硬體上,部署成本的大幅降低,將推動更多新應用落地。這對於我們投資在端側部署的應用有重要意義。
三、助推強化學習這種計算正規化
從更長期一些來看,DeepSeek影響了強化學習這一計算正規化。R1已經驗證了這種正規化,真正公開了用強化學習來做推理模型的這個可能的路徑。
但目前,強化學習的應用範圍主要侷限在數學或程式碼等相對客觀的領域。未來,這種計算正規化是否能夠擴充套件到物理世界,並解決更多現實世界的推理問題,以及如何應用於AI agent和具身智慧,是非常令人興奮且值得探討的方向。
小結
透過對以上七個問題的探討,我們可以看到,DeepSeek對AI晶片行業和應用生態產生了深遠的影響。
毫無疑問,DeepSeek的貢獻令人敬佩。但當前市場是否明顯過熱?或許對於投資人、創業者以及使用大模型的朋友來說,我們不妨讓子彈再飛一會兒,冷靜觀察一段時間。與此同時,我們期待中國市場能誕生更多像DeepSeek這樣的原始創新成果。

08

投資機會

一、大模型競爭進入下半場
大模型的競爭已進入下半場。
在豐叔看來,大模型下一步會向輕量化、垂直化、端側化這三個方向發展。輕量化意味著模型和硬體成本需要收斂,不然能用得起的人有限。垂直化則意味著模型需要在特定能力上收斂,而不是指望一個超大模型解決所有問題。端側化是指模型必須放到手機、手錶、耳機等終端裝置上,才能真正實現技術的普及。
隨著下游應用逐步實現規模化落地,模型訓練、微調和推理效率成為行業關注的焦點。
以DeepSeek為代表的創新實踐表明,強化學習和長文字生成能力有助於提高大模型輸出質量、提升小模型效能。儘管MOE架構增加了軟體系統的複雜性,但它顯著優化了硬體頻寬需求,降低了硬體門檻,使得成本更低的硬體也能高效執行模型。
未來,隨著模型能力的進一步提升和總成本的持續下降,AI普惠將成為下一階段的核心目標。技術的普及將推動大模型在更廣泛的應用場景中落地,創造更多商業與社會價值。
二、人機交互發生變化,AI落地的應用臨界點似乎已經到來
當下,人與資訊、人與機器的互動方式正在發生深刻變化。這種變化將催生新的資訊分發渠道和流量入口,推動使用者介面和服務形式的創新。另一方面,隨著人工智慧能力的不斷增強以及成本的降低,許多行業都在積極探索AI技術的應用落地
在這樣的背景下,我們應當關注一些在傳統軟體時代難以實現的“新物種”,例如:
  • 跨領域結合的軟體或Agent:透過軟體與硬體的深度融合,Agent能夠實現更強的獨立性和更豐富的功能,從而為使用者提供更高效、更智慧的服務。
  • 新形態的個人互動終端:隨著數字化的進一步普及和多模態技術進步,AI有望接入更多資料,成為人類的“外腦”,幫助我們處理記憶、理解甚至是決策等任務。
  • 新型人力服務外包:將軟體能力轉化為服務形式進行外包,提供更具創新性和靈活性的新型外包服務,滿足不同行業的需求。
  • 未被軟體化的行業:這些領域中蘊含著豐富的AI落地機會,值得我們深入挖掘和探索。
展望未來,隨著供應鏈能力的不斷提升,中國的AI技術有望進一步拓展海外市場,實現全球化佈局。
版權宣告:部分文章推送時未能與原作者取得聯絡。若涉及版權問題,敬請原作者聯絡我們。

相關文章