沒那麼簡單,誰在推動DeepSeek的神話?

2445個字 閱讀時長:8分鐘
中產先生 | 洞見時代 發現價值 講述生活
沸騰與質疑。
春節前意外火起來的DeepSeek成為當下最炙手可熱的話題,網上追捧和質疑的聲音不斷。
假期沒心情深入瞭解,這兩天有時間擼了幾篇研報,瞭解了大體情況,發現沒那麼簡單。

一起來聊下。

– 1 –

首先把實際情況說一下。

因為我不是業內人士,我只是整理了研報裡專家的觀點,儘量做中立客觀的表述,如果有不專業的地方,可以在評論區斧正。
其實主要是三個方面:
資料、演算法、路線。
1、資料:知識蒸餾
這是目前爭議最大的地方。
一方認為知識蒸餾是業內同行的做法,在行業發展初期,大家都是從無到有野蠻生長,無可厚非。
一方則認為知識蒸餾就是走捷徑,向高手偷招兒,甚至還有人說的很重,直接說這是抄襲。
客觀的來說,知識蒸餾並不是抄襲,而是一種站在巨人肩膀上的做法。
所謂的資料蒸餾有兩層含義:

第一層:省去了從原始資料標註、去噪的過程,直接呼叫成熟大模型的api,輸入問題輸出結果,蒸餾出更精準更有質量的資料。

第二層,可以對比輸出結果的不同,不斷地修正自己的大模型演算法,比用原始資料訓練更有效率,成本也更低。

這是不是抄襲呢?

很難說,沒有嚴格的界定,因為有人說了,OpenAI的原始資料也沒有獲得授權,而且無視網路協議爬取別人的內容,現在自己的資料被人爬了,在道德上很難自圓其說。

2、演算法:工程創新

如果僅僅是靠知識蒸餾,很多小模型公司都在這麼做,為什麼只有DeepSeek跑出來了,說明還是有與眾不同的地方。

這個與眾不同的地方就在於:

設計流程和工程實現方面的最佳化和創新。

下面說幾個創新的方面,不做展開,其實大多數人也看不太明白:

混合專家模型、低秩注意力機制、強化學習推理、小模型蒸餾等設計最佳化,以及FP8混合精度和GPU部署等工程創新。
值得一提的是:
這些底層技術和方向很多都不是DeepSeek的首創,但是DeepSeek透過流程設計和工程創新實現了成本和產出的效率最大化。

也是很了不起的。

這讓我想起了中國的新能源汽車,三電系統都不是國內原創的技術,但並不妨礙底層技術之上的創新,不妨礙中國新能源車做到世界第一的位置。
這其實也說明了中美在科技領域的比較優勢:

美國適合做0-1,中國適合做1-N,美國的優勢在於人才、創新和資本,中國的優勢在於基礎設施、工程師紅利以及最大的市場進行需求迭代。

這種優勢本來是應該互補的,而不是制裁和脫鉤的。

3、路線:閉源和開源
這塊簡單說一下:

以OpenAI為代表的閉源路線,從最底層最原始的資料做標註做推理,能力更強,就像學生學習老師,如果只是透過老師的知識來訓練,其實比較難超越老師的,

但問題是閉源的成本太高了,最主要就是算力成本,因為它很多時候是從頭開始算

,因為成本高,使用門檻也高,我每個月要付20美元給ChatGPT,但基本上用的不多。

這裡埋個伏筆:

算力和英偉達。

後面再說。

開源的成本就沒那麼高了,特別是開源小模型的免費普及,有利於資訊平權,也有利於AI的普及從而加快生態構建。

在AI大模型發展到一定程度,開源是必然的。

這個路線之爭,在矽谷早就開始了,大家都苦OpenAI和英偉達久矣,不過真正把AI往開源方向拽了一大把的卻是中國的公司。

從上面三個方向基本可以瞭解:

DeepSeek確實很厲害,但是並沒有到顛覆的地步,那麼是誰在推動這個神話呢?

下面簡單說說。
– 2 –
1、科技博弈
首先很多人想到的就是中美的科技博弈。

國內需要DeepSeek來論證美國的科技制裁無效,美國則需要用DeepSeek來說服國會制裁還不夠,以及加大AI投入。

這個邏輯也說得通,不過跟DeepSeek無關,很多人不知道DeepSeek其實是一家民營公司,而且還是去年被人人喊打的股市中搞量化的。

它可能是無意間成為大國博弈的棋子。

2、行業路線
矽谷很多人支援DeepSeek,很多小模型公司也聲援它,其實是另有所指:
大家苦OpenAI和英偉達久矣。
OpenAI搞閉源,每次有新的技術都遮遮掩掩擠牙膏,生怕別人超過它,一點都不Open。

英偉達就簡單了,死貴,大公司訓練一個大模型都吃力,小公司的垂直小模型也不容易,就不能便宜點嘛?

所以,與其說是喜歡DeepSeek,不如說是討厭OpenAI和英偉達,換句話說就是:
終於有人用低算力成本和高水平模型來替大家出口氣了。

笑。

3、資本遊戲

其實DeepSeek剛放出訊息的時候,我一度認為是為了做空美股的小作文。

大家知道,DeepSeek是做量化的,而美股高位泡沫很大了,特別是以英偉達為代表的七姐妹,泡沫什麼時候破,以什麼方式破,其實都在預期之中。
做空英偉達拉爆美股泡沫,我看挺合適。

資本有沒有這個想法,恐怕不會沒有,不過英偉達雖然跌了,但美股還是挺強的,有驚無險。

4、社交媒體

聲音最大,但似乎最沒什麼意義的就是社交媒體了。

從各種沸騰到顛覆,從低幼表述到宏大敘事,從扒創始人資訊甚至春節趕到他老家打卡…
已經讓人覺得恐怖了。
去年KIMI出來的時候,也是這樣,豆包出來的時候,也很瘋狂,估計DeepSeek之後再出一個別的,還會照樣沸騰。

都是情緒的產物,沒有什麼實際價值。

這些沸騰的人估計也不會把AI當成生產力工具,都是一陣風,因為自媒體上可以沸騰的東西太多了。

– 3 –
結語
最後:
DeepSeek我還沒用過,但有一款國產可以媲美ChatGPT的免費大模型可以用,當然是大好事一件。
大家沒必要急著沸騰和質疑,而是應該馬上用起來,當成自己的生產力工具,而不是情緒工具。

另外,建議蘋果可以跟進談一下了,整合到蘋果裡,最好今年就推出AI版手機吧。

就這樣。

推薦閱讀:


2025年十大懸念和期待。
今年是極為重要的一年,不論是國內經濟面臨新問題和政策出現大轉向,還是國外美國某人歸來和地緣經貿的再平衡,都將深刻影響每一個人。
我們梳理了今年十大懸念和期待,看完應該會對今年的宏觀大勢和微觀走向有更清晰的感知和把握。
可以繼續閱讀:2025年十大懸念和期待
喜歡此內容的人還喜歡

感受到風向變化

10個朋友讀過   趨勢

事出反常必有妖

500個點贊局勢
大的來了

閱讀10萬+   深度

相關文章