DeepSeek需要感恩美國嗎?

文 |  北方朔風
在上週,DeepSeek開源了五個程式碼庫,這些程式碼庫不是大模型本身,而是大模型執行所需要的構架內容——這是之前預告過的內容,五天分別開源五個用來最佳化大模型效率的庫。不過到了上週六,來了個意外驚喜,他們公佈了V3/R1模型執行的成本利潤率,理論上可以高達545%,這給業界驚訝的同時,也難免讓人聯想,為什麼會額外公佈這方面的資訊呢?
因為在公佈這篇內容的時候,DeepSeek專門註冊了一個官方知乎賬號,而就在之前,國內一家從事大模型雲服務的公司潞晨科技,這家公司的老闆尤洋公開在知乎釋出長文炮轟maas(模型即服務)在中國市場跑不通,DeepSeek的模式一個月要虧幾個億。
DeepSeek公佈成本利潤率是否是對炮轟言論的一種回覆,我們不得而知。但是面對這篇內容,這位來自於伯克利的高材生顯然有些破大防,不僅攻擊其他友商,而且還說出了一些非常匪夷所思的話,比如說指責DeepSeek沒有感恩之心之類的話,隨後還宣佈停止DeepSeek的模型服務,雖然後續也有一貫的刪文道歉,但是觀感上實在是很糟糕。並且這家公司還被扒出之前曾經涉嫌盜用程式碼等問題。
其實這個事情背景並不複雜,V3/R1模型爆火之後,各家雲服務廠商都在自家平臺上線了模型,國內各路大模型雲服務的使用率飆升,這當然是好事,可是定價卻有點麻煩了。一下子爆發出的藍海市場競爭激烈,家大業大的雲服務巨頭可以短時間免費,哪怕是較小的雲服務廠商,也選擇了和DeepSeek官方一樣的定價,因為V3/R1模型的複雜性,以這個價格執行是否能賺錢,確實是個很看技術水平的事情。

至於尤洋的伯克利身份,這個倒是不必過多糾結,畢竟DeepSeek在MOE(專家混合模型)領域的最佳化設計,大機率是世界第一,美國人的高等學府比不上倒也正常。
簡單的介紹一下,MOE模型和普通的大模型的區別在於,當遇到一個token的時候,MOE模型只會啟用其中的一部分引數,也就是其中的一個小模型,這類模型模型雖然可能會佔據更多的記憶體,但是優勢在於,進行大規模並行推理服務的時候MOE的並行能力更加優秀,所以大廠為外界提供服務的模型往往是這類模型,而單純的密集模型,更適合部署在本地。
比起目前世界上公開的其他同類模型,DeepSeek的模型更加複雜,類似的模型往往是幾個類似的小模型堆在一起,而V3/R1有大量大小不一的模型,是目前開源模型之中最複雜的MOE,考慮成本上的優勢,美國大廠閉源的那些模型裡也很難有超過它的,在這方面的設計,確實可以說是世界第一。
甚至有一種猜想,是DeepSeek的技術人員先設計出了這一套高效執行的構架,在這個基礎上才才開發出了V3/R1。
因為DeepSeek的複雜設計,如何高效部署模型無疑是個挑戰,讓很多工作者都掉了不少頭髮,DeepSeek以極具開源精神的方式,公佈了執行的多個關鍵程式碼庫,這樣透徹的開源,全球是獨一家的,從這個角度來說,全球大模型行業中,DeepSeek無疑是對開源社群最有感恩精神的了。
而潞晨科技的業務除了提供伺服器之外,很大程度還要提供大模型執行的構架,當開源的構架比他們自研版本都好的時候,確實就被砸到了飯碗,後面如何回答投資人的質問就很有挑戰性了。

在之前文裡我們提到過,在大模型時代,網際網路的開源精神受到了衝擊,除了扎克伯格的llama之外,美國的AI大廠幾乎不進行開源。OpenAI變成了closeai,馬一龍雖然日常攻擊OpenAI,但是Grok開源了早期型號之後,後續依然沒有開源。
相反,國內企業的開源倒是一直很有精神,不說DeepSeek,阿里的qwen系列一直在各路開源榜單上霸榜,騰訊混元開源了他們的混元模型,階躍星辰開源了多個多模態,minimax開源了線性注意力的模型,哪怕是之前認為開源沒有前途的百度,也宣佈即將開源多個模型。相比之下,美國的大廠雖然各個表示受到了震撼,但是依然不改,OpenAI的奧特曼可是在2023年底就承諾2024要開源一些有價值的東西,然而他還是鴿了。
很多人會感慨美國企業是否失去了開源精神,但是筆者對此倒是有其他的理解,那就是關於大模型這筆經濟賬,到底應該怎麼算的問題。這或許也是尤洋陷入迷茫的重要原因。在大模型之前的時代,有很多開源專案,是由大廠進行,並且不收費的。那麼這些矽谷大廠是否是大善人呢?雖然確實還有點開源精神,但是更大的價值在於,透過免費推廣自家的產品,來建立標準,這背後往往會有更大的利益。
Deepseek選擇開源,應該也有這方面的考慮,不過這估計很有挑戰,一來是標準的確立和執行,需要時間,二來是美國對於中國開源模型的阻礙,三來是DeepSeek的思路確實天馬行空,其他人能不能跟得上不好說,比如說在這次開源的程式碼庫中,有一個叫做是flashMLA的,就是最佳化DeepSeek v2和v3的MLA框架效率,但是按照DeepSeek公佈的新研究,他們下一代的構架很可能就不是這個,而是叫做NSA的構架,這二者能不能融合,融合之後是什麼樣的,是個很難說的事情。

但是到了大模型時代,透過開源獲得更多收益的思路為什麼不太行了呢?因為大模型的開發成本太高了,按照矽谷標準,當下頂級的大模型開發成本是十億美元級別的,如果考慮資料中心建設成本還會更高,下一代模型規劃的成本已經到達了百億美元級別。矽谷各家企業的技術路線雖然有所不同,但是堆卡都搞的挺猛的,在這種情況,如果開源,如何回收成本呢?
雖然智算算力當然是個好東西,可是這樣堆卡的路線,恐怕並非是唯一解。我們看到馬斯克堆了二十萬張卡的Grok3雖然有了提升,但是很難說是否有價效比,而GPT4.5的token價格則是離譜到了抽象的地步,而很多傳言告訴我們,OpenAI的很多訂閱服務是要倒貼錢的。
這也是之前DeepSeek衝擊美國AI市場的一個邏輯,雖然美國的AI大廠依然可以靠財力支援堆卡,但是如果效能領先的優勢是如此之小,那麼又應該靠什麼方式才能收回前期鉅額投資的成本呢?要知道,當下美國AI市場,資料中心的投資回報率和資產折舊率,如果不是有AGI這塊大餅畫著,很難有人認為這是一個有價值的投資。雖然美股市場肯定會保證AI巨頭們暫時不爆炸,但是DeepSeek代表中國AI向美國業界提出的質問,並沒有消失。
因為現實條件的限制,我國的AI企業,則是選擇了不太一樣的路線,在成本控制上做出了很多努力,在去年上半年開始,國內AI企業進入了價格戰之後,各方的成本最佳化進步了很多,並且很多廠商可以保持不錯的利潤率。而這樣的模式繼續發展,導向又會是什麼呢?
其實很多從業者已經提出了一個可能性,未來的大模型會作為一種社會基礎設施,就像是自來水和電力一樣。他們沒有高額的利潤,但是依靠這些模型誕生的種種應用,會有更大的價值。這樣的模式,聽起來似乎比賽博朋克的世界線好不少,但是這恐怕並不符合矽谷AI人的想象。
過去幾年,我們看到矽谷諸位AI大佬吹捧的模式裡,AI似乎更類似某種神秘的工具,能提供壟斷式的利潤,而他們可以賺的盆滿缽滿,在他們的眼裡,似乎賽博朋克式的世界觀並不是什麼壞事。再考慮到這幫人士和黑暗啟蒙右翼之間的關係,這想一想就讓人腦仁疼。而最近不約而同的,OpenAI和Anthropic的老闆都開始吹大語言模型能讓人長生不老,也不知道是要給特朗普獻上長生不老藥,還是要轉移熱點。
雖然在如此複雜的技術領域話題,筆者並不喜歡誰戰勝誰,誰領先誰多少年的說法,但筆者還是要說,AI作為某種未來的基礎設施來推進社會執行,似乎比賽博朋克巨企壟斷的世界觀要好上不少。如果可能的話,我們還是不要進入賽博朋克式世界觀比較好,反烏托邦只停留在小說和遊戲裡邊就得了,我們又不是大名鼎鼎的V,沒必要真的去夜之城。這或許也是我國人工智慧企業開源的意義之一了。
回到潞晨科技,其實類似的問題不光是陷入AI競賽的雲服務企業,而是整個雲服務企業的挑戰。過去的十年,雲服務是十分關鍵的熱點,但是雲服務這事,巨頭總是有很大的優勢,這是個贏者通吃的行業,巨頭砸錢擴張乃是常態。
人工智慧的雲服務也是如此,DeepSeek的moe模型就是典型的越多人用效率越高的那種,雖然545%這個資料是理想情況,實際利潤率是明顯低於這個水平的,但是DeepSeek高負載帶來的高效率確實是小的雲服務商難以做到的。在這種情況下,較小的AI雲服務提供商,確實有很多需要思考的東西,如何做出特色,在全新的競爭之中存活下來,這可能是比攻擊友商更有價值的事情。
回到尤洋先生的問題,在討論這件事情的時候,有人會討論尤洋先生愛國不愛國,他在這次關於DeepSeek和攻擊友商的發言確實十分奇異搞笑,但是問題的關鍵也不是愛國不愛國這麼簡單。

尤洋後續在小紅書上的陰陽怪氣和找補
在GhatGPT橫空出世之後,國內的輿論場無疑很混亂,其中人工智慧從業人士的發言很是有趣,雖然有很多理性的人工智慧從業者冷靜的分析了相關的內容,但是也有一部分人工智慧從業者對國內發表了比現在的尤洋還陰陽怪氣冷嘲熱諷得多的言論。
現在兩年多過去,我們可以理性一點來說,人工智慧技術很有價值,但是並沒有那麼誇張的價值,人工智慧技術存在門檻,但是也沒有那麼誇張,對人工智慧進行船貨崇拜,是一種非常非常無趣的行為。
程式設計師群體的立場一直很複雜,但是當我們討論一個群體的立場時,就不能單純用心理學那一套。長期以來,國內學計算機的主要理想之一就是去矽谷大廠就業,畢竟有更高的待遇和更體面的地位;而要搞個什麼專案,往往也是參考美國那邊開源的東西;各種論文研究,也確實是美國佔了大頭。
這種情況下,對美國的研究有光環實在是人之常情。從這個角度來說,我們也可以理解部分程式設計師對美國的崇拜和對中國的偏見。在技術上有建樹,不代表對於各方面事務都有深刻的理解,相反,他們的看法可能會更加幼稚,相信最近大企業家馬斯克先生的各種表演,已經告訴了大家這一點。
當然,事情正在起變化。雖然矽谷人工智慧熱度很高,但是現在去矽谷就業的難度大了不少,特朗普先生推進的各項事業,肯定會加劇對華人的歧視。而且在大語言模型領域的開源方面,中國企業和開發者做出了比美國同行更多的貢獻。或許很多之前陷入某種偏見的程式設計師,可以回頭看一看自己的觀點是否有些偏見了?
在一個更公平的世界中,這些偏見或許從一開始就不應該形成,而不是需要靠DeepSeek他們去打破。之前梁文峰談論創新的時候就說到,中國人是有能力創新的,但是很多從業者和投資者不相信。很顯然,這樣的思想鋼印已經嚴重背離了現實,已經成為當下創新的阻礙。DeepSeek團隊並沒有什麼在國外大廠工作的人,這種本土化是十分難得的,也告訴我們有些思想鋼印到了必須被打破的時候了。
人工智慧技術的發展無疑是剛剛起步,中國人肯定會在這方面有很多的貢獻,我們沒理由因為美國人做不到,就覺得中國人也一定做不到,用這套邏輯去衡量國內這些新一代的技術工作者非常不公平。這完全不是科學,而是某種宗教。新的時代,我們已經不再需要這樣的宗教,不是嗎?
近期文章導讀:

中國縣城婆羅門的階級性

現在,歐洲人必須親自上戰場了

烏克蘭的今天是誰的明天?


相關文章