渡十娘｜也說說Deepseek

danshi做公眾號裡的《紐約客》

戳藍字一鍵關注渡十娘

轉發也是一種肯定

文字｜湖衣‍‍

編輯｜渡十娘

最近，一家名叫 DeepSeek 的中國人工智慧公司火了，據說它開發的AI模型在效能和價格上都碾壓了很多國際巨頭，甚至引發了股市震盪。那麼，事實究竟如何呢？

從我得到的資料來看：首先，DeepSeek有一個很優秀的技術團隊，它們並不是橫空出世，而是已經在業界有一定認可度。DeepSeek的工程師改進了演算法，甚至動了普通公司不會去動的底層。這些創舉讓AI模型得以用更少的計算資源，取得更好的效果。其次，DeepSeek有相當強大的算力。DeepSeek的母公司High-Flyer是一家中國對沖基金，也是採用 AI 技術進行交易演算法的先驅者，在美國半導體出口禁令之前就投資了 10,000 個 A100 GPU，而DeepSeek和High-Flyer是資源共享的。TechAnalysis有一篇文章透過對財報等公開資訊的分析，認為DeepSeek能夠使用大約50,000 個 Hopper GPU（這些GPU包含功能最強的H100以及專供中國的H800兩種型號），伺服器資本支出大約為 16 億美元，即使只有一半用於AI模型的訓練，也遠超很多公眾號聲稱的6百萬美元。即使如此，DeepSeek在模型技術領域依然驚人地高效，並引發了關於未來是否需要那麼多GPU的疑問。最後，也是對AI領域衝擊最大的是：DeepSeek完全開源。無論接受與否，DeepSeek的崛起，意味著中國確實已經成為該領域不可忽視的力量。

現在，讓我們看看故事的另一個方面。種種跡象表明，DeepSeek在訓練的時候，使用了“模型蒸餾”，也就是利用OpenAI模型的輸出結果（例如預測結果的機率分佈）作為訓練資料來訓練自己的模型。雖然蒸餾是AI領域常用的方法，但是依然有可能引發法律糾紛（如果OpenAI禁止此類行為的話）。另一方面，DeepSeek的強大算力也引發了美國政府關於英偉達是否違反了禁令的爭議。事實上，最近一週英偉達股票的跌落更多的是源於政治上的不確定，而不是可能的GPU過剩。畢竟，成本急劇下降能夠使得小公司甚至個人都有能力參與AI領域的競爭，反而能夠打破目前巨頭壟斷的局面。經歷過電腦從超算中心走入千家萬戶歷史的我們應該知道這意味著什麼。

也看見有人說，DeepSeek就是抄襲。比如：我在察看DeepSeek的思考過程時，看到了關於openAI的字句。

然而，這可能是誤導，因為之前我曾經刻意用製作炸藥等敏感話題誘導DeepSeek。

相對而言，DeepSeek的中文模型訓練比OpenAI要強。OpenAI偶爾可以做出看得過去的格律詩，但是對於詞的訓練就很讓人啼笑皆非。而DeepSeek只要prompt寫得好，還是能夠做出看的過去的詞作的。比如我曾經讓DeepSeek模仿姜夔的風格，用負笈、郢路、江梅、楚材晉用等意向，寫一首長調。最後它交出了下面這個答案：

《八聲甘州·赴美三十年感懷》

記當時負笈遠辭家，郢路正迢迢。

任風霜幾度，孤燈夜讀，星月相邀。

猶憶幼兒懷抱，半歲別音嬌。

今已而立歲，夢影難消。

忽見江梅初綻，似故園春色，暗渡重霄。

嘆異鄉羈旅，何處覓漁樵。

念雙親、天涯同住，願平安、歲歲共良宵。

思兄弟、隔洋遙望，何日歸橈。

不算優秀，不過稍稍改動一下也可以充當中文系作業了，當然，這樣的詞作是否有靈魂，又是一大問題。

也翻了翻DeepSeek的文生圖應用JanusPro，一句話：還有不短的路需要走。或許，它可以試一試蒸餾一下keling。