OpenAI指控DeepSeek的技術蒸餾，是怎麼回事？

最近，關於中國DeepSeek和OpenAI的爭論還在持續發酵，昨天，AI行業巨頭OpenAI公開指控DeepSeek涉嫌蒸餾其模型技術。

簡單說就是OpenAI 認為 DeepSeek 並不是獨立訓練了一個全新的 AI 模型，而是透過某種方式利用了 OpenAI 的模型輸出，訓練出了一個自己模型，是“複製”了 OpenAI 的技術，而不是從頭開始自己研發的。

OpenAI 還表示，他們已經透過“技術手段”發現了 DeepSeek 可能存在的侵權行為，並將採取措施。但 OpenAI 的宣告並沒有透露具體的證據，只是說他們掌握了確鑿的資料。

那麼，這個“蒸餾”到底是什麼？是不是就是一種“抄作業”呢？

事實上，在 AI 研究領域，“模型蒸餾”（Knowledge Distillation）是一種常見的技術，它的本質是用一個大型的、高精度的“老師模型”來訓練一個更小、更高效的“學生模型”。

簡單舉個例子：有一位資深的數學教授，他的知識非常廣泛，水平也很高，但請他講課得花很多錢。

而你就想培養一個中學生，讓他能在考試中取得好成績，但是他又不可能像大學教授那樣花幾十年去學習數學。

這時候，你讓可以讓老教授給中學生教授一些解題思路和經典的題型，中學生透過這樣的學習，最終也能得出正確的答案，甚至在某些情況下可以比教授更快得出結論。

這裡的老教授就相當於OpenAI 的GPT，而中學生就相當於 DeepSeek。

在 AI 領域，這種方法比較常見，特別是在資源有限的情況下，研究團隊通常會用開源的或現有的強大模型來訓練一個新模型，而不是從零開始訓練一個龐大的 AI。

OpenAI 說他們有“明確的證據”，可能會是什麼呢？

首先OpenAI 可會能拿 DeepSeek 的模型輸出和 GPT-4 的輸出進行比對，看它們的相似程度。如果兩個模型在大量任務上的回答模式、用詞習慣、推理邏輯高度相似，那很可能 DeepSeek 是受到了 GPT-4 的影響。

其次，OpenAI這種大模型很多會在輸出中植入某種“水印”技術，如果 DeepSeek 的模型輸出有OpenAI的水印，那基本上就可以證明它是在用 OpenAI 的資料進行訓練。

再有就是API 的訪問記錄，API是Application Programming Interface的縮寫，中文是“應用程式介面”，這是一個系統讓別人訪問他們功能的“橋樑”。

API 的專業性比較強，咱們只說結果，如果一個程式設計師在工作中只是簡單使用了OpenAI 的 API，那是沒有問題的，但如果是批次使用，那就違反了OpenAI 的使用規定。

而 OpenAI 可能會透過日誌分析發現這種情況。

在 OpenAI 釋出聲明後，DeepSeek 還沒有做出回應。

值得一提的是，在 AI 領域，模型蒸餾是否合法，也是有爭議的。許多 AI 研究機構都會用現有的大模型來輔助訓練自己的模型。但如果這個過程有未經授權的 API 訪問、濫用商業模型的資料，那就有可能涉及法律和道德問題。

在傳統的軟體行業，程式碼的直接抄襲是違法的，如果一個公司未經授權複製了另一個公司的程式碼，那就是明顯侵犯了智慧財產權。

但是，AI 不是程式碼，它是資料+演算法+計算資源，而模型蒸餾的核心技術本質上是“學習”而不是“複製”，所以AI 訓練資料本身的版權問題仍然存在爭議。

如果 DeepSeek 直接使用了 OpenAI API 來生成大量資料，並用於訓練自己的模型，那這可能違反了 OpenAI API 的使用條款，但在法律上是否構成“盜竊”還不明確。

更復雜的是，AI 本身就是在“模仿”人類語言和推理。如果 AI 能模仿人類的寫作風格而不侵犯版權，那麼 AI 研究機構模仿另一個 AI 公司的模型架構，是否也合理呢？

總之，關於AI 智慧財產權的法律仍然比較模糊，但 OpenAI 的態度很明確，他們希望透過這次事件，讓行業建立起更明確的規則。

另外，關於DeepSeek的風波，還和AI 研究的“開源、閉源”之爭有關。目前AI的研究分為兩大流派，其中以扎克伯格的臉書為代表的是開源派。閉源派就是以OpenAI為代表的，他們強調技術的保密性，提倡商業化。

而DeepSeek 本質上是一個開源派的產品。那麼，OpenAI 為什麼要封閉呢？

最初，OpenAI 的目標是推動“安全、透明、開放”的 AI 研究。然而，在 GPT-4 之後，他們發生了根本性的轉變，開始完全閉源；

OpenAI 不再分享技術細節，甚至連模型引數都不公開；他們對 API 訪問進行了更嚴格的限制，並且不斷增加付費的門檻。

這是因為OpenAI 現在已經不再是一個單純的研究機構，而是一個商業公司，他們必須保護自己的核心資產。OpenAI 還認為：如果大規模開放 AI 可能會帶來風險，比如被濫用於虛假資訊生成和惡意操作等。

更重要的是AI 競爭的實質是一場競賽，如果競爭對手可以輕鬆“複製”你的技術，那 OpenAI 的護城河就沒有了。

而開源派主張學術研究和技術共享；降低 AI 訓練成本，使中小型企業也能進入 AI 賽道；避免 AI 技術被少數公司壟斷。

但問題在於，如果所有 AI 都開源了，那類似 OpenAI 這樣的企業就沒有動力去投入數十、上百億美元開發更強大的模型了，而這也是OpenAI成為龍頭的原因。

更重要的是，OpenAI現在還沒有實現盈利，每年還要繼續投入大量的資金進行研發，如果輕易就被別人給蒸餾了，那他的投資者情可以堪啊？

OpenAI 對 DeepSeek 的反應如此激烈，是因為技術追趕的速度遠遠快於技術壟斷的建立。

DeepSeek 這樣的新興機構，他們可以利用已有的開源技術進行最佳化，採用模型蒸餾等技術快速提升自己的大模型。這會危及 OpenAI 鉅額投資建起來的技術護城河。

目前來看，OpenAI 想要的並不僅僅是阻止 DeepSeek，而是希望透過這場爭議確立AI 智慧財產權的新規則，以確保未來 AI 研究的“蒸餾”方式受到限制；讓其他公司無法輕易複製 OpenAI 的技術。

如果 OpenAI 和 DeepSeek 真的展開法律戰，可能會對整個 AI 產業帶來深遠影響：首先，AI 研究可能變得越來越封閉，商業公司可能會進一步加密其模型，以防止被蒸餾。

其次開源社群可能受到打壓，如果 OpenAI 勝訴，那許多小型研究機構可能會受到更多限制，開源 AI 可能受到衝擊。

第三，關於AI 知識產權的法律可能變得更加明確，關於 AI 蒸餾的合法性，這次的爭端可能成為一個新的判例。

總的來說，OpenAI 和DeepSeek 這場爭議，不僅僅是兩家公司之間的較量，更是 AI 研究開放性、商業模式、智慧財產權等多方面博弈的縮影。也是一場關於AI 未來發展方向和全球科技競爭的大博弈。

相關閱讀：把美股嚇崩盤的中國AI是怎麼回事？

加微信，防失聯

朋友圈裡有廣告，介意的請慎重

dignews.cc

OpenAI指控DeepSeek的技術蒸餾，是怎麼回事？

相關文章

OpenAI打小報告，要求停用DeepSeek

OpenAI要美國政府，封殺DeepSeek，鎖死中國AI！

他罕見“認錯”：在這方面，我們一直站在歷史錯誤一邊

它們急了！DeepSeek遭OpenAI和Claude圍剿，美國網友都看不下去了

OpenAI到底怎麼了？居然建議美國政府禁止開源模型DeepSeek

今日看點#62｜DeepSeek“風波”（6篇）：中國創新、美國效仿；風波的真正意義；賊喊捉賊的OpenAI

橫空出世的AI應用DeepSeek，何以引爆全球？

這群科學敗類，竟煽動像制裁華為一樣封鎖DeepSeek！

馬斯克沒完成的事，DeepSeek幫他實現了

2900億，史上最大融資要來了