
最近,關於中國DeepSeek和OpenAI的爭論還在持續發酵,昨天,AI行業巨頭OpenAI公開指控DeepSeek涉嫌蒸餾其模型技術。
簡單說就是OpenAI 認為 DeepSeek 並不是獨立訓練了一個全新的 AI 模型,而是透過某種方式利用了 OpenAI 的模型輸出,訓練出了一個自己模型,是“複製”了 OpenAI 的技術,而不是從頭開始自己研發的。
OpenAI 還表示,他們已經透過“技術手段”發現了 DeepSeek 可能存在的侵權行為,並將採取措施。但 OpenAI 的宣告並沒有透露具體的證據,只是說他們掌握了確鑿的資料。
那麼,這個“蒸餾”到底是什麼?是不是就是一種“抄作業”呢?

事實上,在 AI 研究領域,“模型蒸餾”(Knowledge Distillation)是一種常見的技術,它的本質是用一個大型的、高精度的“老師模型”來訓練一個更小、更高效的“學生模型”。
簡單舉個例子:有一位資深的數學教授,他的知識非常廣泛,水平也很高,但請他講課得花很多錢。
而你就想培養一個中學生,讓他能在考試中取得好成績,但是他又不可能像大學教授那樣花幾十年去學習數學。
這時候,你讓可以讓老教授給中學生教授一些解題思路和經典的題型,中學生透過這樣的學習,最終也能得出正確的答案,甚至在某些情況下可以比教授更快得出結論。
這裡的老教授就相當於OpenAI 的GPT,而中學生就相當於 DeepSeek。
在 AI 領域,這種方法比較常見,特別是在資源有限的情況下,研究團隊通常會用開源的或現有的強大模型來訓練一個新模型,而不是從零開始訓練一個龐大的 AI。
OpenAI 說他們有“明確的證據”,可能會是什麼呢?
首先OpenAI 可會能拿 DeepSeek 的模型輸出和 GPT-4 的輸出進行比對,看它們的相似程度。如果兩個模型在大量任務上的回答模式、用詞習慣、推理邏輯高度相似,那很可能 DeepSeek 是受到了 GPT-4 的影響。
其次,OpenAI這種大模型很多會在輸出中植入某種“水印”技術,如果 DeepSeek 的模型輸出有OpenAI的水印,那基本上就可以證明它是在用 OpenAI 的資料進行訓練。
再有就是API 的訪問記錄,API是Application Programming Interface的縮寫,中文是“應用程式介面”,這是一個系統讓別人訪問他們功能的“橋樑”。
API 的專業性比較強,咱們只說結果,如果一個程式設計師在工作中只是簡單使用了OpenAI 的 API,那是沒有問題的,但如果是批次使用,那就違反了OpenAI 的使用規定。
而 OpenAI 可能會透過日誌分析發現這種情況。

在 OpenAI 釋出聲明後,DeepSeek 還沒有做出回應。
值得一提的是,在 AI 領域,模型蒸餾是否合法,也是有爭議的。許多 AI 研究機構都會用現有的大模型來輔助訓練自己的模型。但如果這個過程有未經授權的 API 訪問、濫用商業模型的資料,那就有可能涉及法律和道德問題。
在傳統的軟體行業,程式碼的直接抄襲是違法的,如果一個公司未經授權複製了另一個公司的程式碼,那就是明顯侵犯了智慧財產權。
但是,AI 不是程式碼,它是資料+演算法+計算資源,而模型蒸餾的核心技術本質上是“學習”而不是“複製”,所以AI 訓練資料本身的版權問題仍然存在爭議。
如果 DeepSeek 直接使用了 OpenAI API 來生成大量資料,並用於訓練自己的模型,那這可能違反了 OpenAI API 的使用條款,但在法律上是否構成“盜竊”還不明確。
更復雜的是,AI 本身就是在“模仿”人類語言和推理。如果 AI 能模仿人類的寫作風格而不侵犯版權,那麼 AI 研究機構模仿另一個 AI 公司的模型架構,是否也合理呢?

總之,關於AI 智慧財產權的法律仍然比較模糊,但 OpenAI 的態度很明確,他們希望透過這次事件,讓行業建立起更明確的規則。
另外,關於DeepSeek的風波,還和AI 研究的“開源、閉源”之爭有關。目前AI的研究分為兩大流派,其中以扎克伯格的臉書為代表的是開源派。閉源派就是以OpenAI為代表的,他們強調技術的保密性,提倡商業化。
而DeepSeek 本質上是一個開源派的產品。那麼,OpenAI 為什麼要封閉呢?
最初,OpenAI 的目標是推動“安全、透明、開放”的 AI 研究。然而,在 GPT-4 之後,他們發生了根本性的轉變,開始完全閉源;
OpenAI 不再分享技術細節,甚至連模型引數都不公開;他們對 API 訪問進行了更嚴格的限制,並且不斷增加付費的門檻。
這是因為OpenAI 現在已經不再是一個單純的研究機構,而是一個商業公司,他們必須保護自己的核心資產。OpenAI 還認為:如果大規模開放 AI 可能會帶來風險,比如被濫用於虛假資訊生成和惡意操作等。
更重要的是AI 競爭的實質是一場競賽,如果競爭對手可以輕鬆“複製”你的技術,那 OpenAI 的護城河就沒有了。
而開源派主張學術研究和技術共享;降低 AI 訓練成本,使中小型企業也能進入 AI 賽道;避免 AI 技術被少數公司壟斷。
但問題在於,如果所有 AI 都開源了,那類似 OpenAI 這樣的企業就沒有動力去投入數十、上百億美元開發更強大的模型了,而這也是OpenAI成為龍頭的原因。
更重要的是,OpenAI現在還沒有實現盈利,每年還要繼續投入大量的資金進行研發,如果輕易就被別人給蒸餾了,那他的投資者情可以堪啊?

OpenAI 對 DeepSeek 的反應如此激烈,是因為技術追趕的速度遠遠快於技術壟斷的建立。
DeepSeek 這樣的新興機構,他們可以利用已有的開源技術進行最佳化,採用模型蒸餾等技術快速提升自己的大模型。這會危及 OpenAI 鉅額投資建起來的技術護城河。
目前來看,OpenAI 想要的並不僅僅是阻止 DeepSeek,而是希望透過這場爭議確立AI 智慧財產權的新規則,以確保未來 AI 研究的“蒸餾”方式受到限制;讓其他公司無法輕易複製 OpenAI 的技術。
如果 OpenAI 和 DeepSeek 真的展開法律戰,可能會對整個 AI 產業帶來深遠影響:首先,AI 研究可能變得越來越封閉,商業公司可能會進一步加密其模型,以防止被蒸餾。
其次開源社群可能受到打壓 ,如果 OpenAI 勝訴,那許多小型研究機構可能會受到更多限制,開源 AI 可能受到衝擊。
第三,關於AI 知識產權的法律可能變得更加明確,關於 AI 蒸餾的合法性,這次的爭端可能成為一個新的判例。
總的來說,OpenAI 和DeepSeek 這場爭議,不僅僅是兩家公司之間的較量,更是 AI 研究開放性、商業模式、智慧財產權等多方面博弈的縮影。也是一場關於AI 未來發展方向和全球科技競爭的大博弈。
相關閱讀:把美股嚇崩盤的中國AI是怎麼回事?
加微信,防失聯

朋友圈裡有廣告,介意的請慎重