OpenAI進入第9天，公司宣佈最先進的模型o1系列已透過應用程式介面（API）全面向第三方開發者開放。這一發布標誌著開發者能夠將OpenAI的頂尖技術無縫整合到現有的企業級應用或面向消費者的工作流程中。

可是，在OpenAI忙著釋出會的時候，一位OpenAI前員工自殺離世。

據美國消費者新聞與商業頻道（CNBC）報道，26歲的美國OpenAI公司前研究員Suchir Balaji近期被發現在他位於舊金山的公寓內自殺身亡。舊金山警察局表示，初步調查顯示，“沒有發現謀殺的證據”。

此前，Balaji曾公開指責OpenAI 的 ChatGPT 應用程式違反了美國版權法。他曾在個人部落格寫道：OpenAI 在資料的使用方面存在不合理性，因為它未經許可就使用受版權保護的材料訓練其模型，侵犯了從程式設計師到記者等無數原創作者的智慧財產權。《紐約時報》也表示：Balaji 擁有“獨特且相關的檔案”，可以對OpenAI的訴訟起到關鍵性作用。在一定程度上，Balaji成為了吹哨者的角色。

因此，Balaji去世的訊息讓全球科技圈頗為震動，世界首富、特斯拉CEO埃隆·馬斯克（Elon Musk）也關注並轉發了相關報道，發出一個“唔”（Hmm）做出評論。

OpenAI 發言人在電子郵件中說：“今天得知這一令人難以置信的噩耗，我們感到非常悲痛，在這一艱難時刻，我們向 Suchir 的親人表示同情。”

他的去世再次引起了人們對AI道德和合法性的激烈辯論。那麼，生成式AI究竟如何侵權？Balaji的一聲哨響能喚醒多少人？以下：

他的悲劇性死亡為何震驚了科技界？

Suchir Balaji是誰？他是一名印度裔美國人，曾就讀於加州大學伯克利分校學習計算機科學，大學期間在OpenAI和Scale AI實習。畢業以後，他選擇加入了OpenAI，先後參與過WebGPT的研發，後來又加入GPT-4的預訓練團隊、o1的推理團隊以及ChatGPT的後訓練團隊，是 21 世紀最具變革性的技術之一 ChatGPT 背後的主要架構師之一。

而這位26歲的年輕人也是OpenAI最直言不諱的批評者。他在OpenAI工作了四年多，最終選擇離開了這家公司，理由是擔心這家人工智慧巨頭涉嫌在未經適當同意的情況下使用受版權保護的資料。

在接受《紐約時報》採訪時，他解釋了像GPT-4 這樣的系統如何透過完整複製它們所訓練的資料來學習。Balaji在X釋出了一篇文章，詳細說明他的擔憂，也闡明瞭 AI 訓練過程的複雜性。

文章中寫道：“雖然生成模型很少產生與其任何訓練輸入基本相似的輸出，但訓練生成模型的過程涉及複製受版權保護的資料。如果這些副本未經授權，這可能會被視為侵犯版權，具體取決於模型的特定使用是否符合'合理使用'的條件。由於合理使用是根據具體情況確定的，因此無法對生成式 AI 何時符合合理使用條件做出寬泛的宣告。”

文章引用了1976年《版權法》第107條中對「合理使用」的定義：

（1）使用的目的和性質，包括該使用是否具有商業性質或是否用於非營利教育目的；

（2）受版權保護作品的性質；

（3）所使用部分相對於整個受版權保護作品的數量和實質性；

（4）該使用對受版權保護作品的潛在市場或價值的影響。

Suchir Balaji強調，合理使用是一項平衡測試，需要權衡四個因素。ChatGPT 的訓練資料不公開，可能看不到對市場價值的影響。《生成式AI對線上知識社群的影響》寫明，在ChatGPT釋出後，Stack Overflow的訪問量下降了約12%，每個主題的提問數量也有所下降。

這種影響體現在各個方面，作業幫助網站Chegg在ChatGPT影響其增長後，股價下跌了40%。

最關鍵的是，這種利益侵害還在某種“許可”的情況下完成的。OpenAI和谷歌等公司大多和Stack Overflow、Reddit、美聯社、News Corp等簽訂了資料許可協議。鑑於資料許可市場，在未獲得類似許可協議的情況下使用受版權保護的資料進行訓練也構成了市場利益損害，因為這剝奪了版權持有人的合法收入來源。因為，ChatGPT可能創造了與原始內容形成直接競爭的替代品。

因素（3）：所用部分的數量和實質性與整個受版權保護的作品相關

如果輸出內容不直接複製受版權內容保護的資料，則屬於“合理使用”；如果模型的訓練輸入包含了受版權保護資料的完整副本，這不利於「合理使用」。

模型訓練過程中，如果輸出的資訊熵（H(Y)）低於或等於訓練資料的真實資訊熵（H(X)），則表明模型輸出中包含了較多的訓練資料資訊。降低輸出的資訊熵可以減少模型輸出中的隨機性，從而減少“幻覺”（即虛假資訊）的發生。因此，大家會採用基於人類反饋的強化學習（RLHF），傾向於降低模型的熵值，以提高輸出的準確性和可靠性。

可是，即使模型輸出中不直接複製受版權保護的資料，訓練資料中的資訊仍可能以某種程度被使用，這可能分散融入到整個輸出內容中。透過分析輸出中的熵值，可以估計模型輸出中有多少內容對應於訓練資料集中的資訊，從而評估版權內容對模型輸出的影響。這麼來看，無論如何解釋都難以找到支援「合理使用」主張的依據。

在這個過程中，這位年輕人還指出了一個更大的問題：隨著人工智慧技術越來越多地取代現有的網際網路服務，它們經常會產生虛假甚至完全捏造的資訊，研究人員稱這種現象為“幻覺”。而這種情況會讓網際網路變得更糟。

Balaji強調說，他的觀點是針對的不僅僅是 OpenAI，而是整個生成式 AI。在他去世前釋出的最後一篇 X 帖子中反思道：“我最初對版權、合理使用等知之甚少，但在看到所有針對 GenAI 公司的訴訟後，我變得很好奇。當我試圖更好地理解這個問題時，我最終得出結論，對於許多生成式 AI 產品來說，合理使用似乎是一個非常不可信的辯護，因為基本原因是它們可以創造出與它們所訓練的資料競爭的替代品。”

哨聲響起，究竟能喚醒多少人？

在過去兩年時間裡，Balaji並不是唯一指出版權問題的人，許多個人和企業起訴了包括OpenAI 在內的各種人工智慧公司，認為他們非法使用受版權保護的材料來訓練他們的技術，提起訴訟的人包括計算機程式設計師、藝術家、唱片公司、書籍作者和新聞機構。

其中，《紐約時報》應該其中表現最為積極的。去年，《紐約時報》在美國法院起訴OpenAI和微軟公司，指控這些公司未經許可使用其數百萬篇文章訓練強大的人工智慧模型，成為可靠資訊的來源。但兩家公司都否認了這些說法。

此前，Balaji曾在採訪中強調，威脅更為緊張，ChatGPT 和其他聊天機器人正在破壞個人、企業和網際網路服務的商業生存能力，這些個人、企業和網際網路服務建立了用於訓練這些人工智慧系統的數字資料。“對於整個網際網路生態系統來說，這不是一個可持續的模式。”他告訴紐約時報。

與此同時，很多曾在 OpenAI 和其他科技公司工作過的研究人員警告說，人工智慧技術可能會造成嚴重傷害。但這些警告大多是關於未來風險的，比如人工智慧系統有朝一日可能會幫助製造新的生物武器，甚至毀滅人類。

沒有法律的束縛，OpenAI、谷歌、微軟等公司會走向何方呢？現在看來，OpenAI正在奮力擺脫“非盈利”束縛，急迫地尋找商業化的方向。

在剛剛結束的2024年紐約時報DealBook峰會上，奧特曼親口表示，起步時，OpenAI並沒有計劃成為一家產品公司，也不瞭解我們需要多大規模的資本。如果當時知道這些，OpenAI一開始就不會選擇非營利結構。

最近，OpenAI連續召開12天釋出會的企劃，已經讓公司商業化野心藏不住了。與此同時，OpenAI CFO薩拉·弗萊爾（Sarah Friar）在最近的採訪中還提到：OpenAI的產品已經達到博士級別，可以每個月收取2000美元。CFO進一步地表示，如果AI真的能像一個博士級別的助手，在任何事情上幫助我，每月收取數千美元的費用是合理的，這能更好地反映AI技術能為公司提供價值，對這個世界也會是有意義的。“OpenAI可以根據客戶從他們產品中獲取的價值來向客戶收費。”

可以看到，Balaji的哨聲雖然沒有叫醒OpenAI，但好在叫醒了更多的人。扎克伯格也開始要求政府阻止OpenAI從非營利實體向營利實體過渡的計劃，並稱，OpenAI不應該被允許無視法律，將其作為慈善非營利機構建立起的資產據為己有，並將其用於潛在的巨大私人收益。

設想一下，取代你工作的AI輸出的內容可能是你曾經辛辛苦苦完成的，它學習了之後就“堂而皇之”據為己有。對於公司而言，自己曾經合法授權的資料，在AI學習之後，成為刺傷自己的利劍。

面對強大技術帶來的深遠後果，總會有一批科學家陷入道德困境和內心衝突的掙扎時刻。Suchir Balaji的離世只是掀起AI倫理的一角，技術未來走向可能越來越不以人類意志為轉移。那麼，人類與AI究竟誰會是未來主宰者？

References：

1、X、OpenAI、Google等

2.interestingengineering：OpenAI whistleblower Suchir Balaji found dead amid copyright clash

3.Mashableindia：What OpenAI Whistleblower Suchir Balaji Exposed About AI's Dark Side Before He Was Found Dead