「美版貼吧」Reddit，為何成為AI巨頭爭搶的合作物件？

Reddit 創辦於 2005 年，幾乎和百度貼吧是一個時代的產品。有人形容 Reddit 是一個產品，形態像百度貼吧，內容風格像豆瓣使用者又和 B 站有些類似的興趣社交平臺。這樣的平臺對於使用者來說自然是發表自我看法最好的場所之一，而且它也足夠去中心化，所以對於普通使用者來說更加友好。

在過去將近 20 年的運營時間裡，人們在 Reddit 上分享了大量的內容，但是從商業化的角度來看，它有些反主流、反商業化的社群氣質也是 Reddit 成立十幾年來都無法盈利的重要原因之一。但是最近這幾年，Reddit 卻成為了 AI 巨頭們爭相追捧的內容合作伙伴。

2023 年紐約時報的報道表示，OpenAI、微軟等公司都渴望利用 Reddit 的資料來開發人工智慧模型。去年上半年，Google 和 OpenAI 也陸續宣佈和 Reddit 達成了資料合作。根據 Reddit 此前披露的招股書，未來 2-3 年時間裡，他們將會憑藉著資料許可獲得約 2 億美元的收入，這也是 Reddit 去年第三季度能夠首次實現盈利的重要原因。這一季度，他們的銷售額同比飆升了近 70%。這也讓過去嚴重依賴廣告收入的 Reddit 有了實現多元化收入的可能性，也增強了他們對於投資者的吸引力。

▲ 2024 年 5 月 16 日，OpenAI 和 Reddit 在各自的官網釋出了合作的宣告，兩個公司將在內容獲取、AI 技術上有深入的合作。 | 圖源：OpenAI 官網

Reddit 如今的股價和去年 3 月他們剛剛上市的時候相比翻了約 5 倍，那麼 Reddit 這個古早的網路論壇能夠吸引多個 AI 巨頭的原因又有哪些呢？

高質量資訊語料庫這是很多基礎模型訓練的重要組成部分。Reddit 使用者創作的各種帖子和回覆內容，對於 AI 公司來說是不可多得的語料資料。華爾街日報的分析指出，和其他社交媒體不同，Reddit 不是按照演算法對帖子進行排序，而是根據帖子的點贊情況來決定是否把這個帖子排在更前面，呈現給更多的人。比如 Reddit 的使用者可以對每一個帖子進行評價，喜歡的話就點贊，不喜歡就選擇表達反對的按鈕進行踩，在這個過程中，平臺會根據使用者的反饋優先呈現那些點贊多也更受歡迎的帖子，而被反對到一定數量的內容則會預設不再顯示，或者會被刪除。

▲ Reddit 也推出了「Reddit Answers」，可以在 Reddit 範圍內查詢問題的答案，而不用一條一條去搜索和點選。 | 圖源：Reddit 官網

AI 研究機構 Anthropic AI 的負責人表示，這樣的內容呈現規則對於 AI 公司來說是非常有用的，因為大量人類使用者點讚的資訊通常會被 AI 公司看作是質量更高的內容，而這也正是人工智慧公司在 AI 訓練中所追求的資料。也就是說，隨著各家公司爭相開發更加智慧、更準確的 AI 模型，所謂受人類歡迎的高質量資料對於人工智慧公司的重要性就會在不斷提升。

之前 OpenAI 的 CEO Sam Altman 曾經表示，提高人工智慧模型能力的關鍵因素並不是單純的增加模型的引數數量，而是要獲取和利用大規模、高質量的資料，並且對資料進行高效的工程化處理。知名 AI 學者吳恩達也曾經表示，AI 發展正在從以模型為中心加速轉向以資料為中心。

根據分析公司 SimilarWeb 的資料，截止到去年 11 月，Reddit 的使用者訪問量在美國所有網站中排名第 5。日活躍使用者數在 1 億左右，比上一年增長了近 50%。

Reddit 的 CEO Huffman 也表示，這也反映出當人們試圖尋找答案建議或者想要交流時，都會轉向 Reddit。根據他們官方披露的資料，去年上半年人們在平臺上釋出了超過 53 億條內容，和 2020 年下半年相比增長了超過 20%。而且 Reddit 平臺上有超過 10 萬個子板塊，其中超過 500 個 Reddit 的子板塊的訂閱者都達到了 100 萬左右，這些板塊都是由使用者自發建立、管理和發帖討論的。他們所討論的主題也幾乎涵蓋了從日常生活到專業知識的方方面面，包括體育、政治、投資，甚至還有專門的板塊來討論如何製作一頓美食等等。

紐約時報的報道指出，這些源源不斷的海量資訊，正是想要回答人類使用者一切問題的大語言模型所迫切需要的。而且目前除了 Reddit 之外，也很少有其他的社交媒體平臺能夠有如此多元化的內容，比如社群平臺 Discord 只是為遊戲愛好者提供服務，運動社交應用 Strava 專門面向健身愛好者。

有業內人士指出，由於 AI 的輸出和人類的語言存在比較大的差異，所以為了避免 AI 模型的表達過於僵硬和書面化，AI 公司需要使用大量真實人類的對話資料。多倫多城市大學的一位教授也對華爾街日報表示，越真實的內容對於人工智慧訓練就會越有用。

Reddit 平臺上大量真實鮮活的帖子，正好就符合這一要求。由於 Reddit 平臺採用的是匿名發言制，所以人們在這裡可以放心坦誠地討論各種各樣的話題，而不必擔心尷尬或者是冒犯到他人。

Reddit CEO Huffman 在採訪中也曾經表示，Reddit 上有很多帖子都是人們在面向醫生或者是匿名互助會的時候才會說出的內容。介面新聞的報道指出，不同於維基百科或者是各種正式的媒體報道，Reddit 上的內容可以說是網際網路上最接近於真實人類的存在，都是真實人類最平常的表達，有很多生活中會用到的俚語俗語，而這一型別的表達往往會被媒體或書籍過濾掉。根據路透社的報道，OpenAI 在訓練大語言模型的時候，就利用了 Reddit 上的資料增強模型對話能力和語言生成質量。另外有許多研究人員在評估和提高 AI 模型的對話效能時，也會選擇使用 Reddit 上的資料。

不過，AI 公司對於 Reddit 的痴迷也帶來了一些風險。

首先，Reddit 資料使用中的一個潛在倫理問題是使用者是否同意這樣的行為。連線雜誌指出，Reddit 等平臺利用線上收集來的資料訓練人工智慧模型，已經在法庭和國會中引起了一系列的問題，包括到底是誰真正擁有平臺上的內容，在不給創作者分成的情況下將資料授權出去是否公平，以及關於個人資料洩露的風險等等。

2023 年 Reddit 首次宣佈向人工智慧企業收取資料訪問費的時候，就曾經引發了社群內部使用者的抗議，導致 Reddit 癱瘓了好幾天。其次，Reddit 成功的背後是因為使用者認為它是一個分享真實意見的地方，但是這種匿名效能夠讓使用者暢所欲言的同時，也容易產生一些偏見、不當言論或者是虛假資訊。有部分使用者離開 Reddit 就是因為平臺上有些言論過於粗俗和極端，這也會影響到 AI 模型的觀點和它的寫作風格。