大模型訓練中的開源資料和演算法:機遇及挑戰

OSCHINA
↑點選藍字 關注我們
最近,開源中國 OSCHINA、Gitee 與 Gitee AI 聯合釋出了《2024 中國開源開發者報告》
報告聚焦 AI 大模型領域,對過去一年的技術演進動態、技術趨勢、以及開源開發者生態資料進行多方位的總結和梳理。
在第二章《TOP 101-2024 大模型觀點》中,蘇州盛派網路科技有限公司創始人兼首席架構師蘇震巍分析了大模型訓練過程中開源資料集和演算法的重要性和影響,分析其在促進 AI 研究和應用中的機遇,並警示相關的風險與挑戰。
全文如下:

大模型訓練中的開源資料和演算法:機遇及挑戰

文 / 蘇震巍
隨著人工智慧(AI)技術的迅猛發展,尤其是大模型(如 GPT、OpenAI o1、Llama 等)的崛起,開源資料和演算法在大模型訓練中的重要性愈發顯著。開源資料集和演算法不僅推動了 AI 研究的進步,也在應用層面帶來了深遠的影響。然而,伴隨這些機遇的還有諸多風險與挑戰,如資料質量、版權問題和演算法透明性等。本文將淺析大模型訓練過程中開源資料集和演算法的重要性和影響,分析其在促進 AI 研究和應用中的機遇,並警示相關的風險與挑戰。
任何方案都具有兩面性和在特殊環境下的討論的意義和前提,因此,本文不討論開源或對立面(閉源)的絕對取捨問題,僅對開源的有利之處加以淺析。
重要的開源資料集和演算法在大模型訓練中的角色
開源資料集是大模型訓練的基石。沒有高質量的資料,大模型的效能和應用場景將受到極大限制。ImageNet、COCO、Wikipedia 和 Common Crawl 是非常重要一批高質量的開源資料集。以下是這幾個資料集在大模型訓練歷程中的重要角色。
ImageNet:ImageNet 是計算機視覺領域最著名的開源資料集之一,包含數百萬張帶有標籤的影像。它為影像分類、物體檢測等任務提供了豐富的資料資源,使得模型能夠在視覺理解方面取得突破。它由普林斯頓大學的計算機科學家李飛飛(Fei-Fei Li)及其團隊在 2009 年建立。ImageNet 包含超過 1400 萬張影像,這些影像分為超過 2 萬個類別,每個類別都與 WordNet 中的一個詞條對應。每個類別的影像數量從數百到數千不等。ImageNet 每年都會舉辦一個大型的視覺識別競賽,即 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)。該競賽吸引了全球眾多研究團隊參與,並在推動深度學習和卷積神經網路(CNN)技術的發展中發揮了重要作用。今年的諾貝爾物理學獎得主之一 Geoffrey Hinton 帶領的團隊成員 AlexNet 在 2012 年的 ILSVRC 中取得了顯著的成功,使得深度學習在計算機視覺領域迅速崛起。也為如今我們看到的種類繁多的視覺大模型(VLMs)開啟了新的篇章。
COCO(Common Objects in Context):COCO 資料集由微軟於 2014 年釋出,涵蓋了數十萬張日常生活中的影像,並附有詳細的標註資訊。雖然 COCO 對比 ImageNet 具有更少的類別,但每一個類別擁有更多的例項,假定這能幫助複雜模型提高物體定位的準確率。它的設計初衷適用於具有上下文資訊的圖片中的物體檢測和分割,目前在目標檢測、分割等任務中發揮了重要作用,推動了計算機視覺技術的進步。
Wikipedia 和 Common Crawl:Wikipedia 是一個由全球使用者共同編輯和維護的高質量線上百科全書,以文字為主,知識高度結構化,Common Crawl 是一個非營利組織,定期抓取網際網路公開網頁,生成大量的網頁資料集,可提供大量的網際網路使用者知識及非結構化資料。他們的共同點是為模型訓練提供了充沛的文字素材。這些大型文字資料集為自然語言處理(NLP)模型的訓練提供了豐富的語料庫。像 GPT 這樣的語言模型正是透過大規模爬取和處理這些資料集,才能在文字生成和理解方面表現出色。
開源演算法的角色
開源演算法是 AI 研究和應用的核心驅動力。開源演算法的共享和複用使得研究者和開發者能夠在前人工作的基礎上迅速迭代和創新。以下是一些在這一輪 AI 大模型浪潮中扮演重要角色的的開源演算法及其在大模型訓練中的角色:
TensorFlow 和 PyTorch:這兩個深度學習框架是當前最流行的開源工具,提供了強大的計算能力和靈活的模型構建方式。它們為大模型的訓練和部署提供了基礎設施支援,使得複雜的 AI 模型得以實現。
Transformer 架構:Transformer 架構是一種用於處理序列資料的開源演算法,廣泛應用於 NLP 任務,也是作為這一輪 AI 浪潮推動者 GPT 模型的基礎演算法。基於 Transformer 的模型,如 BERT 和 GPT,已經成為自然語言理解和生成的事實標準。
GAN(生成對抗網路):GAN 是一種用於生成資料的開源演算法,廣泛應用於影像生成、資料增強等領域。它透過生成器和判別器的對抗訓練,能夠生成高質量的影像和其他資料。
除此以外,如果把 Pre-Train 之後的微調(Fine-Tuning)等環節也看做廣義 “訓練” 的一部分,還有一系列開源方法及配套的工具,例如比較常見的 LoRA(Low-Rank Adaptation of Large Language Models)。
機遇
從上述開源資料和演算法在模型訓練過程中所扮演的角色可以看到,大模型訓練中的開源資料和演算法為 AI 研究和應用帶來了諸多機遇,在加速創新、促進合作、資源共享等方便提供了廣泛而可靠的基礎條件和資源,圍繞這些資源,技術人員得以進行更加開放的交流和合作,並展開更加深入的教育和培訓,以此不斷提升整個行業人才的技術水平。
由於目前主流的模型訓練演算法都需要依靠對訓練資料(樣本)的統計(機率),因此,開放的資料和演算法能夠在更大程度上確保樣本的質量,從而避免更多未知的風險。例如就在 2024 年 12 月 1 日,使用者發現 ChatGPT 在需要輸出 “David Mayer” 這個名字的時候會突然提示拒絕:
此事件一度被解讀為 GPT 模型在訓練過程中被植入了特定的樣本或演算法,以避免討論特定的人名。雖然後續的一系列測試表明,這種限制似乎只存在於 ChatGPT 產品中,透過 OpenAI 對外提供的模型介面並不會觸發這樣的遮蔽機制。
OpenAI 在隨後週二(12 月 3 日)立即確認 “David Mayer” 這個名字已經被內部隱私工具標記,其在一份宣告中說:“可能有些情況下,ChatGPT 不提供關於人們的某些資訊,以保護他們的隱私。” 公司不會提供有關工具或流程的更多細節。
無論真實的原因是什麼,這個事件是一個反例,其顯示了封閉的系統以及中心化的模型提供者所具備的風險,也說明了不透明的處理環節對模型的輸出結果帶來更多的不確定性。類似的拒絕服務也是在模型服務過程中表現出來的另外一種偏見(Bias)行為,而偏見也是目前所有模型都在極力避免的情形,要進一步解決這個問題,使用更加開放的資料集和演算法是一種更負責任的做法。
種種事件的發生並不是壞事,這是所有技術在發展過程中接受實踐檢驗的必經之路,透過種種嘗試和反饋,目前對於開源資料集和演算法的呼聲正在越來越高漲。
除了對於訓練集和演算法的開源之外,對於模型的 “開源” 定義也經受著各種議論。筆者比較認同的觀點是:開源模型不應該只把模型檔案公佈出來,同時應該把對應的訓練集和演算法進行公開,並能夠提供相應的訓練流程,是所有人能夠對結果進行重現。這好比我們討論開源專案的時候,通常不會指我們只能夠下載某個應用程式,而是我們能夠檢視原始碼,甚至透過修改原始碼編譯出自己想要的應用程式。
在今年 10 月 29 日,開放原始碼促進會(Open Source Initiative,OSI)釋出了關於 “開源 AI 定義(OSAID)”1.0 版本,其規定了 AI 大模型若要被視為開源必須具備三個三個:訓練資料透明性、完整程式碼、模型引數。雖然對比目前市面上的 “開源模型”,少有能力較高的模型能完全符合,但這種宣告本身就是一種開源開放態度的彰顯。
我相信,在更加透明的資料集和演算法的支援下,模型將在可控性上獲得更好的發展機遇,相關的技術社群也將迎來更大的發展。
挑戰
當然,大模型訓練中的開源資料和演算法也伴隨著一定的風險和挑戰,這些風險需要在模型開發和應用的過程中被認真對待和解決。例如前文提到的 “偏見” 問題,以及資料質量問題,可能是最顯著的風險。由於開源資料集質量參差不齊,雖然一些廣泛使用的資料集如開頭介紹的 ImageNet 和 COCO 被認為是高質量的資料集,但其他開源資料集可能包含噪聲、錯誤標籤和不完整的資訊。這種資料質量問題會直接影響模型的訓練效果,導致模型效能的下降,甚至可能產生錯誤的預測結果。
除此以外,在 GPT 爆火之後,由於相關法律和政策的滯後,已經有大量大模型生成的文字、影像、影片、音訊內容被髮佈於網際網路,當這些內容再次被作為開放資料被採集,並再次進行訓練,可能會帶來更大的資料質量問題。因此,筆者認為對 AI 生成的觀點進行標註再發布是一種更加負責任的做法,當然,在實際操作過程中,要實現仍然有極大的難度。
開源資料集的版權問題也是一個需要重視的風險。儘管開源資料集通常是公開的,但其使用仍然受版權法的約束。未經授權使用受版權保護的資料,可能會導致法律糾紛。此外,某些資料集可能包含敏感資訊,涉及個人隱私甚至危害公共安全。
在使用這些資料時,必須遵守相關的隱私保護法規,如歐盟的《通用資料保護條例》(GDPR)和美國的《健康保險可攜性和責任法案》(HIPAA)。在實際操作過程中,出於成本、工藝、能力、時間的制約,資料集的篩選和正確使用仍然將會是一個持久的挑戰。對於這個問題,閉源的資料集以及方法並不是不存在,只是更加隱蔽了。
也可能會有人擔心,所有的資料集和演算法開放後,模型是否會面臨更多被操控的風險?筆者認為,這確實是一個很大的問題,例如模型可能會更容易被 “越獄”,從而被操控或輸出原本不應輸出的內容,這是一個需要尤其重點關注的風險點。
在應對策略方面,這場攻防戰的 “藍方” 同時也獲得了更多的資訊,可以再次加固相關能力,在這個過程中,模型得以進行更加充沛的發展,就如同當下的網際網路一樣。只有黑暗才能隱藏更多風險尤其中心化的控制風險,只有讓核心資料和演算法經受陽光的洗禮,並在所有人的監督下不斷完善,才能讓模型在更多場景中被更深入地使用(即便如此,訓練完的模型本身對人類來說也仍然是一個 “黑盒”)。目前我們已經看到的大量開源的模型在各行各業中展現出強大的生命力和生產力,相關的開源社群也正在迎來新的繁榮期,長期來看,大模型將繼續在各種風險、機遇、挑戰、倫理等複雜環境中不斷發展。
結論
開源資料和演算法在大模型訓練中的重要性不言而喻,它們為 AI 研究和應用帶來了前所未有的機遇。然而,這些機遇也伴隨著一定的風險和挑戰,需要在模型開發和應用的過程中被認真對待和解決。透過採取適當的應對策略,我們可以在充分利用開源資料和演算法的同時,儘量減少其潛在的風險,推動 AI 技術的健康發展。
相信在未來,隨著技術的不斷進步和相關政策的完善,開源資料和演算法將在大模型訓練中發揮更加重要的作用,為 AI 及大模型的研究和應用帶來更多的創新和機遇。

作者簡介
蘇震巍
蘇州盛派網路科技有限公司創始人兼首席架構師,微軟 AI 和開發方向最有價值專家(MVP)、微軟 Regional Director(RD)、騰訊雲最具價值專家(TVP)、微軟技術俱樂部(蘇州)主席,蘇州市人工智慧學會理事,機械工業出版社專家委員會委員,江蘇省司法廳電子資料鑑定人。《網站模組化開發全程實錄》《微信開發深度解析》圖書作者,Senparc.Weixin SDK 等開源專案作者,盛派開發者社群發起人。
閱讀完整報告https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf

🔗《2024 中國開源開發者報告》正式釋出
分享在看點贊~Orz

相關文章