大模型要喂什麼資料,如何煉就高準備度?

人工智慧發展的突破得益於高質量資料的發展。例如,大型語言模型的最新進展依賴於更高質量、更豐富的訓練資料集:與 GPT-2 相比,GPT-3 對模型架構只進行了微小的修改,但花費精力收集更大的高質量資料集進行訓練。ChatGPT GPT-3 的模型架構類似,並使用 RLHF(來自人工反饋過程的強化學習)來生成用於微調的高質量標記資料。
知識全解系列
(持續更新中…)
基於此,人工智慧領域的權威學者吳承恩發起了“以資料為中心的 AI”運動,即在模型相對固定的前提下,透過提升資料的質量和數量來提升整個模型的訓練效果。
提升資料集質量的方法主要有:新增資料標記、清洗和轉換資料、資料縮減、增加資料多樣性、持續監測和維護資料等。因此,未來資料成本在大模型開發中的成本佔比或將提升,主要包括資料採集,清洗,標註等成本。
AI 大模型需要高質量、大規模、多樣性的資料集。
1)高質量:高質量資料集能夠提高模型精度與可解釋性,並且減少收斂到最優解的時間,即減少訓練時長。
2)大規模:OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型所遵循的伸縮法則scaling law),即獨立增加訓練資料量、模型引數規模或者延長模型訓練時間,預訓練模型的效果會越來越好。
3)豐富性:資料豐富性能夠提高模型泛化能力,過於單一的資料會非常容易讓模型過於擬合訓練資料。
資料集如何產生出來?
建立資料集的流程主要分為 1)資料採集;2)資料清洗:由於採集到的資料可能存在缺失值、噪聲資料、重複資料等質量問題;3)資料標註:最重要的一個環節;4)模型訓練:模型訓練人員會利用標註好的資料訓練出需要的演算法模型;5)模型測試:稽核員進行模型測試並將測試結果反饋給模型訓練人員,而模型訓練人員透過不斷地調整引數,以便獲得效能更好的演算法模型;6)產品評估:產品評估人員使用並進行上線前的最後評估。
流程#1:資料採集。採集的物件包括影片、圖片、音訊和文字等多種型別和多種格式的數據。資料採集目前常用的有三種方式,分別為:1)系統日誌採集方法;2)網路資料採集方法;3ETL
流程#2:資料清洗是提高資料質量的有效方法。由於採集到的資料可能存在缺失值、噪聲資料、重複資料等質量問題,故需要執行資料清洗任務,資料清洗作為資料預處理中至關重要的環節,清洗後資料的質量很大程度上決定了 AI 演算法的有效性。
流程#3:資料標註是流程中最重要的一個環節。管理員會根據不同的標註需求,將待標註的資料劃分為不同的標註任務。每一個標註任務都有不同的規範和標註點要求,一個標註任務將會分配給多個標註員完成。
流程#4:最終透過產品評估環節的資料才算是真正過關。產品評估人員需要反覆驗證模型的標註效果,並對模型是否滿足上線目標進行評估。
資料產業鏈包括生產、處理等環節。資料生產可以分為通用資料和行業資料:1)海外主要資料集的通用資料來自維基、書籍期刊、高質量論壇,國內相關公司包括文字領域的百度百科、中文線上、中國科傳、知乎等,及視覺領域的視覺中國等。
2)資料是垂直行業企業的護城河之一,相關公司包括城市治理和 ToB 行業應用領域的中國電信、中國移動、中國聯通,CV 領域的海康、大華等。資料處理環節,模型研發企業的外包需求強烈,利好卡位優質客戶、技術賦能降低人力成本的資料服務企業,如 AppenTelus InternationalScale AI

全店打包(目前44本資料)本次更新暫未漲價(需要的讀者趕緊上車),由於打包資料持續增加且考慮已買讀者權益,價格也即將會隨之上漲,因此,買的早就是優勢。
本文分享完畢,更多技術內容可購買“架構師技術全店資料打包彙總(全)”44本技術打包(含後續更新),或單獨購買,獲取《SSD快閃記憶體技術基礎知識全解(PPT終極版》、《SSD快閃記憶體技術基礎知識全解(PDF終極版》。


免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(44本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
全店內容持續更新,現下單“架構師技術全店資料打包彙總(全)”一起傳送“伺服器基礎知識全解(終極版)和“儲存系統基礎知識全解(終極版)pdf及ppt版本,後續可享全店內容更新“免費”贈閱,價格僅收259元(原總價499元)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取架構師技術全店資料打包彙總(全)電子書資料詳情



相關文章