一文讀懂!多語言大模型資料研發在大模型時代的實戰全解

作者 | 李海軍
背   景
從 2022.11.30 OpenAI 釋出 ChatGPT 3.0 後,大模型呈現大爆炸式發展,AI 的重要性一下子大提升,經歷了拉資源、AI 創業公司、大廠提升到戰略高度、百模大戰、大規模推理應用。而這一切都離不開資料,訓練資料成為模型效果的核心要素之一。在 AICon(全球人工智慧開發與應用大會) 也經常會有大模型資料相關專題技術分享。
阿里巴巴國際數字商業集團(Alibaba International Digital Commerce,簡稱 AIDC),是一家跨境電子商務集團,主要業務在跨境電子商務上,旗下業務包含 AliExpress、Lazada、阿里巴巴國際站 ICBU、Trendyol、Daraz、Miravia 等。在這樣的全球電商業務背景下,我們需要解決的是多語言場景下的內容本地化、全球使用者服務、全球市場營銷等全球業務問題。在這樣的業務背景和大模型技術背景下,AIDC 研發了多語言大模型,以提升效率和解決業務發展中遇到的問題。大語言模型其中一個典型的業務場景是翻譯,翻譯作為 NLP 的一個細分子領域,在近年來一直以 NMT 技術為主,基於大模型的翻譯蘊藏著巨大的機會
目前業界翻譯技術的水平在各個語系下表現如下圖,從圖可以清晰看到 Google Translate 表現強勁,其核心技術就是 NMT,GPT-4 在一些語系上表現優秀,但是在很多語系上表現仍然有不小的差距。阿里國際多語言翻譯大模型就是在這樣的技術背景和業務背景下開始的。
大模型資料清洗
大模型資料特性
資料的重要性一直被提起和強調,在很多言論中,把資料類比成石油,可見其重要性。這裡嘗試對資料做一個大概的定義,在大模型之前,業界提到資料更多的偏向於商品、客戶、消費、訂單交易、支付、物流等生產經營類資料,那個階段市面上經常講是精準營銷、風險控制、銷量預測與庫存最佳化等一些資料驅動的資料智慧案例。那麼這裡把這一個階段資料從業務上定義為生產經營類資料,從資料形態上看,更多業務結構化資料,從資料處理技術看更多是分散式資料計算、離線即時計算,用到的計算引擎偏類 Hadoop、Spark 類的計算引擎,業界大概稱之為資料倉庫、資料中臺。到大模型時代,這個資料的定義很顯然了發生了巨大的變化,看 ChatGPT3.0 公開的訓練資料清單,如下圖
Llama3 公開的訓練資料規模是超過 15T 的 Token ,DeepSeek3 公開的訓練資料規模是 14.8T 的 Token。
這裡有兩個重要變化,1)資料計量單位 Token   2)資料不是企業內部生產經營資料。這背後意味著,資料全生命週期的資料採集、資料範圍、資料結構、處理方法、資料使用等各個階段任務發生了巨大變化。
多語言大模型研發資料整體流程
多語言大模型研發,資料上核心要解決多語言資料問題,我們在整個研發流程中核心從四個方面來解決多語言資料,一是全球多語言網頁資料的獲取與處理,二是平行語料的獲取與加工,三是多語言資料的合成,四是業務積累資料的使用。
多語言資料通用處理框架
在模型訓練的 CT、SFT 、DPO 等各個階段,都涉及基礎的資料處理方法,因此對這些基礎處理方法進行抽象,設計出一個通用的資料計算處理框架,融入多語言計算邏輯,如語種識別、各語種語法、各語種標點符號等
基於通用框架的處理過程
對於不同的資料,我們使用這個通用的計算框架,再在處理之後做一定的處理就可以,如多語言資料的處理流程,在資料收集完成之後,使用通用計算框架,配置執行策略,對資料進行格式轉換、打標過濾、語種識別、文字轉換、資料去重,在通用框架計算之後,使用質量與反饋的一系列方法最終產出多語言的訓練語料。
平行語料的合成
平行語料使用了開源的資料語料清洗,如 OPUS、 CCAligned;也做了大量的專家翻譯,作為核心平行語料資料。在此基礎上,一方面,我們使用種子詞,讓 LLM 根據關鍵詞和主題等屬性生成訓練資料 ;另一方面我們也基於單語的多語言資料,合成平行語料,設計 Translate Template,以提高輸入的多樣性,使用了 In-Context Learning 和多語言翻譯技術來生成多語言資料,以增強多語言平行句子之間的語義對齊。從實踐經驗上看,平行資料對增強 LLM 的多語言能力非常重要,尤其是對翻譯任務。
基於關鍵詞的資料合成
基於 Translate Template 合成平行語料
多語言大模型資料應用示例
-Macro-MT 資料應用
電商翻譯 CT,基於標題 / 詳情 / 評論 / 對話 / 搜尋等大量電商語料進行 CT,構建多語言翻譯大模型底座,目前支援 20+ 語言。電商翻譯 SFT,透過加入電商高質量的平行語料進行 SFT,進一步提升 LLM 的翻譯效果,同時翻譯結果具備一定的電商風格。電商翻譯偏好對齊,透過 DPO,使用特定的偏好資料訓練,緩解 LLM 翻譯的幻覺問題,同時提升翻譯場景特有詞的翻譯效果。
我們在模型訓練上採用了一種兩階段 CT 學習方法,旨在促進將主要以英語和中文獲得的常識性知識轉移到各種低資源語言,以及機器翻譯等特定的 NLP 下游任務。在持續預訓練方面,資料混合和學習率是最佳化 Marco 的兩個關鍵超引數。在我們的實踐中,我們在兩階段訓練中使用了不同的超引數。具體來說,我們選擇混合資料來平衡第一階段的多語言能力和災難性遺忘的適應性,而第二階段的目標是透過降低最大學習率來進一步增強 Marco-LLM 的多語言能力。
大模型評估
模型評估是模型研發迭代非常重要一環,透過模型在多語言領域通用 Benchmark 評測,補充對應語種、語向資料,以提升模型表現;在模型業務評測上,以 Human Feedback 作為 Ground Truth 進行訓練裁判模型,以此獲得自動化模型業務表現的評估能力。只需要構建多語言模型的業務評測集,使用人工評測與模型評測相結合,在細分業務場景補充資料,以提升模型業務表現
一次通用 Benchmark 的評測上,我們的模型在 Flores、TyDiQA 兩個 Benchmark 上表現有較大提升空間,我們增加對應的訓練語料,以提升模型表現。
對於我們自身跨境電商業務,我們大量使用到 LLM 和 MLLM 能力,模型在跨境電商業務領域的 Benchmark 上的表現更加重要。模型在阿里國際的 AliExpress、Lazada、ICBU 等業務的商品翻譯、營銷、對話、搜尋等業務表現,我們透過自研裁判模型,結合 RAG、Prompt Engineering 手段,進行模型業務領域的上線前評測、多版本效果比對、上線後日常巡檢、BadCase 識別及歸因分析。基於 Qwen 訓練的裁判模型,在 Pearson、Kendall、MAE 等各個維度都能很好的進行自動化評測,並且還在不斷最佳化迭代中。
在一次模型迭代過程,我們往往會經歷多個步驟,下圖是一個日常模型迭代的 case
在每一次模型迭代釋出,我們會對歷史業務資料對模型效果進行回放,只有效果由於上一個版本,模型才能被允許釋出。
未來挑戰
自 ChatGPT 3.0 釋出兩年多的時間以來,大語言模型和多模態模型的基礎能力越來越強,越來越多的企業轉向大模型為核心的 AI 系統構建,去服務和拓展業務。
AI 應用系統的構建,對大模型資料提出了更高的挑戰。在 Foundation Model 研發階段,大模型資料核心是在數量、質量、多樣性上滿足模型訓練的要求。而 AI 應用研發上,大模型資料在於專業領域上更高質量的資料,這裡有兩個最基本的挑戰
一是從海量資料中清洗出某一業務領域資料。從海量資料清洗出指定業務資料,從算力演算法上都是提出了更高的要求,需要有更多的算力,更精準的演算法做識別,比如要從百億圖片中挑選出國畫風格的圖片,需要對全部圖片進行一次掃描,對這一風格確定演算法有較好的表現,又如從 PB 級千萬億 Token 文字資料中清洗出幽默、冷笑話並剔除黃色暴力內容的語料,其計算量巨大,其文字內容理解能力求更高。
二是業務領域資料的整合清洗與質量提升。每一個企業內部都有各種資料沉澱,包括需求文件、設計文件、產品使用手冊、程式碼庫、上線記錄、客戶服務、生成交易、機器資源、人員管理、客戶管理等各種各樣的資料,處理這些資料不僅僅是格式清洗任務、內容上的聚合任務,更大的難點在於資料的業務含義的連結,如需求文件與產品功能的連結,產品功能與上線記錄的連結,產品功能與使用者行為的連結等。在大模型為核心的 AI 時代,這些未被資料倉庫覆蓋的資料無疑是寶貴資產。
從 Foundation Model 到 AI 應用,從大規模訓練到業務領域的 Post Training,從廣泛資料到業務領域資料,對資料提出了更高的要求和挑戰,讓我們一起探索、實踐大模型應用資料,迎接 AI 應用的遍地開花吧。
 會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
你也「在看」嗎?👇

相關文章