“鵬城·腦海”大模型多語言版:打破中文與低資源語言藩籬,引領多語言智慧新時代

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
鵬城實驗室研發的“鵬城·腦海”大模型多語言版PengCheng.Mind-m1正式對外開源測試。該模型以實驗室“鵬城·雲腦II”超大規模國產智慧算力叢集為計算平臺,以“鵬城·腦海”中文通用大語言模型為核心,使用高質量多語言資料增強訓練而成,是一款以中文為中心、支援53種語言的多語言大模型。PengCheng.Mind-m1的多語言翻譯和理解能力已達到或超過業界主流產品,在面向“一帶一路”的低資源語言上表現優異。另外,大模型相容性較好,可同時支援英偉達GPU與華為昇騰NPU計算,實現融合異構算力資源的跨平臺持續迭代。

一、資料質量過關,滋養模型成長沃土

開發團隊透過半自動和全自動相結合的方式收集了網路新聞、百科知識、學科知識、社群問答、多語言文字、多語言平行句對等文字資料,並研製出一套完整的資料預處理工具鏈來實現針對多語言大模型訓練的資料去重、內容過濾、語言分類、資料取樣、資料質檢等多重資料評審鏈路,構建了超過200B用於增量訓練的高質量多語言資料。

二、訓練科學合理,保障模型穩定擴充套件

在當前開源的版本中,團隊使用引數規模為7B的“鵬城·腦海”通用大語言模型作為增強訓練的基座。為使模型具備更強大的多語言遷移能力和擴充套件能力,團隊深入探索了多階段課程式學習時的各種資料組合和最佳化策略。例如,在持續增強訓練過程中,多語言資料在每個階段的規模逐漸從10%提升至45%(圖1),這可以讓模型在獲得新語言能力的同時降低遺忘已有語言能力的機率,確保模型多語言能力的穩定擴充套件。   
圖1 多階段課程式學習策略示意

三、能力表現優異,助力語言智慧互譯

透過多語言增強訓練,鵬城·腦海多語言大模型PengCheng.Mind-m1覆蓋的語言提升至53種,m1的機器翻譯平均能力在國際權威的多語言機器翻譯資料集Flores上超過了支援多語言能力的業內主流大模型(表1)。
模型
模型規模
外->中
中->外
Qwen2.5
7B
26.96
7.63
Llama3.1
8B
28.45
11.08
Baichuan2
7B
21.22
6.12
GLM4
9B
32.21
11.55
Mind-m1
7B
32.57
13.85
表1 PengCheng.Mind-m1多語言基礎機器翻譯平均能力
與其他業界模型相比,模型在低資源語言的互譯方面表現尤為突出,特別是在中文到外文的翻譯上(表2)。   
語言
Qwen2.5
Llama3.1
Baichuan2
GLM4
Mind-m1
外->中/中->外(Bleu)
丹麥語
34.81/10.31
33.57/16.88
35.41/13.64
39.06/19.15
39.31/21.06
冰島語
16.79/1.72
24.56/5.85
11.98/1.33
27.66/5.67
28.84/6.73
瑞典語
34.92/11.56
33.60/17.24
35.35/13.34
38.43/18.34
38.26/20.66
芬蘭語
26.61/3.61
30.87/8.78
21.64/1.46
35.12/10.28
35.16/14.86
捷克語
33.92/7.92
32.90/13.62
34.38/9.98
36.96/14.47
37.01/16.49
斯洛伐克語
31.94/5.98
31.74/10.81
29.59/4.76
35.81/11.53
36.06/16.50
克羅埃西亞語
30.52/5.65
31.61/11.78
32.66/9.39
35.16/12.28
35.63/14.96
塞爾維亞語
32.59/3.70
31.92/12.51
33.84/9.88
37.01/10.61
36.69/15.67
平均
30.26/6.30
31.34/12.18
29.35/7.97
35.65/12.79
35.87/15.38
表2 PengCheng.Mind-m1中文與低資源語言的互譯能力
以塞爾維亞語為例(圖2),PengCheng.Mind-m1的能力隨著訓練穩步提升。
圖2 PengCheng.Mind-m1塞爾維亞語的能力演變

四、潛力可圈可點,推動多語行業落地

基於PengCheng.Mind-m1模型,開發團隊與中國外文局等合作者共同在時政新聞領域的出版翻譯任務上進行了最佳化,在英語、法語、俄語等幾個高資源語言上表現同樣優異(表3)。   
對外傳播方向
中文->英語
中文->法語
中文->俄語
百度翻譯
21.54
14.24
14.16
訊飛翻譯
25.71
20.09
15.01
ChatGLM4
22.46
16.66
10.76
Qwen2.5-chat
21.33
14.36
8.53
Mind-m1
29.07
29.15
21.98
表3 時政新聞領域中翻外效果
除了機器翻譯能力,多語言模型的一大特點是支援多種語言的語言理解、語言生成和能力擴充套件,團隊在MLQA資料集上對模型在跨語言問答能力上進行了測試,模型同樣表現出色(表4)。
MLQA
Qwen2.5-chat(F1%)
Mind-m1(F1%)
Context
Q:英語
Q:中文
Q:阿拉伯語
Q:英語
Q:中文
Q:阿拉伯語
英語
70.59
64.23
58.12
70.71
63.81
56.42
西班牙語
60.78
58.10
51.80
61.68
56.75
52.59
德語
54.18
50.95
46.27
56.75
52.23
50.70
阿拉伯語
44.64
40.68
44.65
49.36
45.4
46.05
印地語
47.50
43.53
38.32
48.66
44.91
41.21
越南語
56.29
54.16
48.59
57.33
53.11
49.03
中文
40.79
61.39
35.58
41.28
63.11
35.58
平均
53.53
53.29
46.19
55.11
54.18
47.36
表4 跨語言問答效果對比
在這裡,要特別緻謝參與資料最佳化,以及模型設計、研發和提升的粵港澳大灣區數字經濟研究院(IDEA)、中國外文局、哈爾濱工業大學、新疆大學、澳門大學等單位的團隊做出的重要貢獻。以下為大模型的開源地址,歡迎試用體驗並提出寶貴意見!   
程式碼:
https://openi.pcl.ac.cn/pclmt/mPengC.mind
https://github.com/PCLNLP-group/mPengC.mind/
GPU 模型:https://huggingface.co/PCLNLP/mPengC.mind_gpu/tree/main
NPU 模型:https://huggingface.co/PCLNLP/mPengC.mind_npu/tree/main
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章