MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

鵬城實驗室研發的“鵬城·腦海”大模型多語言版PengCheng.Mind-m1正式對外開源測試。該模型以實驗室“鵬城·雲腦II”超大規模國產智慧算力叢集為計算平臺，以“鵬城·腦海”中文通用大語言模型為核心，使用高質量多語言資料增強訓練而成，是一款以中文為中心、支援53種語言的多語言大模型。PengCheng.Mind-m1的多語言翻譯和理解能力已達到或超過業界主流產品，在面向“一帶一路”的低資源語言上表現優異。另外，大模型相容性較好，可同時支援英偉達GPU與華為昇騰NPU計算，實現融合異構算力資源的跨平臺持續迭代。

一、資料質量過關，滋養模型成長沃土

開發團隊透過半自動和全自動相結合的方式收集了網路新聞、百科知識、學科知識、社群問答、多語言文字、多語言平行句對等文字資料，並研製出一套完整的資料預處理工具鏈來實現針對多語言大模型訓練的資料去重、內容過濾、語言分類、資料取樣、資料質檢等多重資料評審鏈路，構建了超過200B用於增量訓練的高質量多語言資料。

二、訓練科學合理，保障模型穩定擴充套件

在當前開源的版本中，團隊使用引數規模為7B的“鵬城·腦海”通用大語言模型作為增強訓練的基座。為使模型具備更強大的多語言遷移能力和擴充套件能力，團隊深入探索了多階段課程式學習時的各種資料組合和最佳化策略。例如，在持續增強訓練過程中，多語言資料在每個階段的規模逐漸從10%提升至45%（圖1），這可以讓模型在獲得新語言能力的同時降低遺忘已有語言能力的機率，確保模型多語言能力的穩定擴充套件。

圖1 多階段課程式學習策略示意

三、能力表現優異，助力語言智慧互譯

透過多語言增強訓練，鵬城·腦海多語言大模型PengCheng.Mind-m1覆蓋的語言提升至53種，m1的機器翻譯平均能力在國際權威的多語言機器翻譯資料集Flores上超過了支援多語言能力的業內主流大模型（表1）。

模型	模型規模	外->中	中->外
Qwen2.5	7B	26.96	7.63
Llama3.1	8B	28.45	11.08
Baichuan2	7B	21.22	6.12
GLM4	9B	32.21	11.55
Mind-m1	7B	32.57	13.85

表1 PengCheng.Mind-m1多語言基礎機器翻譯平均能力

與其他業界模型相比，模型在低資源語言的互譯方面表現尤為突出，特別是在中文到外文的翻譯上（表2）。

語言	Qwen2.5	Llama3.1	Baichuan2	GLM4	Mind-m1
語言	外->中/中->外（Bleu）
丹麥語	34.81/10.31	33.57/16.88	35.41/13.64	39.06/19.15	39.31/21.06
冰島語	16.79/1.72	24.56/5.85	11.98/1.33	27.66/5.67	28.84/6.73
瑞典語	34.92/11.56	33.60/17.24	35.35/13.34	38.43/18.34	38.26/20.66
芬蘭語	26.61/3.61	30.87/8.78	21.64/1.46	35.12/10.28	35.16/14.86
捷克語	33.92/7.92	32.90/13.62	34.38/9.98	36.96/14.47	37.01/16.49
斯洛伐克語	31.94/5.98	31.74/10.81	29.59/4.76	35.81/11.53	36.06/16.50
克羅埃西亞語	30.52/5.65	31.61/11.78	32.66/9.39	35.16/12.28	35.63/14.96
塞爾維亞語	32.59/3.70	31.92/12.51	33.84/9.88	37.01/10.61	36.69/15.67
平均	30.26/6.30	31.34/12.18	29.35/7.97	35.65/12.79	35.87/15.38

表2 PengCheng.Mind-m1中文與低資源語言的互譯能力

以塞爾維亞語為例（圖2），PengCheng.Mind-m1的能力隨著訓練穩步提升。

圖2 PengCheng.Mind-m1塞爾維亞語的能力演變

四、潛力可圈可點，推動多語行業落地

基於PengCheng.Mind-m1模型，開發團隊與中國外文局等合作者共同在時政新聞領域的出版翻譯任務上進行了最佳化，在英語、法語、俄語等幾個高資源語言上表現同樣優異（表3）。

對外傳播方向	中文->英語	中文->法語	中文->俄語
百度翻譯	21.54	14.24	14.16
訊飛翻譯	25.71	20.09	15.01
ChatGLM4	22.46	16.66	10.76
Qwen2.5-chat	21.33	14.36	8.53
Mind-m1	29.07	29.15	21.98

表3 時政新聞領域中翻外效果

除了機器翻譯能力，多語言模型的一大特點是支援多種語言的語言理解、語言生成和能力擴充套件，團隊在MLQA資料集上對模型在跨語言問答能力上進行了測試，模型同樣表現出色（表4）。

MLQA	Qwen2.5-chat（F1%）			Mind-m1（F1%）
Context	Q:英語	Q:中文	Q:阿拉伯語	Q:英語	Q:中文	Q:阿拉伯語
英語	70.59	64.23	58.12	70.71	63.81	56.42
西班牙語	60.78	58.10	51.80	61.68	56.75	52.59
德語	54.18	50.95	46.27	56.75	52.23	50.70
阿拉伯語	44.64	40.68	44.65	49.36	45.4	46.05
印地語	47.50	43.53	38.32	48.66	44.91	41.21
越南語	56.29	54.16	48.59	57.33	53.11	49.03
中文	40.79	61.39	35.58	41.28	63.11	35.58
平均	53.53	53.29	46.19	55.11	54.18	47.36