
MLNLP 2025學術研討會 是由 MLNLP社群、中國中文資訊學會青年工作委員會 和 中國中文資訊學會大模型與生成專業專委會 聯合舉辦的學術活動。社群會定期舉辦學術研討會並邀請國內外機器學習與自然語言處理領域知名青年學者進行報告交流,旨在加強國內外學者之間的交流。
MLNLP社群將在05月25日於線上舉辦第三十一次學術研討會,由上海交通大學的博士生王增志和周凡共同擔任本期程式委員會主席。本期研討會分為上下兩半場:上半場由王增志主持;下半場由周凡主持。具體而言,社群很榮幸邀請到上海交通大學副教授劉鵬飛老師擔任大會主席,並做開場致辭;上海交通大學博士生夏世傑,北京郵電大學碩士生傅大源,上海交通大學博士生李學峰,上海交通大學博士生王增志做專題報告。
會議概況
-
召開時間:
-
2025年05月25日 9:00-11:50(北京時間)
-
主辦單位:
-
MLNLP社群
-
中國中文資訊學會青年工作委員會
-
中國中文資訊學會大模型與生成專業專委會
-
大會主席:
-
劉鵬飛:上海交通大學副教授
-
程式委員會主席:
-
王增志:上海交通大學博士生
-
周凡:上海交通大學博士生
-
組委會:
-
MLNLP社群秘書處(劉洪宇、段然、陳麒光、鹿純林、李勤政、周璟軒)
-
直播平臺:
-
嗶哩嗶哩:http://live.bilibili.com/23872620
-
微信影片號:請點選下方卡片預約
日程安排

嘉賓介紹
一、大會主席:

劉鵬飛
上海交通大學副教授
嘉賓簡介:劉鵬飛,上海交通大學副教授,創智學院導師,清源研究院院長助理,生成式人工智慧研究組 GAIR 負責人。專注於自然語言的預訓、生成和評估等研究方向,發表學術論文 100 餘篇, 被谷歌學術引用 19000 餘次。ACL 會議史上首次實現連續兩年獲得 System & Demo Paper Award,提示工程概念最早提出者之一,單篇引用超過 5000 餘次。個人主頁:http://pfliu.com/
二、主持人:

王增志
上海交通大學博士
嘉賓簡介:上海交通大學生成式人工智慧實驗室(GAIR Lab)一年級博士生,目前的研究興趣是基座語言模型的資料工程與(繼續)預訓練,曾以第一作者、共同第一作者身份在IEEE TKDE,NeurIPS,COLM,ACL,SIGIR等國際人工智慧與自然語言處理頂級期刊和會議上發表學術論文。個人主頁:https://sinclaircoder.github.io/

周凡
上海交通大學博士
嘉賓簡介:上海交通大學生成式人工智慧實驗室(GAIR Lab)一年級博士生。他在人工智慧頂級會議如 ICML, ICLR, NeurIPS 等發表過多篇論文。他特別關注構建可擴充套件的工具和方法,例如資料驅動的基礎模型開發、程式碼推理及智慧體。個人主頁: https://koalazf99.github.io/
三、分享嘉賓:

夏世傑
上海交通大學博士生
嘉賓簡介:夏世傑,上海交通大學生成式人工智慧實驗室(GAIR Lab)一年級博士生,目前的研究興趣是大模型複雜和高效推理,在NeurIPS, AAAI, EMNLP等國際人工智慧頂級會議發表學術論文。個人主頁:https://shijie-xia.github.io/
報告題目:生成式AI第二幕: 認知工程
報告簡介:生成式AI發展正經歷深刻的正規化變革。本次分享將深入探討人工智慧領域的新正規化——‘認知工程’,即透過測試時計算擴充套件系統性提升AI思維能力。第一代大型語言模型依賴大規模預訓練實現知識獲取,而生成式AI現已進入‘第二幕’,研究前沿聚焦推理過程中的計算資源分配最佳化,以實現更深層推理。報告將詳細分析測試時計算擴充套件的主要方法(如並行取樣、樹搜尋、多輪修正和長鏈推理等),涵蓋其理論基礎、實現方法及應用優勢;探討支援這些能力的訓練策略,包括強化學習與監督微調;並分析相關基礎設施需求及該領域的未來研究方向。

傅大源北京郵電大學碩士生
嘉賓簡介:傅大源,北京郵電大學人工智慧學院碩士生,導師為徐蔚然副教授,目前在上海交通大學生成式人工智慧實驗室(GAIR Lab)訪問。研究方向主要集中在Agent記憶最佳化、Agent資料構造和基於強化學習的Agent訓練,並在EMNLP、ICLR等頂級會議上發表多篇相關研究論文。目前,他的研究興趣主要集中在探索透過強化學習最佳化語言模型的進行深度研究能力,尤其是在真實網路環境中的應用。個人主頁:https://fu-dayuan.github.io/
報告題目:利用真實環境下的強化學習提升模型深度研究的能力
報告簡介:Deepresearch展示出利用網路搜尋促進大語言模型進行深度研究的巨大潛力,但現有開源提示工程或RAG方法存在缺陷,無法捕捉真實世界互動的複雜性,這促使我們需要透過真實網路搜尋環境結合強化學習訓練端到端Agent,以適配開放網路的複雜動態。本次報告將從三個維度深入探討這一問題:首先,本次報告將介紹Deepresearch的背景和相關工作。其次,我們會介紹使用真實環境的優勢與困難並分析這些困難的解決方法。最後,我們會介紹在真實環境中進行強化學習模型的效果與特性。

李學峰
上海交通大學博士生
嘉賓簡介:李學峰,上海交通大學生成式人工智慧實驗室(GAIR Lab)一年級博士生。研究興趣是大模型推理。
報告題目:透過強化學習提高LLM工具整合推理能力
報告簡介:大語言模型已經能夠表現出驚人的推理能力。但推理模型基於的思維鏈(Chain-of-Thought, CoT)處理複雜計算和精確推理任務不能完全準確,透過工具整合推理(Tool Integrated Reasoning)可以有效解決減少LLM在複雜計算上的錯誤率。先前的方法多基於監督式微調(SFT),限制了模型對最優策略的探索。本文直接從基礎模型起步,允許模型自由探索工具呼叫策略;透過即時反饋強化學習,模型生成程式碼並即時呼叫程式碼執行工具,根據執行反饋動態調整推理路徑,實現準確率遠超傳統RL模型及此前最佳的工具增強推理模型。

王增志
上海交通大學博士生
嘉賓簡介:上海交通大學生成式人工智慧實驗室(GAIR Lab)一年級博士生,目前的研究興趣是基座語言模型的資料工程與(繼續)預訓練,曾以第一作者、共同第一作者身份在IEEE TKDE,NeurIPS,ICML,COLM,ACL,SIGIR等國際人工智慧與自然語言處理頂級期刊和會議上發表學術論文。個人主頁:https://sinclaircoder.github.io/
報告題目:OctoThinker: 透過mid-training激勵模型可擴充套件推理
報告簡介:透過大規模強化學習激勵語言模型透過更長的思維鏈在一系列極具挑戰性的推理任務上取得了顯著進展。目前100B引數量以下的模型最先進的效能通常是基於Qwen基座模型產生的,且不同的基座模型(比如Llama)在進行強化學習時呈現出迥異的行為模式和訓練動態特徵。這一現象引發了我們對基座模型核心能力差異的深入思考:究竟哪些關鍵因素在預訓練段塑造了模型的基礎能力,從而決定了其在後續強化學習中的推理擴充套件潛力?我們透過mid-training來對基座模型進行干預,透過一系列精心設計的對照實驗來探究(1)高質量推理密集的預訓練語料(2)含思維鏈的問答資料(3)通用指令跟隨資料(4)訓練計算量等因素對下游強化學習的影響。基於上述實驗帶來的洞察,我們對Llama系列模型進行兩階段大規模Mid-training干預方案,在第二階段根據資料特點產生不同的分支;實驗顯示我們的大規模Mid-training顯著提升了Llama基座模型的能力,更使其在強化學習可擴充套件地提升其推理能力,希望本工作能給推理時代關於語言模型基座如何研發帶來啟發。
4
直播平臺
直播平臺
影片號
B站

會議報名可以直接掃描下方二維碼進入交流群。會議的觀看地址等資訊都會在群裡通知。已經加入MLNLP交流群的同學請不用重複新增!

掃描二維碼進入MLNLP交流群
關於我們
