香港大學MMLab知名學者重磅來襲!

MLNLP 社群是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景 是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流,特別是初學者同學們的進步。
MLNLP 2025學術研討會 是由 MLNLP社群中國中文資訊學會青年工作委員會  中國中文資訊學會大模型與生成專業專委會 聯合舉辦的學術活動。社群會定期舉辦學術研討會並邀請國內外機器學習與自然語言處理領域知名青年學者進行報告交流,旨在加強國內外學者之間的交流。
MLNLP社群將在06月29於線上舉辦第三十二次學術研討會,由哈爾濱工業大學的博士生陳麒光和香港大學的博士生胡夢康共同擔任本期程式委員會主本期研討會分為上下兩半場:上半場由陳麒光主持;下半場由胡夢康主持。具體而言,社群很榮幸邀請到香港大學副教授羅平老師擔任大會主席,並做開場致辭;香港大學博士生胡夢康,上海交通大學博士孟繁青,香港大學博士生吳成嶽,香港大學博士生陳錳釗,香港大學博士生王勁做專題報告。
1
會議概況
  • 召開時間:
    • 2025年06月29日 9:00-12:20(北京時間)
  • 主辦單位:
    • MLNLP社群
    • 中國中文資訊學會青年工作委員會
    • 中國中文資訊學會大模型與生成專業專委會
  • 大會主席:
    • 羅平:香港大學副教授
  • 程式委員會主席:
    • 陳麒光:哈爾濱工業大學博士生
    • 胡夢康:香港大學博士生
  • 組委會:
    • MLNLP社群秘書處(劉洪宇、段然、陳麒光、鹿純林、李勤政、周璟軒)
  • 直播平臺:
    • 嗶哩嗶哩:http://live.bilibili.com/23872620
    • 微信影片號:請點選下方卡片預
2
日程安排
3
嘉賓介紹
一、大會主席:

羅平
香港大學副教授
嘉賓簡介:羅平,香港大學計算機系副教授,計算與資料科學院助理院長、港大-上海人工智慧實驗室聯合研究所執行主任,港大資料科學研究院副院長。2014 年獲香港中文大學資訊工程系博士,師從湯曉鷗教授。發表TPAMI、ICML、ICLR、NeurIPS、CVPR 等國際會議及期刊論文200餘篇,谷歌學術引用75000+。曾獲2024 PAMI Everingham Price計算機視覺長期貢獻獎(史上唯一中國團隊),2015 AAAI Easily Accessible Paper (0.5%)、2022 Computational Visual Media Journal年度最佳論文提名(IF:18),2022 ACL 傑出論文,兩次2023世界人工智慧大會優秀青年論文, ICCV 2023最佳論文候選(0.2%),香港大學傑出青年研究者獎(過去十年計算機系唯一),獲 2020《麻省理工科技評論》亞太區 35 歲以下創新者(MIT TR35)。曾指導20+位博士生,其中多人獲海優、北美top30 CS教職和國際獎項如 Nvidia Fellowship、Baidu Fellowship、WAIC雲帆獎、CCF-騰訊Fellowship等。
二、主持人:

陳麒光
哈爾濱工業大學博士生
嘉賓簡介:陳麒光,哈爾濱工業大學社會計算與互動機器人研究中心(SCIR)一年級博士生,研究興趣為大模型長思維鏈推理機理及應用,在Patterns, NeurIPS, ACL, AAAI, ICML等國際人工智慧頂級期刊及會議發表學術論文。個人主頁:https://lightchen233.github.io/
胡夢康
香港大學博士生
嘉賓簡介:香港大學計算機系二年級博士生,導師為羅平老師。研究方向為基於大語言模型的智慧體、具身智慧,在人工智慧國際頂級會議及期刊發表論文十餘篇。個人主頁: https://aaron617.github.io/
三、分享嘉賓:
胡夢康
香港大學博士生
嘉賓簡介:香港大學計算機系二年級博士生,導師為羅平老師。研究方向為基於大語言模型的智慧體、具身智慧,在人工智慧國際頂級會議及期刊發表論文十餘篇。個人主頁: https://aaron617.github.io/
報告題目:OWL: optimized workforce learning for general multi-agent assistance in real-world task automation
報告簡介:基於大語言模型的多智慧體系統在自動化現實世界任務方面展現出潛力,但由於其領域特定性,難以實現跨領域遷移。現有方法存在兩個關鍵缺陷:應用於新領域時需要完全重新設計架構並對所有元件進行完整訓練。我們提出Workforce——一種分層多智慧體框架,透過模組化架構將戰略規劃與專業執行解耦,該架構包含:(i)用於任務分解的領域無關規劃器(Planner);(ii)用於子任務管理的協調器(Coordinator);(iii)具備領域特定工具呼叫能力的專業化執行器(Workers)。這種解耦設計實現了推理階段和訓練階段的雙重跨領域可遷移性:在推理階段,Workforce透過增減或修改執行器即可無縫適配新領域;在訓練階段,我們提出最佳化工作流學習(OWL),透過基於現實反饋的強化學習來最佳化領域無關規劃器,從而提升跨領域泛化能力。為驗證該方法,我們在GAIA基準測試上評估Workforce,該測試涵蓋多種現實場景下的跨領域智慧體任務。實驗結果表明Workforce以69.70%的準確率取得開源領域最先進效能,較OpenAI深度研究等商業系統高出2.34%。更值得注意的是,經過OWL訓練的320億引數模型達到52.73%準確率(提升16.37%),在複雜任務上表現出與GPT-4o相當的效能。綜上所述,透過實現可擴充套件的泛化能力和模組化領域遷移,我們的工作為下一代通用人工智慧助手奠定了基礎。
孟繁青上海交通大學博士生
嘉賓簡介:上海交通大學計算機系二年級博士生,研究方向為多模態大模型的評測,獎勵模型,後訓練等,在人工智慧國際頂級會議及期刊發表論文十餘篇,被引用670餘次。個人主頁:https://github.com/FanqingM
報告題目:多模態推理的探索:從獎勵模型到後訓練演算法
報告簡介:伴隨著DeepSeek-R1,O1的出現,學術界以及工業界對於推理投入了越來越多的資源,我們希望在開源社群針對多模態推理進行全方位的探索以及復現。我們逐步推出MM-PRM,MM-Eureka,CPGD。分別從reward model,端到端模型,以及穩定的rl演算法探索多模態推理的aha-moment。最新版的MM-Eureka可以僅使用15k資料進行10+ episode的穩定訓練,在多模態K12測試集上效果可以超過Claude3.7 Sonnet等一系列閉源模型,程式碼資料模型均開源。
吳成嶽
香港大學博士生
嘉賓簡介:吳成嶽,香港大學MMLab博士生,導師為羅平老師和王文平老師,研究方向為多模態大模型,發表高水平學術論文十餘篇,一作發表包括ICML,ACL,CVPR等業內頂級會議,2項發明專利申請中,開源專案GitHub獲stars 18k+,谷歌學術引用723次,獲得國家獎學金,香港政府獎學金,香港大學校長獎學金以及黑龍江省優秀畢業生,哈爾濱工業大學優秀畢業論文等榮譽,擔任TPAMI,CVPR等多個頂刊頂會審稿人。個人主頁:https://hills-code.github.io/
報告題目:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding
報告簡介:Fast-dLLM是NVIDIA聯合香港大學、MIT等機構推出的擴散大語言模型推理加速方案,其透過分塊KV快取與置信度感知並行解碼技術,在無需重新訓練模型的前提下,實現了推理速度的突破性提升——在LLaDA模型1024 token長文字生成任務中,端到端推理速度狂飆27.6倍,整體耗時從266秒壓縮至12秒,且主流基準測試準確率損失控制在2%以內。該方案兼具零訓練成本與多模型相容性,為擴散模型在長文字生成、即時互動等場景的落地提供了高效可行的最佳化路徑。
陳錳釗
香港大學博士生
嘉賓簡介:陳錳釗,香港大學MMLab一年級博士生,導師為羅平老師,研究方向為大模型訓練和推理的壓縮加速,一作發表ICCV、ACL、ICLR等業內頂級學術會議和期刊文章6篇,谷歌學術引用600餘次,獲得國家獎學金,入選中國電子學會-騰訊大模型激勵計劃。個人主頁:https://chenmnz.github.io/
報告題目:Scaling Law for Quantization-Aware Training
報告簡介:大語言模型(LLMs)需大量計算與記憶體資源,部署具挑戰性。量化感知訓練(QAT)透過在預訓練階段引入量化操作以應對挑戰,但其在4-bit(W4A4)的縮放行為尚不明確。本文提出統一的QAT縮放法則,建模量化誤差與模型規模、訓練資料量及量化組大小的關係。透過268次QAT實驗,顯示量化誤差隨模型規模增大而減小,但隨訓練資料量增加及量化粒度變粗而上升。進一步的,我們將W4A4量化誤差分解為權重與啟用部分,二者趨勢相似但敏感性不同,權重量化誤差隨訓練資料量增加更快。分析表明,FC2層啟用量化誤差因離群值是W4A4 QAT誤差主要瓶頸。同時,我們發現採用混合精度量化後,權重與啟用量化誤差趨於相近。隨訓練資料增加,權重量化誤差最終超啟用誤差,表明後續演算法開發需重視權重量化誤差的降低。此研究為後續QAT演算法的研究與開發提供關鍵洞見。
王勁
香港大學博士生
嘉賓簡介:王勁,香港大學計算機系二年級博士生,導師為羅平老師。研究興趣包括多模態大模型訓練與評測、偽造檢測等,有多項工作發表於ICML、CVPR、ICCV、ECCV等國際學術會議。個人主頁:https://jinjinw.com/
報告題目:FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities
報告簡介:近年來,大型語言模型(LLMs)在多模態任務中取得了顯著進展,在人工通用智慧(AGI)的兩大核心支柱(即理解與生成)方面展現出強大潛力。然而,目前大多數多模態大模型仍採用自迴歸(Autoregressive, AR)架構,透過從左到右逐步處理多模態 token 來完成任務,推理缺乏靈活性。與此同時,基於掩碼(mask)的離散擴散模型憑藉雙向建模能力也逐漸興起,該架構透過雙向資訊建模顯著提升了模型的建模能力。例如,Gemini Diffusion 驗證了離散擴散在文字建模領域的潛力;在開源社群,LLaDA、Dream 等擴散式大語言模型(dLLM)也催生了MMaDA、LaViDA、Dimple 和 LLaDA-V 等多模態模型。然而,生成模型的實現方式並不侷限於上述兩類架構,探索新的生成建模範式對於推動多模態模型的發展同樣具有重要意義。基於這一理念,我們提出了FUDOKI,一個基於全新非掩碼(mask-free)離散流匹配(Discrete Flow Matching)架構的通用多模態模型。與傳統的自迴歸方法不同,FUDOKI 透過並行去噪機制實現了高效的雙向資訊整合,顯著提升了模型的複雜推理和生成能力。與離散擴散架構相比,FUDOKI 採用更加通用的機率路徑建模框架,從均勻分佈出發,允許模型在推理過程中不斷更新和修正生成結果,為多模態模型打開了一條嶄新的技術路徑。

4
直播平臺

影片號
B站
5
會議報名
會議報名可以直接掃描下方二維碼進入交流群。會議的觀看地址等資訊都會在群裡通知。已經加入MLNLP交流群的同學請不用重複新增!

掃描二維碼進入MLNLP交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章