人大高瓴人工智慧學院師生論文被國際學術會議ACL2025錄用

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 人大高瓴人工智慧學院
近日,第63屆國際計算語言學年會(Annual Meeting of the Association for Computational Linguistics,簡稱 ACL)公佈ACL 2025的論文錄用訊息。中國人民大學高瓴人工智慧學院共 47篇論文被 ACL 2025 錄用,其中31篇論文被 ACL 主會錄用,16篇被 “Findings of ACL” 錄用。
ACL年會是計算語言學和自然語言處理領域國際排名第一的頂級學術會議,由國際計算語言學協會組織,每年召開一次,在中國計算機學會(CCF)推薦會議列表中被列為 A 類會議。第63屆ACL年會,將於2025年7月27日至8月1日於奧地利維也納舉行。
Main Conference
論文介紹
論文題目:Towards Effective and Efficient Continual Pre-training of Large Language Models
作者:陳杰,陳志朋,王家鵬,周昆,朱餘韜,蔣錦昊,閔映乾,趙鑫,竇志成,毛佳昕,林衍凱,宋睿華,徐君,陳旭,嚴睿,魏哲巍,胡迪,黃文炳,文繼榮
通訊作者:趙鑫
論文概述:本研究透過繼續預訓練顯著增強了Llama-3的中文語言能力和科學推理能力。為了在增強新能力的同時保持原有能力,我們設計了特定的資料混合和資料課程策略,並利用現有資料合成高質量資料集。我們將預訓練後的模型命名為Llama-3-SynE。此外,我們還進行了相對較小模型——TinyLlama的調優實驗,並將得出的結論用於對Llama-3的繼續預訓練。我們在十五項評估基準上多維度測試了Llama-3-SynE的效能,結果表明我們的方法在不損害原有能力的情況下,大大提高了Llama-3的效能。包括通用能力(C-Eval 提升了 8.81,CMMLU 提升了 6.31)和科學推理能力(MATH 提升了 12.00,SciEval 提升了 4.13)。
論文介紹
論文題目:GUICourse: From General Vision Language Model to Versatile GUI Agent
作者:陳文通*,崔竣博*,胡錦毅*,秦禹嘉,方俊傑,趙越,王崇屹,劉俊,陳桂榮,霍宇鵬,姚遠,林衍凱,劉知遠,孫茂松
通訊作者:姚遠,林衍凱
論文概述:利用圖形使用者介面(GUI)進行人機互動是使用各類數字工具的關鍵途徑。近期視覺語言模型(VLM)的突破性進展表明,這類模型具備開發多功能智慧體的巨大潛力,可協助人類操作GUI介面。然而當前VLM在基礎能力(如文字識別與視覺定位)方面仍存在不足,同時缺乏對GUI元素功能及控制方法的認知,這些侷限阻礙了其成為實用的GUI操作智慧體。為解決這些問題,我們推出GUICourse系列資料集,用於基於通用VLM訓練視覺GUI智慧體:首先透過GUIEnv資料集增強VLM的文字識別與視覺定位能力;繼而利用GUIAct和GUIChat資料集擴充套件其對GUI的專業知識。實驗表明,即便是小型GUI智慧體(3.1B)也能在單步和多步GUI任務中表現優異。我們進一步將智慧體微調應用於不同動作空間的其他GUI任務(AITW和Mind2Web),結果顯示其效能均優於基線VLM模型。此外,透過消融實驗我們驗證了文字識別與視覺定位能力與GUI導航效能呈正相關。
論文介紹
論文題目:DNASpeech: A Contextualized and Situated Text-to-Speech Dataset with Dialogues, Narratives and Actions
作者:程傳奇,孫宏達,杜博,商爍,胡新榮,嚴睿
通訊作者:嚴睿
論文概述:本文提出情境化文字轉語音(CS-TTS)這一創新任務,透過結合對話(Dialogues)、敘述(Narratives)與動作描寫(Actions)實現更精準、可定製的語音生成。雖然基於提示的TTS方法已能實現可控語音合成,但現有資料集普遍缺乏與語音資料匹配的情境描述性提示。針對這一資料短缺問題,我們開發了自動化標註流程,實現語音片段、文字內容及其情境描述的多維度對齊。基於該流程,我們構建了DNASpeech資料集——首個包含DNA提示標註的高質量CS-TTS資料集,涵蓋2,395個獨特角色、4,452個場景和22,975條對話語句,以及超過18小時的高質量語音資料。為適應更細分的任務場景,我們建立了包含兩項新型子任務的評估體系:基於敘述的CS-TTS和基於對話的CS-TTS。同時設計了一種直觀的基線模型,用於與現有前沿TTS方法在評估體系中進行對比。全面實驗結果表明,DNASpeech在質量與效用方面表現卓越。
論文介紹
論文題目:A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression
作者:鄧琛龍,張智松,毛科龍,李帥誼,黃昕庭,俞棟,竇志成
通訊作者:張智松,竇志成
論文概述:在這項工作中,我們對基於gist token的上下文壓縮方法進行了實證研究,以改進大型語言模型中的上下文處理。我們重點關注兩個關鍵問題:(1)這些方法在多大程度上能夠替代全注意力模型?(2)由於壓縮會產生哪些潛在的失敗模式?透過大量實驗,我們表明,儘管基於要點的壓縮在檢索增強生成和長文件問答等任務上僅造成輕微的效能損失,但在合成召回等任務上卻面臨挑戰。此外,我們還確定了三種關鍵的失敗模式:邊界丟失、意外丟失和途中丟失。為了緩解這些問題,我們提出了兩種有效的策略:細粒度自動編碼,它增強了原始標記資訊的重建;以及分段標記重要性估計,它根據標記依賴關係調整最佳化。我們的工作為理解基於gist token的上下文壓縮提供了有價值的見解,並提供了提高壓縮能力的實用策略。 
論文介紹
論文題目:Progressive Multimodal Reasoning via Active Retrieval
作者:董冠霆,張宬浩,鄧夢潔,朱餘韜,竇志成,文繼榮
通訊作者:竇志成
論文概述:多步驟級的多模態推理任務對多模態大模型來說一直是重大的挑戰,如何在該場景下找到針對性提升效能的有效方法仍是一個未解決的問題。在本文中,我們提出了 AR-MCTS,這是一種旨在透過主動檢索和蒙特卡洛樹搜尋相結合,來逐步增強多模態大模型推理能力的通用框架。AR-MCTS遵循蒙特卡洛樹搜尋演算法,並在該演算法的擴充套件階段啟發式地整合主動檢索機制,以自動化,動態地獲取高質量的步驟級推理標註資料。基於這些高質量資料,我們進一步引入了課程訓練目標以逐步對齊一個過程獎勵模型,最終實現可信的多模態步驟級推理校驗。在三個公開的複雜多模態推理基準上的實驗結果證實了AR-MCTS 的有效性。進一步分析表明該框架能夠同時最佳化取樣空間的多樣性與準確性,從進而產生可靠的多模態推理結果。
論文介紹
論文題目:RAG-Critic: Leveraging Automated Critic-Guided Agentic Workflow for Retrieval Augmented Generation
作者:董冠霆,金佳傑,李曉熙,朱餘韜,竇志成,文繼榮
通訊作者:竇志成
論文概述:檢索增強生成(RAG)因其在生成事實性內容方面的有效性,已成為自然語言處理領域的關鍵技術。然而,其資訊輸入的複雜性以及正規化的多樣性往往導致更多樣化錯誤的產生。因此,實現 RAG 的線上效能評估與錯誤驅動的自校正流程仍是待解難題。在本文中,我們提出了 RAG-Critic,透過自動評估引導的工作流來自主提升RAG 能力的框架。具體而言,我們首先引入了一個底層資料驅動,頂層人為總結的RAG錯誤挖掘流程,以建立全面的錯誤分類系統。基於該系統,我們設計由粗到細的訓練目標來逐步對齊一個RAG錯誤評估模型,該模型可自動提供細粒度的錯誤反饋。最後,我們提出了一個錯誤驅動的RAG自我糾正工作流,該工作流根據錯誤評價模型的反饋,自主定製出錯誤糾正方案流程的程式碼,透過執行程式碼來自動化完成RAG的錯誤自糾正。在七個 RAG 相關資料集上的實驗結果證實了 RAG-Critic 的有效性,進一步的定性分析則為實現可靠的RAG 系統提供了實際見解。
論文介紹
論文題目:LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation 
作者:董梓燦,李軍毅,蔣錦昊,徐名宇,趙鑫,王炳寧,陳煒鵬
通訊作者:趙鑫
論文概述:大語言模型透過擴充套件位置編碼和輕量級繼續預訓練獲得了更長的上下文視窗。然而,這往往導致模型在短文字任務上的效能下降,而當前對這種效能下降的原因探究尚不充分。在本研究中,我們確定了導致該問題的兩個主要因素:隱藏狀態和注意力分數的分佈偏移,以及持續預訓練過程中的災難性遺忘。為解決這些挑戰,我們提出了基於恢復蒸餾的長上下文預訓練方法(LongReD),一種透過最小化長文字模型與原始模型之間的分佈差異來緩解短文字效能下降的方法。除了在長文字上進行訓練外,LongReD 還從原始模型中提取選定層對短文字上的隱藏狀態進行蒸餾。此外,LongReD 還引入了短到長蒸餾機制,透過利用跳躍位置索引,使模型在短文字上的輸出分佈與長文字上的輸出分佈保持一致。在常見文字基準上的實驗表明,LongReD 在保持模型處理長文字能力的同時,有效保留了其在短文字任務上的效能。
論文介紹
論文題目:YuLan-Mini: Pushing the Limits of Open Data-efficient Language Model
作者:胡譯文、宋華彤、陳杰、鄧佳、王家鵬、周昆、朱餘韜、蔣錦昊、董梓燦、陸洋、繆旭、趙鑫、文繼榮
通訊作者:趙鑫
論文概述:由於大型語言模型(LLMs)的預訓練需要極高的資源投入和複雜的技術手段,實現具備先進效能的預訓練仍面臨諸多挑戰。本文針對預訓練過程中存在的關鍵瓶頸與設計難點進行了探索,並做出以下貢獻:1. 全面分析導致訓練不穩定的因素;2. 提出一種穩健的最佳化方法,有效緩解訓練不穩定問題;3. 構建了一套精細的資料處理流程,融合了資料合成、資料課程與資料篩選機制。透過整合上述技術,我們設計出一套成本較低的訓練方案,並基於此方案預訓練了 YuLan-Mini —— 一個完全開源的基礎模型,擁有 24 億引數,訓練資料量達 1.08 萬億詞元。值得注意的是,YuLan-Mini 在同參數規模模型中表現優異,效能可媲美使用更多資料訓練的業界領先模型。為便於復現,我們公開了完整的訓練方案與資料組成。專案詳情請訪問以下連結:https://github.com/RUC-GSAI/YuLan-Mini
論文介紹
論文題目:KG-Agent: An Efficient Autonomous Agent Framework for Complex Reasoning over Knowledge Graph
作者:蔣錦昊, 周昆, 趙鑫 ,宋洋,朱琛,祝恆書,文繼榮
通訊作者:趙鑫,宋洋
論文概述:在本文中,我們旨在提升大語言模型(LLMs)基於知識圖譜(KGs)的推理能力,以回答複雜問題。受現有設計大語言模型與知識圖譜互動策略的方法啟發,我們提出了一個基於大語言模型的自主智慧體框架,稱為KG-Agent,它使小型大語言模型能夠主動做出決策,直至完成基於知識圖譜的推理過程。在KG-Agent中,我們整合了大語言模型、多功能工具箱、基於知識圖譜的執行器以及知識記憶,並開發了一種迭代機制,該機制可自主選擇工具,然後更新用於基於知識圖譜推理的記憶。為確保有效性,我們利用程式語言來構建基於知識圖譜的多跳推理過程,併合成一個基於程式碼的指令資料集來微調基礎大語言模型。大量實驗表明,僅使用10K個樣本對LLaMA-7B進行微調,無論是在域內還是域外資料集上,都能超越使用更大規模大語言模型或更多資料的當前最優方法。我們的程式碼和資料將公開發布。
論文介紹
論文題目:Hierarchical Document Refinement for Long-context Retrieval-augmented Generation
作者:金佳傑,李曉熙,董冠霆,張宇堯,朱餘韜,伍永康,李中華,葉琪,竇志成
通訊作者:朱餘韜,竇志成
論文概述:實際場景的RAG應用通常會遇到長上下文輸入的場景,在這類場景中,檢索文件中的冗餘資訊和噪聲會導致推理成本增加和效能下降。為了解決這些挑戰,我們提出了LongRefiner,一種即插即用的長文字精煉器,其透過提取長文字的內在結構高效捕捉有益資訊。LongRefiner基於單一基座模型進行了多工學習,包括雙層查詢分析、層次化文件結構化建模等多個任務,能夠對長文件進行自適應精煉。透過在七個知識密集型問答資料集上的實驗,我們證明了LongRefiner在各種場景下能夠實現具有競爭力的效能,同時計算成本和延遲比最優基線低10倍。進一步的分析驗證了LongRefiner的可擴充套件性、效率和有效性。
論文介紹
論文題目:Optimal Transport-Based Token Weighting scheme for Enhanced Preference Optimization
作者:李萌,胡張廣達,張海波,王希廷,曾安祥
通訊作者:王希廷,曾安祥
論文概述:直接偏好最佳化(Direct Preference Optimization, DPO)作為一種新興演算法,透過直接最佳化優選與次優選回答之間的對數似然差異,使大語言模型(LLMs)更好地對齊人類偏好。然而,現有方法對回答中的所有標記(token)賦予相同的重要性,忽略了人類在判斷偏好時更關注語義上更關鍵的部分。這種不匹配導致了次優的偏好最佳化效果,因為那些無關或噪聲較大的標記對 DPO 損失函式產生了過大的影響。為了解決這一問題,本文提出了基於最優傳輸理論的標記加權策略,以增強直接偏好最佳化的效果(Optimal Transport-based token weighting for Preference Optimization, OTPO)。透過強調語義上更相關的標記對,並降低相關性較低的標記的權重,本文引入了一種具備上下文感知能力的標記加權機制,從而獲得更加對比鮮明的獎勵差異估計。這種自適應加權機制不僅提升了獎勵估計和可解釋性,還能使偏好最佳化聚焦於回答之間更重要的差異。大量實驗證實,OTPO在多個場景下均顯著提升了模型的指令遵循能力。
論文介紹
論文題目:RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation
作者:李曉熙,金佳傑,周雨佳,伍永康,李中華,葉琪,竇志成
通訊作者:竇志成
論文概述:大型語言模型(llm)表現出非凡的生成能力,但往往會產生幻覺。檢索增強生成(RAG)透過合併外部知識提供了一種有效的解決方案,但是現有方法仍然面臨一些限制:單獨檢索器的額外部署成本、來自檢索文字塊的冗餘輸入令牌,以及缺乏檢索和生成的聯合最佳化。為了解決這些問題,我們提出了RetroLLM,這是一個統一的框架,將檢索和生成整合到一個單一的內聚過程中,使llm能夠直接從具有約束解碼的語料庫中生成細粒度的證據。此外,為了減少約束證據生成過程中的錯誤修剪,我們引入了(1)分層的FM-Index約束,該約束生成語料庫約束線索,在證據生成之前識別相關文件子集,減少不相關的解碼空間;(2)前瞻性約束解碼策略,該策略考慮了未來序列的相關性,以提高證據準確性。在五個開放域QA資料集上進行的大量實驗表明,RetroLLM在域內和域外任務上都具有卓越的效能。
論文介紹
論文題目:Do not Abstain! Identify and Solve the Uncertainty
作者:劉敬宇*,彭景權*,鄔小鵬,李旭斌,葛鐵錚,鄭波,劉勇
通訊作者:鄭波,劉勇
論文概述:大模型在面對不確定情境時常常表現出過度自信的問題。然而,目前的解決方案主要依賴於迴避性回應。為了系統地研究和提升大語言模型識別與處理不確定性來源的能力,我們聚焦於三種類型的不確定性:文件稀缺、能力侷限和問題歧義。透過實驗發現,當前的大語言模型難以準確識別不確定性的原因並加以解決。為了解決這一問題,我們首先生成基於上下文的追問,以突出原始問題中的模糊之處;接著根據追問答案是否唯一來判斷不確定性的來源;進一步地,我們採用一種on policy的學習方法——InteractDPO來生成更有效的追問。實驗結果表明,我們的方法具有良好的效果。
論文介紹
論文題目:LLMs + Persona-Plug = Personalized LLMs
作者:劉炯楠,朱餘韜,王淑婷,魏驍馳,閔爾學,盧彧,王帥強,殷大偉,竇志成
通訊作者:朱餘韜, 竇志成
論文概述:個性化在眾多語言任務和應用中起著關鍵作用。為此,研究者提出了多種個性化方法,旨在使大語言模型(LLMs)能夠生成符合使用者偏好的定製化內容。其中一些方法透過為每個使用者微調一個專屬的個性化模型來實現,但這種方式成本高昂,難以大規模推廣。為了解決這一問題,另一些方法採用了“即插即用”的策略,透過檢索使用者相關歷史文字作為示例,引導模型生成個性化內容。然而,基於檢索的策略可能破壞使用者歷史的連續性,難以充分捕捉使用者的整體風格和行為模式,從而導致生成效果不佳。針對上述挑戰,本文提出了一種新的個性化大語言模型方法PPlug。該方法設計了一個輕量級的使用者嵌入模組,建模使用者完整的歷史上下文,為每位使用者生成專屬的嵌入表示。透過將該嵌入附加到任務輸入中,LLMs無需調整自身引數即可更好地理解和捕捉使用者的習慣與偏好,從而生成更具個性化的輸出。在語言模型個性化基準(LaMP)中的多個任務上,實驗結果表明該方法在效能上顯著優於現有的個性化大語言模型方法。
論文介紹
論文題目:Sliding Windows Are Not the End: Exploring Full Ranking with Long-Context Large Language Models
作者:劉文涵,馬新宇,朱餘韜,趙梓良,王帥強,殷大偉,竇志成
通訊作者:竇志成
論文概述:大語言模型(LLMs)在listwise文件排序任務中展現出優越的效果。 由於輸入長度限制,現有方法通常採用滑動視窗策略。該策略雖有效,但效率低下——其重複且序列的處理機制會導致相關文件被多次重複評估,進而產生冗餘的API開銷。 隨著長上下文LLMs的發展,現已能透過單次推理完成所有段落的完整排序(full ranking),從而避免冗餘成本。本文針對排序任務的效率與效果,對長上下文LLMs進行了全面研究。實驗發現:在監督微調場景下,長上下文LLMs的完整排序不僅能顯著提升效率,更能實現更優效果。 進一步地,我們指出基於現有方法訓練full reranker存在兩大侷限: (1) 滑動視窗策略無法生成full ranking list作為訓練標籤; (2) 語言建模損失函式難以強調標籤中排名靠前的文件ID。 為此,我們提出一個完備的listwise標籤構建方法以及一個新穎的重要性感知的最佳化損失函式。實驗表明,該方法效能顯著超越基線模型。 相關程式碼和模型均已開源。
論文介紹
論文題目:Towards Reward Fairness in RLHF: From a Resource Allocation Perspective
作者:歐陽晟,胡羽藍,陳戈,李卿陽,張富崢,劉勇
通訊作者:劉勇
論文概述:在基於人類反饋的強化學習(RLHF)中,獎勵機制作為人類偏好的代理發揮著關鍵作用。但是,如果這些獎勵本身存在偏差,可能會影響大語言模型(LLMs)的對齊效果。本文將獎勵中存在的各種偏差統稱為"獎勵不公平性問題",並提出了一種不依賴於特定偏見的通用解決方案。具體來說,本文將偏好學習建模為資源分配問題,將獎勵視為需要分配的資源,並在分配中考慮效用和公平之間的權衡。論文提出了兩種方法以實現獎勵的公平性。這些方法在驗證和強化學習場景中應用,分別獲得了公平的獎勵模型和策略模型。實驗結果表明該方法能夠以更公平的方式實現大語言模型與人類偏好的對齊。
論文介紹
論文題目:MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion
作者:裴啟智,吳酈軍,盤卓實,李宇,林泓霖,明成林,高鑫,何聰輝,嚴睿
通訊作者:吳酈軍,何聰輝,嚴睿
論文概述:大型語言模型 (LLM) 在數學推理方面取得了令人矚目的進展。雖然資料增強有望提升數學問題解決能力,但目前的方法主要侷限於例項級別的修改,例如問題的重新表述或生成問題變體,而這些修改無法捕捉和利用數學知識中固有的內在關係結構。受人類學習過程的啟發,數學能力是透過系統地接觸相互關聯的概念而發展起來的。我們提出了 MathFusion,這是一個透過跨問題指令合成來增強數學推理能力的全新框架。MathFusion 透過三種融合策略來實現這一點:(1) 順序融合,將相關問題與模型解決方案的依賴關係聯絡起來;(2) 並行融合,將類似問題結合起來以強化概念理解;(3) 條件融合,建立上下文感知的選擇性問題以增強推理靈活性。透過應用這些策略,我們生成了一個新的資料集MathFusionQA,並在其上構建了微調模型(DeepSeekMath-7B、Mistral-7B 和 Llama3-8B)。實驗結果表明,MathFusion 在保持高資料效率的同時,在數學推理方面取得了顯著提升,在多個基準測試中準確率提升了 18.0 個百分點,而僅需額外新增 45,000 條合成指令,相比傳統的單指令方法實現了顯著提升。
論文介紹
論文題目:The Tug of War Within: Mitigating the Fairness-Privacy Conflicts in Large Language Models
作者:錢辰*,劉東瑞*,張傑,劉勇,邵婧
通訊作者:劉勇,邵婧
論文概述:確保大型語言模型(LLMs)具備公平性與隱私意識至關重要。有趣的是,我們發現了一個反直覺的權衡現象:透過監督微調(SFT)方法增強LLM的隱私意識時,即便使用數千個樣本,其公平性意識也會顯著下降。受資訊理論啟發,我們提出了一種免訓練的解決方案——抑制隱私與公平耦合神經元(SPIN),該方法從理論與實證層面降低了公平意識與隱私意識之間的互資訊。大量實驗表明,SPIN能有效消除這種權衡現象,在不損害模型通用能力的前提下,同步顯著提升LLM的公平性與隱私意識(例如將Qwen-2-7B-Instruct的公平性意識提升12.2%,隱私意識提升14.0%)。更重要的是,在標註資料有限或僅能獲取惡意微調資料的極端場景下,SPIN仍能保持穩健的有效性,而傳統SFT方法在這些情況下可能完全失效。本研究為同步解決LLM的公平性與隱私問題提供了新思路,未來可融入綜合框架以開發更符合倫理的負責任AI系統。
論文介紹
論文題目:Internal Value Alignment in Large Language Models through Controlled Value Vector Activation
作者:靳浩然,李萌,王希廷,許志豪,黃民烈,賈巖濤,連德富
通訊作者王希廷,連德富
論文概述:大型語言模型 (LLMs) 與人類價值觀的對齊正受到越來越多的關注,因為它能提供清晰度、透明度及適應未知場景的能力。本文提出一種名為 ConVA 的內部價值觀對齊方法,透過定位LLMs隱層啟用值空間中價值觀的編碼方向並修改其啟用狀態以實現模型的價值觀對齊。我們設計了一種上下文受控的價值向量識別方法以實現精準無偏的內部價值觀定位。為在不損害模型通用效能的前提下實現穩定的價值觀對齊,我們引入門控式價值向量啟用機制,透過求解帶約束的最佳化問題來達成最小強度的有效價值干預。實驗表明,ConVA在10項基礎價值觀上均取得最高控制成功率,並且不影響LLMs的原始效能與流暢度,即使在面對相反價值觀提示輸入時仍能確保模型遵循目標價值觀。
論文介紹
論文題目:Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering 
作者:湯昕宇,王曉磊,呂智昊,閔映乾,趙鑫,胡斌斌,劉子奇,張志強
通訊作者:趙鑫
論文概述:在這個工作中,我們探索如何解鎖大語言模型中潛在的通用長鏈思考推理能力。現有研究表明,透過少量樣本的微調,大語言模型可以展現出長鏈思考(long CoT)推理的能力,並且這種能力可以遷移到其他任務上。這引起了新的猜測:長鏈思考推理是否是大語言模型內在的一種通用能力,而不僅僅是在特定任務上透過訓練獲得的。本文首先從大模型中提取表徵並發現:(1)大語言模型確實將long CoT推理編碼為一種通用能力:透過視覺化和定量分析,我們發現long CoT的表徵集中在模型引數空間中的特定區域,並且與vanilla CoT的表徵有明顯區分。(2)Long CoT推理的可遷移性:不同領域(如數學、物理、化學、生物)的long CoT和vanilla CoT之間存在相似的對比表徵。基於上述發現,我們提出了GLoRE,一種基於表徵工程的新方法,用於解鎖大語言模型通用的long CoT推理能力。實驗證明了該方法在領域內(數學領域)和跨領域(物理、化學和生物領域)兩種場景下的有效性、高效性與可擴充套件性。
論文介紹
論文題目:Investigating and Extending Homans’ Social Exchange Theory with Large Language Model based Agents
作者:王磊,張哲卿,陳旭
通訊作者:陳旭
論文概述:霍曼斯的社會交換論被廣泛認為是理解人類文明和社會結構形成與出現的基本框架。在社會科學中,這一理論通常基於簡單的模擬實驗或真實世界的人類研究進行研究,但這兩種方法要麼缺乏現實性,要麼成本過高難以控制。在人工智慧領域,大型語言模型(LLMs)的最新進展在模擬人類行為方面展現出了令人期待的能力。受這些見解啟發,我們採用跨學科研究視角,提出使用基於LLM的智慧體來研究霍曼斯的社會交換理論。具體而言,我們構建了一個由三個LLM智慧體組成的虛擬社會,並讓它們參與社會交換實驗以觀察其行為。透過大量實驗,我們發現霍曼斯的社會交換論在我們的智慧體社會中得到了很好的驗證,證明了智慧體與人類行為之間的一致性。在這一基礎上,我們透過改變智慧體社會的設定,在傳統霍曼斯社會交換論的基礎上進行了擴充套件。
論文介紹
論文題目:Bone Soups: A Seek-and-Soup Model Merging Approach for Controllable Multi-Objective Generation(Main Conference)
作者:謝國富,張驍,姚婷,施雲生
通訊作者:張驍
論文概述:在大語言模型(LLM)的使用中使用者需求常是高度多樣化且可變的,這使得如何在測試時依據使用者需求快速實現“可控生成”備受關注。本文關注LLM的多目標可控生成問題,理論上分析了現有基於單目標的模型融合方法的缺陷,即:現有LLM融合忽略了多個目標間的複雜關聯,導致無法到達帕累托最優性。為解決這一問題,本文提出了面向多目標可控生成的LLM模型融合方法Bone Soups。Bone Soups包含兩個步驟:1.“骨幹模型構建(Backbone Seeking)”透過多目標強化學習訓練一系列考慮了多目標相互作用的“骨幹模型”,以確保其在帕累託前沿上的最優性。2.“模型融合(Soup)”利用對稱迴圈矩陣生成合並係數,根據使用者在測試時的偏好動態融合骨幹模型。實驗結果表明,Bone Soups在可控多目標生成任務中展示出較強的可控性和帕累托最優性,為滿足測試時使用者的多樣化需求提供了有效且高效的途徑。
論文介紹
論文題目:AgentRM: Enhancing Agent Generalization with Reward Modeling
作者:夏宇,範靜如,陳緯澤,顏思宇,從鑫,張眾,盧雅西,林衍凱,劉知遠,孫茂松
通訊作者:林衍凱、劉知遠
論文概述:現有基於大語言模型的智慧體雖然在預設任務上表現出色,但在處理未見任務時的泛化能力仍有不足。為此,近期研究透過引入更多樣化的任務對策略模型進行微調以提升其泛化性。本研究發現,相比於直接微調策略模型,透過微調獎勵模型來引導策略模型更具魯棒性。基於這一發現,我們提出了AgentRM——一種可泛化的獎勵模型,用於指導策略模型在測試階段進行高效搜尋。本工作系統探索了三種構建獎勵模型的方法:顯式獎勵建模、隱式獎勵建模以及基於大語言模型的自動評估。AgentRM透過Best-of-N取樣和層級Beam Search機制最佳化答案生成。在九個智慧體任務上的實驗表明,AgentRM將基準策略模型的平均效能提升了8.8個百分點,超越現有最佳通用型智慧體4.0個百分點。此外,使用專用策略模型時,AgentRM在預設任務上的效能比當前最專業的智慧體模型再提升11.4個百分點。
論文介紹
論文題目:Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains 
作者:張鈞天,程傳奇,劉雨涵,劉偉,欒劍,嚴睿
通訊作者:劉雨涵,嚴睿
論文概述:視覺-語言模型(VLM)在單影像任務中取得了顯著成功。然而,現實世界場景通常涉及複雜的多影像輸入,導致模型效能明顯下降,因為模型難以從複雜的視覺特徵中解析分散的關鍵資訊。在本研究中,我們提出了聚焦式視覺鏈(Focus-Centric Visual Chain),這是一種新穎的正規化,能夠增強VLM在多影像場景中的感知、理解和推理能力。為了實現這一正規化,我們提出了聚焦式資料合成(Focus-Centric Data Synthesis),這是一種可擴充套件的自下而上方法,用於合成具有精細推理路徑的高質量資料。透過這種方法,我們構建了VISC-150K,這是一個大規模資料集,包含以聚焦式視覺鍊形式呈現的推理資料,專為多影像任務設計。在七個多影像基準測試上的實驗結果表明,我們的方法在兩種不同的模型架構上分別實現了平均3.16%和2.24%的效能提升,同時不影響通用視覺-語言能力。我們的研究使VLM向更加強大和高效的視覺語言系統邁出重要一步,提升了其處理複雜視覺場景的能力。
論文介紹
論文題目:More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives
作者:張曉慶,呂昂,劉雨涵,Flood Sung,劉偉,欒劍,商爍,陳秀穎,嚴睿
通訊作者:陳秀穎,嚴睿
論文概述:針對多示例上下文學習(In-Context Learning, ICL)中效能隨示例數量增加而下降這一大語言模型(LLMs)核心難題,現有方法在最佳化目標和資料利用方面仍存在顯著瓶頸。傳統以負對數似然(NLL)為主的目標函式往往無法有效區分不同示例的貢獻,而隨著示例數量增加,訓練資料中的噪聲也會被放大,進一步限制了模型的多示例學習能力。為此,我們提出了一種創新最佳化正規化——DrICL(Differentiated and Reweighted In-Context Learning),以“差分最佳化 + 加權學習”雙機制系統性解決上述問題。DrICL的核心包括:(1)全域性差分最佳化:透過重構NLL目標函式,使得多示例場景下的效能顯著優於零示例學習;(2)區域性加權機制:受強化學習啟發,引入累計優勢(cumulative advantage)策略,對示例進行動態加權,抑制噪聲資料的負面影響。為驗證DrICL的廣泛適應性,我們構建了多工多示例評估基準——ICL-50,覆蓋50項任務與最多350-shot的上下文配置,支援長達8,000 token序列的訓練與評估。實驗結果表明,DrICL在多個任務上均顯著優於基線模型,特別是在in-domain與out-of-domain場景下表現出穩定的多示例泛化能力。我們公開了全部程式碼與資料集,以期推動多示例ICL方向的進一步研究與發展。
論文介紹
論文題目:Length-Induced Embedding Collapse in PLM-based Models
作者:周雨琦,戴孫浩,曹展碩,張驍,徐君
通訊作者:徐君
論文概述:文章研究了預訓練語言模型(PLM)在處理長文字時表現退化的問題,並發現了一個新的現象:“長度坍縮(Length Collapse)”。該現象指的是隨著文字長度的增加,模型生成的文字表示逐漸趨於相似,導致在分類、檢索和語義匹配等任務中效能下降。文章透過頻域分析發現,自注意力機制在處理長文字時會加強低通濾波效應,使得表示中過多保留低頻資訊,壓縮了表示的多樣性。為了解決這一問題,文章提出了一個無需重新訓練的輕量級方法——溫度縮放(TempScale),透過統一不同長度文字的注意力溫度,緩解了表示坍縮現象。實驗證明,該方法在MTEB和LongEmbed等基準任務中顯著提升了長文字的處理效果。
論文介紹
論文題目:Uncovering the Impact of Chain-of-Thought Reasoning for Direct Preference Optimization: Lessons from Text-to-SQL
作者:劉涵冰*,李好洋*,張曉康,陳若彤,徐海勇,田天,祁琦,張靜
論文概述:直接偏好最佳化(DPO)在數學應用題和程式碼生成等複雜推理任務中已被證實有效,但當應用於Text-to-SQL資料集時,其效能往往無法提升甚至會出現下降。我們的研究發現其根本原因在於:與數學和程式碼任務不同(這類任務天然適合將思維鏈推理與DPO結合),Text-to-SQL資料集通常僅包含最終答案(標準SQL查詢),而缺乏詳細的思維鏈解答步驟。透過為Text-to-SQL資料集註入合成的思維鏈解答步驟,我們首次實現了使用DPO在該任務上帶來持續且顯著的效能提升。我們還發現,思維鏈推理對於釋放DPO潛力具有關鍵作用:它能有效緩解獎勵破解(Reward hacking)現象、增強獎勵模型判別能力並提升生成模型擴充套件性。這些發現為構建更穩健的Text-to-SQL模型提供了有效的啟示。

論文介紹

論文題目:Learning to Generate Structured Output with Schema Reinforcement Learning
作者:盧雅西*,李昊倫*,從鑫,張眾,林衍凱,劉知遠,劉方明,孫茂松
論文概述:本研究調查了大型語言模型(LLMs)在生成結構化內容方面的能力,特別是生成有效JSON輸出的能力。儘管JSON在語言模型與傳統程式語言的整合中被廣泛使用,但對這些能力的全面分析和基準測試仍然不足。我們探討並分析了模型生成JSON的各個方面,包括嚴格遵守JSON模式以及基於模式的推理能力。隨後,我們引入了一個包含複雜模式的基準,用於評估模型在三個關鍵類別中生成有效JSON的能力:使用標準模式生成有效JSON、翻譯特殊標記,以及理解模式的限制。此外,我們結合了一種細粒度模式驗證器的強化學習方法,以增強模型對JSON模式的理解,從而提高其效能。我們的模型在生成JSON輸出方面取得了顯著進步,並在諸如BFCL和IoA等下游任務中表現出色。
論文介紹
論文題目:Enhancing Large Language Model’s Capabilities in Open Domains via Autonomous Tool Integration from GitHub
作者:呂博涵*, 從鑫*, 俞鶴揚, 楊攀, 錢成, 王子和, 秦禹嘉, 葉奕寧, 盧雅西, 錢忱, 張眾, 閆宇坤, 林衍凱, 劉知遠, 孫茂松
論文概述:大語言模型在處理需要複雜領域計算的問題時仍顯不足。儘管透過接入外部工具構建基於LLM的智慧體可以增強其能力,但現有方法在應對開放領域中多樣且不斷變化的使用者查詢方面缺乏靈活性。為此,我們結合GitHub上的程式碼倉庫基礎上構建了OpenAct資料集。該資料集包含來自7個不同領域的339個問題,這些問題都需要使用特定領域的方法才能解決。實驗表明,即使是當前最先進的LLM和基於LLM的智慧體在OpenAct上的成功率也十分有限,凸顯了對新方法的迫切需求。基於這一任務的特點,我們提出了OpenAgent,其能夠透過自主整合來自GitHub的專業工具來應對開放領域中不斷演化的查詢。其採用:1)層次化框架,讓專門智慧體負責具體任務,並可向下分配子任務;2)雙層經驗學習機制,既能從人類經驗中學習,也能從自身經驗中迭代最佳化以克服工具缺陷。實驗結果表明,OpenAgent在效果與效率上均顯著優於現有方法。
論文介紹
論文題目:MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment
作者:秦維聰*,徐熠*,俞蔚捷,沈承磊,何明,範建平,張驍,徐君
論文概述:個性化商品搜尋旨在檢索並排序符合使用者偏好和搜尋意圖的商品。儘管現有方法有效,但通常假設使用者的搜尋query完全反映了其真實動機。然而,我們對真實電商平臺的分析表明,使用者在搜尋前常進行相關諮詢,表明他們會基於動機和需求透過諮詢細化意圖。諮詢中隱含的動機是個性化搜尋的關鍵增強因素。
這一未探索領域帶來了新挑戰,包括將上下文動機與簡潔查詢對齊、彌合類別-文字差距,以及過濾序列歷史中的噪聲。為此,我們提出動機感知個性化搜尋(MAPS)方法:該方法透過大語言模型(LLMs)將查詢和諮詢嵌入統一語義空間,利用注意力專家混合模型(MoAE)對關鍵語義進行加權,並引入雙重對齊機制:(1)對比學習對齊諮詢、評論和商品特徵;(2)雙向注意力將動機感知嵌入與使用者偏好結合。在真實和合成資料集上的大量實驗表明,MAPS 在檢索和排序任務中均優於現有方法。
論文介紹
論文題目:Boosting Long-Context Information Seeking via Query-Guided Activation Refilling 
作者:錢泓錦,劉政,張配天,竇志成,連德富
論文概述:隨著大語言模型(LLMs)應用場景的拓展,如何高效處理超長文字上下文成為亟需解決的關鍵問題。受限於上下文視窗大小及鍵-值(Key-Value, KV)啟用的計算開銷,現有模型在處理長文字資訊檢索任務時面臨顯著效率瓶頸。值得注意的是,對於此類任務,使用者查詢所需的資訊範圍往往具有動態性——有時聚焦於細節,有時又需全域性理解。然而,現有方法難以根據查詢的複雜度自適應地感知並處理這些動態的資訊需求。為此,本文提出一種基於查詢引導的啟用填充方法(Activation Refilling, ACRE),以高效支援長文字中的資訊檢索任務。ACRE設計了一種雙層KV快取結構,其中第一層快取(L1)緊湊地儲存全域性資訊,第二層快取(L2)則保留更精細的區域性細節。透過構建L1與L2之間的代理機制,模型可根據當前查詢,從L2中動態填充L1,以實現全域性語義感知與區域性細節的融合解碼。在多個長文字資訊檢索資料集上的實驗證明,ACRE在保持推理效率的同時,顯著提升了回答質量。
Findings of ACL 2025
論文介紹
論文題目:mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data
作者:陳浩楠,王亮,楊南,朱餘韜,趙梓良,韋福如,竇志成
通訊作者:竇志成
論文概述:多模態嵌入模型因其能夠將文字、影像等不同模態的資料對映到統一的表示空間而受到廣泛關注。然而,有限的標註多模態資料常常限制了模型的嵌入效能。近期研究嘗試透過合成數據緩解這一問題,但合成數據的質量仍是關鍵瓶頸。在本研究中,我們提出高質量合成多模態資料應滿足三項關鍵標準。第一,範圍廣泛:生成的資料應覆蓋多種任務和模態型別,具備良好的通用性。第二,穩健的跨模態對齊:不同模態之間應具有一致的語義表示。第三,高保真度:每種模態自身應具備真實、可靠的細節特徵。在上述原則的指導下,我們構建的合成數據集具備以下特點:(1) 覆蓋多種任務型別、模態組合及語言,(2) 透過多模態大語言模型的一次性深度思考流程生成,(3) 融合真實影像與語義準確、相關性強的文字內容,並透過自評與迭代最佳化機制確保其高保真度。依託高質量的合成與標註資料集,我們訓練了一個多模態多語言嵌入模型——mmE5。大量實驗結果表明,mmE5在MMEB基準測試中實現了當前最優效能,並在XTD多語言評估中表現出顯著優勢。我們已開原始碼、資料集與模型。
論文介紹
論文題目:Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking
作者:成曉雪、李軍毅、趙鑫、文繼榮
通訊作者:趙鑫
論文概述:大語言模型在文字生成任務中展現出強大的能力,但仍普遍面臨“幻覺”問題,即生成內容存在不可信或事實錯誤的情況。本文提出了一種新穎的框架 HaluSearch,透過引入基於樹搜尋的推理演算法,引導模型在生成過程中進行顯式的“慢思考”,以緩解幻覺現象。HaluSearch 將文字生成建模為逐步推理過程,並引入自評估獎勵模型對每一步生成結果進行打分,引導搜尋過程朝向更可信的生成路徑。為在保證生成質量的同時提升推理效率,本文設計了層次化的系統切換機制,可在例項級和步驟級動態切換“快思考”與“慢思考”模式,以適應不同問題的複雜度和推理狀態。在多箇中英文資料集上的實驗證明,HaluSearch 相較現有方法在準確性和可靠性方面均取得了顯著提升。
論文介紹
論文題目:Expectation Confirmation Preference Optimization for Multi-Turn Conversational Recommendation Agent
作者:馮雪揚,張景森,唐嘉凱,李薇,蔡國豪,陳旭,戴全宇,朱越,董振華
通訊作者:陳旭,戴全宇
論文概述:近年來,大語言模型(LLMs)的進步極大推動了對話推薦智慧體的發展。然而,現有代理常常生成短視的回覆,難以持續引導使用者、滿足其期望。儘管偏好最佳化在對齊使用者期望方面取得了一定成效,但在多輪對話中的效果仍然有限,且成本較高。為了解決這一問題,本文提出了一種新穎的基於期望確認理論的多輪偏好最佳化正規化 ECPO,透過建模使用者滿意度在對話過程中的演變,揭示導致使用者不滿的深層原因。ECPO利用這些原因對不滿意的回覆進行有針對性的最佳化,從而實現輪次級別的偏好最佳化。同時,ECPO 避免了現有方法中高昂的取樣開銷,並確保最佳化過程帶來實質性提升。為支援 ECPO 的實現,我們還引入了一個基於 LLM 的使用者模擬器 AILO,用於模擬使用者反饋並在推薦過程中執行期望確認機制。實驗結果表明,ECPO 顯著提升了 CRA 的互動能力,在效率和效果方面均優於現有 MTPO 方法。
論文介紹
論文題目:Select, Read, and Write: A Multi-Agent Framework of Full-Text-based Related Work Generation
作者:劉小川,宋睿華,王希廷,陳旭
通訊作者:宋睿華,王希廷
論文概述:自動化相關工作生成(Related Work Generation, RWG)能夠在撰寫相關工作部分(Related Work Section, RWS)的初稿時節省人們的時間和精力,便於後續修訂。然而,現有的RWG方法通常面臨兩個問題:一是由於僅將參考文獻的有限部分作為輸入,導致對文獻的理解較為淺顯;二是由於未能有效捕捉參考文獻之間的關係,導致對每篇文獻的解釋是孤立的。為了解決這些問題,我們關注於基於全文的RWG任務,並提出了一種新穎的多智慧體框架。我們的框架由三個智慧體組成:一個選擇器(selector),它決定下一步閱讀文獻的哪個部分;一個閱讀器(reader),它閱讀所選部分並更新共享的工作記憶;以及一個寫作者(writer),它基於最終整理的記憶生成RWS。為了更好地捕捉參考文獻之間的關係,我們還為選擇器提出了兩種圖感知(graph-aware)策略,使其能夠在圖結構約束下最佳化閱讀順序。大量實驗表明,我們的框架在三種基礎模型(Llama3-8B, GPT-4o, Claude-3-Haiku)和多種輸入配置下始終提升了效能。採用圖感知選擇器的效果優於其他選擇器,達到了最佳的效能水平。
論文題目:LLM-Based Multi-Agent Systems are Scalable Graph Generative Models
作者:季嘉蕊,雷潤林,畢嘉伶,魏哲巍,陳旭,林衍凱,潘旭辰,李雅亮,丁博麟
通訊作者:魏哲巍
論文概述:自然生成的社交圖演變過程的結構特性被廣泛研究。以往的網路動態建模方法通常依賴於基於規則的模型,這些模型缺乏現實性和通用性;或依賴於深度學習模型,這些模型需要大規模的訓練資料集,同時欠缺圖擴充套件的能力。社交圖作為實體互動的抽象表示,模擬社會人互動可用於探索網路演化機制。
藉助大規模語言模型的預訓練知識,我們提出了GraphAgent-Generator(GAG),這是一種基於模擬的動態文字屬性社交圖生成框架。GAG模擬了節點生成和互動邊的動態演化過程,以實現zero-shot社交圖生成。生成的圖符合七個網路科學中的宏觀網路屬性,並在微觀圖結構指標上提高了11%。透過節點分類基準任務,我們驗證了GAG能夠超過現有圖生成模型,有效捕捉圖生成中的複雜文字-結構關聯。此外,GAG支援生成包含近十萬節點或一千萬邊的大規模圖,透過基於LLM的大規模代理模擬和並行加速,相比單程序達到了90.4%的加速效果。
論文介紹
論文題目:Enhancing Medical Dialogue Generation through Knowledge Refinement and Dynamic Prompt Adjustment
作者:孫宏達,彭佳仁,楊文忠,何亮,杜博,嚴睿
通訊作者:嚴睿
論文概述:醫療對話系統 (MDS) 已成為重要的線上平臺,透過實現與患者的多輪對話和情境感知對話來提升醫療保健水平。然而,當前的 MDS 通常面臨兩大挑戰:(1) 難以在多輪對話中準確追蹤患者不斷變化的健康狀況;(2) 難以根據每位患者不斷變化的病情生成符合情境且個性化的回覆。為了突破這些限制,我們提出了一種具有知識精煉和動態調整功能的新型醫療對話系統 (MedRef)。首先,我們設計了一種知識潤色機制,用於從檢索到的醫療資料中過濾掉不相關或噪聲資訊,從而更準確地預測關鍵醫療實體,例如症狀、診斷和治療。此外,我們設計了一個全面的提示結構,不僅融合了對話歷史和檢索到的知識,還融合了預測未來可能的實體,以指導後續回覆。為了進一步增強適應性,我們開發了一種動態調整方法,可以根據患者的病情和知識即時持續調整提示內容,確保生成的回覆在對話過程中始終保持情境感知和醫學準確性。我們在兩個廣泛使用的基準資料集 MedDG 和 KaMed 上進行了全面的評估實驗,結果表明 MedRef 的回覆在文字質量和醫學實體準確率方面均優於各種最先進的基準資料集, 驗證了MedRef 顯著提升 MDS 有效性和可靠性的潛力。
論文介紹
論文題目:MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents
作者:譚浩然*,張澤宇*,馬辰,陳旭,戴全宇,董振華
通訊作者:陳旭,戴全宇
論文概述:近期的研究突出了記憶機制在基於大語言模型(LLM)代理中的重要性,這些機制使它們能夠儲存觀察到的資訊並適應動態環境。然而,評估其記憶能力仍然面臨挑戰。以往的評估通常受到記憶層級和互動場景多樣性限制,且缺乏全面的指標來從多個方面反映記憶能力。為了解決這些問題,本文構建了一個更全面的資料集和基準測試,用於評估基於LLM的代理的記憶能力。我們的資料集將事實記憶和反思記憶作為不同的層級,並提出參與和觀察作為多種互動場景。基於我們的資料集,我們提出了一個基準測試,命名為MemBench,用於從多個方面評估基於LLM的代理的記憶能力,包括其有效性、效率和容量。
論文介紹
論文題目:KAPA: A Deliberative Agent Framework with Tree-Structured Knowledge Base for Multi-Domain User Intent Understanding
作者:唐嘉凱,沈世奇,王智鵬,龔治,馮雪揚,孫澤旭,譚浩然,陳旭
通訊作者:陳旭
論文概述:針對通用領域中對話智慧體助手難以精準預測使用者模糊查詢背後的隱式意圖,提出了新型的資料集UIU,該資料集覆蓋了多領域、多使用者語氣風格和多序列任務的個性化對話。在此基礎上,我們設計了一套知識增強的主動式對話智慧體 KAPA。具體地,我們引入多智慧體協作的四階段對話模擬過程(感知、分析、反思、知識積累)來構造高層次的意圖理解經驗知識,並構造樹形層次化結構的多域知識庫幫助推理階段時智慧體對相關域知識的快速檢索。我們在 UIU 資料集上的實驗驗證了方法 KAPA 的有效性。
論文介紹
論文題目:Distance between Relevant Information Pieces Causes Bias in Long-Context LLMs
作者:田潤初, 李陽昊, 傅嶽朋, 鄧思陽, 羅欽雨, 錢成, 王碩, 從鑫, 張眾, 吳葉賽, 林衍凱, 汪華東,劉曉江
通訊作者:從鑫,林衍凱
論文概述:在大語言模型(LLMs)中,位置偏差會影響其有效處理長輸入的能力。其中一個顯著的例子是“中間遺忘”(Lost in the Middle)現象,即 LLMs 難以利用位於輸入中間的相關資訊。儘管現有研究主要關注單一的相關資訊,但現實應用往往涉及多個相關資訊片段。為彌合這一差距,我們提出 LongPiBench,一個用於評估涉及多個相關資訊片段的位置偏差的基準測試。該基準涵蓋多種任務和不同的輸入長度。我們對三種商用模型和六種開源模型進行了全面實驗。實驗結果表明,儘管當前大多數模型在應對“中間遺忘”問題上表現更為穩健,但仍然存在明顯的與相關資訊片段間距相關的偏差。這些發現強調了在長上下文 LLM 評估和最佳化中,降低位置偏差的重要性。
論文介紹
論文題目:Revisiting Weak-to-Strong Generalization in Theory and Practice: Reverse KL vs. Forward KL
作者:姚巍*,楊文愷*,汪子喬,林衍凱,劉勇
通訊作者:劉勇
論文概述:隨著大語言模型逐步逼近超人類效能,確保其與人類價值觀及能力保持對齊的複雜性顯著增加。基於弱模型預測來指導強系統的“弱到強泛化”(weak-to-strong generalization)方法雖前景廣闊,但其效果往往受限於弱預測中固有的噪聲與偏差。針對這一難題,我們提出一種基於理論推導的解決方案:採用逆向KL散度替代前向KL散度。得益於"零強迫效應",逆向KL散度能聚焦高置信度預測,從而有效抑制不可靠弱監督的干擾。在理論層面,我們拓展了現有理論分析,證明了當充分預訓練的強模型僅線上性輸出層進行微調時,逆向KL能確保其效能超越弱模型,且提升幅度嚴格大於等於二者的預測分歧度。實驗結果表明,在絕大多數場景下,採用逆向KL散度與逆向交叉熵訓練的強模型,其效能均穩定優於使用前向KL散度及標準交叉熵的基準模型,充分印證了逆向損失函式的實用價值。
論文介紹
論文題目:MotiveBench: How Far Are We From Human-Like Motivational Reasoning in Large Language Models? 
作者:雍希賢,練建勳,矣曉沅,周驍,謝幸
通訊作者:周驍
論文概述:LLMs被廣泛應用於如社交模擬和AI陪伴等各種場景,然而它們在多大程度上能夠模仿人類動機與行為仍是一個尚未深入探索的問題。現有的評估基準往往受限於情境過於簡單、缺乏角色身份設定,導致與現實世界存在資訊不對稱。為了解決這一問題,本文提出了MotiveBench——一個包含200個豐富上下文情境和600個涵蓋多層次動機推理任務的評估基準。基於此,我們對七個主流模型家族進行了大規模實驗,比較了各家族內部不同規模與版本的表現。實驗結果揭示出多個重要發現,例如LLMs在處理“愛與歸屬”類動機方面存在較大困難,以及模型普遍傾向於過度理性與理想化。這些發現為未來提升LLMs擬人化能力提供了有價值的研究方向。
論文介紹
論文題目:Entropy-based Exploration Conduction for Multi-step Reasoning
作者:張靜涵,王希廷,莫馮然,周燁陽,高萬夫,劉鯤鵬
通訊作者:王希廷
論文概述:在大型語言模型(LLM)的推理過程中,多步推理已被證明在解決複雜任務中具有顯著效果。然而,探索深度對推理效能有著重要影響。現有自動決定推理深度的方法往往成本高、靈活性差,從而削弱了模型的推理準確性。為解決這一問題,我們提出了一種基於熵的探索深度引導方法,該方法透過監測語言模型輸出的熵值與方差熵,在多步推理中動態調整探索深度。我們利用這兩個指標分別衡量模型當前的不確定性以及連續推理步驟中不確定性的波動情況。基於這些變化,模型以機率方式決定是加深、擴充套件還是終止推理路徑,從而在推理準確性與探索效率之間實現平衡。我們在多個基準資料集上的實驗結果驗證了該方法的有效性。
論文介紹
論文題目:Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal Refinement 
作者:張曉慶,劉雨涵,Flood Sung,陳秀穎,商爍,嚴睿
通訊作者:劉雨涵,嚴睿
論文概述:針對程式碼生成中測試時延遲高、計算開銷大的關鍵挑戰,現有多輪計算方法雖具備一定精度,但效率極低,限制了其實際應用。為此,我們提出了一種高效且可擴充套件的程式碼生成框架——ThinkCoder,透過“廣泛探索 + 精準精修”的雙階段機制,有效提升了生成質量並顯著降低計算成本。具體而言,ThinkCoder首先在探索階段生成多樣化解空間,覆蓋潛在解答區域;隨後在精修階段對候選解進行深度最佳化,以實現最終選擇前的精細考量,避免了過度的試錯成本。為了進一步壓縮推理成本,我們引入了偏好驅動最佳化機制——Reinforced Self-Training (ReST),該機制利用ThinkCoder的探索軌跡,透過偏好學習引導大模型進化,提升其內在探索效率,從而在保持準確性的同時大幅降低計算負擔。實驗結果表明,ThinkCoder在HumanEval和MBPP等主流程式碼生成基準上均顯著優於現有方法:在僅使用6.4%計算資源的情況下,Pass@1精度比MapCoder提升3.0%;相較AgentCoder,ThinkCoder在2輪內即實現更高的0.5%精度,遠優於其5輪計算表現。同時,結合ReST機制,LLaMA2-7B僅用20%資源即可達到與更大模型相當的效能,驗證了方法的高效性與可擴充套件性。
論文介紹
論文題目:P3: Prompts Promote Prompting
作者:張鑫宇、胡元泉、劉方超、竇志成
通訊作者:竇志成
論文概述:本研究提出了一種新型的提示詞自動最佳化框架P3,它透過迭代的方式同時最佳化系統提示詞和使用者提示詞。P3框架具備了提示詞最佳化的親和性、多樣性、高效率等優點,重點解決了傳統線上提示詞最佳化方法存在的使用者與系統提示詞不親和、使用者提示詞最佳化過擬合、使用者提示詞線上最佳化效率低等問題,本框架在通用任務(如Arena-hard和Alpaca-eval)和推理任務(如GSM8K和GPQA)上的大量實驗表明,P3在自動提示詞最佳化領域可以取得明顯優勢。
論文介紹
論文題目:Neuro-Symbolic Query Compiler
作者:張宇堯,竇志成,李曉熙,金佳傑,伍永康,李中華,葉琪,文繼榮
通訊作者:竇志成
論文概述:在檢索增強生成(Retrieval-Augmented Generation, RAG)系統中,對檢索意圖的精確識別仍然是一項具有挑戰性的任務,尤其是在資源受限條件下以及面對具有巢狀結構和依賴關係的複雜查詢時。本文提出了QCompiler,一種受語言學語法規則和編譯器設計啟發的神經-符號框架,旨在彌合這一空白。該方法在理論上設計了一種最小但充分的巴科斯-諾爾正規化(Backus-Naur Form, BNF)語法 G[q],用於形式化複雜查詢。與以往方法不同,該語法在保持完備性的同時儘量減少了冗餘性。QCompiler由三個元件組成:查詢表示式翻譯器(Query Expression Translator)、詞法語法解析器(Lexical Syntax Parser) 和遞迴下降處理器(Recursive Descent Processor),用於將查詢編譯為抽象語法樹(Abstract Syntax Trees, ASTs)以供執行。葉節點中子查詢的原子性確保了更為精確的文件檢索與響應生成,顯著提升了 RAG 系統處理複雜查詢的能力。
論文介紹
論文題目:CitaLaw: Enhancing LLM with Citations in Legal Domain
作者:張珂鐠,俞蔚捷,戴孫浩,徐君
論文概述:在法律任務中,生成有引用支援的回覆(例如相關的法律條款和判例)對於確保大語言模型(LLMs)的可信度至關重要。對於尋求法律建議的外行人士而言,具備引用的大語言模型回覆提供了可驗證的資訊,提升了使用者對系統的信任度;對於律師和法官等法律從業者來說,引用作為支援性證據,有助於分析複雜案件、驗證法律論點,並確保裁決符合既定的法律原則。為此,我們提出了CitaLaw,評估LLMs的回覆是否具備堅實的法律依據、準確無誤的引用。CitaLaw透過提供多樣化的法律問題和全面的法律參考語料庫,使LLMs能夠檢索支援性引用並與回覆對齊。同時,我們引入法律三段論式的評估方法來衡量LLMs回覆的法律一致性以及其與使用者問題的契合度。實驗表明,融入法律引用顯著提升了LLMs回覆質量,所提評估方法與人類判斷有較強的一致性。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章