告別Softmax缺陷!LogTokU四象限框架用證據強度根治LLM幻覺

大語言模型(LLMs)常面臨“幻覺”問題,輸出不可靠資訊。不確定性估計作為評估模型輸出可靠性的關鍵指標,對於提升 LLM 可信度、支撐下游任務至關重要。
然而,傳統基於機率的不確定性估計方法難以有效捕捉生成響應的不確定性在 LLM 場景中表現不佳。本文揭示了其失效的核心原因:機率方法在歸一化過程中丟失了證據強度資訊。
基於此,提出 LogTokULogits-induced Token Uncertainty框架,透過利用 LLM 生成下一 token 的證據強度將不確定性建模偶然不確定性(AU)認知不確定性(EU),即時估計大模型不確定性。
動態解碼和 QA 可靠性估計中顯著優於傳統方法,提升了 LLM 的可靠性,拓展了大模型不確定性應用範圍,同時為多領域下游任務探索提供了新思路,已經受到麻省理工學院(MIT、密歇根州立大學(MSU)等機構研究人員的關注。
論文標題:
Estimating LLM Uncertainty with Evidence
論文作者:
馬煥 陳靖東、周天異、王光宇、張長青
論文連結:
https://arxiv.org/abs/2502.00290
程式碼連結:
https://github.com/MaHuanAAA/logtoku
LLM不確定性估計的巨大應用潛力
不確定性估計能夠量化模型輸出的可靠性,作為多種下游任務的關鍵指示器。例如:
  • 幻覺檢測透過不確定性識別回答中的潛在錯誤;尤其是在智慧醫療等代價敏感場景中,具有不可替代的作用。
  • 具身智慧:在具身智慧(Embodied Intelligence)中,尤其在動態、開放的物理環境中不確定性估計對於保障系統魯棒性、安全性和適應性尤為重要
  • 智慧體在多 Agent 系統中,利用不確定性緩解中間 Agent 錯誤累積,提升協作效率。
  • 極其廣泛的應用場景:大模型的不確定性估計在醫療、教育和科研中不僅是技術需求,更是倫理保障,它賦予 AI 系統自知之明
▲ 圖1. LLM不確定性估計的應用
當前不確定性估計方法的侷限性
當前 LLM 不確定性估計方法主要分為類:
1. 基於取樣的方法:透過多次生成輸出,評估一致性(如語義熵)。但基於取樣的方法存在兩大缺陷
  • 多次取樣計算成本高,難以部署到即時應用;
  • 無法捕捉模型固有的認知不確定性(EU),例如模型因知識缺失導致多次一致地生成相同錯誤答案。
2. 基於言語的方法:LLM 透過自然語言直接表達不確定性,言語不確定性(VerbalizedUncertainty)缺乏理論保障,效能高度依賴於 LLM 本身的規模和能力,以及是否經過了良好的指令微調。實際中,LLM 直接口頭給出的置信度分數往往校準度較差
3. 基於機率的方法基於機率/熵計算輸出的不確定性。但機率方法受限於 softmax 歸一化,丟失證據絕對強度資訊,難以有效刻畫 EU,導致在 LLM 場景中效果不佳
在傳統分類模型中,最大類機率刻畫不確定性通常比較有效。然而,在大語言模型生成任務中,其侷限性凸顯。如下圖所示,傳統機率方法在具有多解常識問題中信心評估偏低,而在未解物理問題中信心評估偏高。
▲ 圖2. 傳統機率方法在多解常識問題與未解物理問題中的置信度表現對比
導致此侷限性的根本原因是 softmax 歸一化之後得到的機率向量僅能指示證據之間的相對強度。而對於某個問題,模型的知識水平(絕對證據強度)卻丟失了。因此,我們建議從 logits 空間出發,一體化建模相對和絕對證據強度,實現更加完備的 LLM 不確定性刻畫能力。
▲ 圖3. 相對證據強度和絕對證據強度的示意圖
▲ 圖4. Softmax歸一化處理之後丟失證據的絕對強度
Logits驅動的不確定性建模:四象限框架直觀和精準刻畫LLM不確定性
透過直接利用模型最後一層 logits,提出了一種基於證據建模的不確定性估計方法,克服了傳統方法的侷限性。其核心創新包括:
1. 不確定性精細刻畫透過將不確定性分解,可以將LLM輸出細分為四種狀態(而非傳統機率建模的兩種狀態),這兩種不確定性具體為
  • 相對偶然不確定性(AU,Aleatoric Uncertainty)反映模型在選擇下一token時的相對不確定性,直觀理解為不同token之間的相對證據對比;
  • 模型固有認知不確定性(EU,Epistemic Uncertainty)反映模型因知識缺失或訓練資料不足導致的不確定性,直觀理解為大模型學到的每一個 token 的絕對證據
2. 證據強度建模透過 Dirichlet 分佈對 logits 進行建模,捕捉相對和絕對證據強度,避免 softmax 歸一化導致的資訊丟失。
3. 不確定性即時估計無需多次取樣,僅透過單次響應的 logits 即可完成不確定性刻畫,顯著降低推理計算成本。
▲ 圖5. 透過AU和EU細粒度建模LLM的4種不確定性狀態
補充說明:LogTokU 的數學建模基於證據深度學習(Evidential Deep Learning)工具,確保細粒度且可靠的不確定性估計。
實驗結果與效能提升
LogTokU 在多個下游任務中表現出顯著優勢,具體包括:
  • 多選題任務:不確定性作為指示器,提升了答案選擇準確性;
  • 回答可靠性估計:透過 EU 和 AU 的細粒度刻畫,顯著提高響應可靠性。
▲ 表1. 在多選題資料集上利用Token-Level的不確定性訊號指導動態解碼
▲ 表2. 在自然語言QA資料集上利用Sentence-Level的不確定性訊號指示回答可靠性
LogTokU為何有效?
LogTokU 的核心在於將證據強度建模引入 LLM 不確定性估計,突破了傳統機率方法的侷限性:
  • 嚴謹理論基礎:EU 和 AU 的分解基於證據深度學習的嚴謹數學框架,與經典不確定性估計理論一脈相承;
  • 證據強度保留:透過直接建模 logits,避免 softmax 歸一化導致的證據強度丟失;
  • 細粒度不確定性建模:四象限分解提供比傳統方法更精細的不確定性感知,適用於複雜的生成任務。
相較於基於多次取樣或自我評估的方法,LogTokU 具有更強的理論支撐和更高的即時性和可靠性。
學術與應用影響
除了論文中的兩個下游應用以外,該工作已經收到了各個領域研究人員的關注:
人機互動:麻省理工研究人員多次評述該工作,在 Chatbot 構建中引用該工作並指出:“if the logits suggest some threshold of uncertainty has been reached, the chatbot should query for additional information.” 
指導 RAG:密歇根州立大學研究員在 GraphRAG 研究中引用該論文並指出:“Leveraging this property, we implement “Internal Knowledge Filtering”, which uses the logits to help refine the answer selection.” 
Agents 協同:高麗大學研究員透過郵件諮詢該工作並反饋其已經將該工作部署到了 Uncertainty-aware Multi-agent System,提升 Agents 協作水平。

參考文獻

[1] Sensoy M, Kaplan L, Kandemir M. Evidential deep learning to quantify classification uncertainty[J]. Advances in neural information processing systems, 2018, 31.
[2] Farquhar S, Kossen J, Kuhn L, et al. Detecting hallucinations in large language models using semantic entropy[J]. Nature, 2024, 630(8017): 625-630. 
[3] Hopkins, et al. Chatbot Evaluation Is (Sometimes) Ill-Posed: Contextualization Errors in the Human-Interface-Model Pipeline, MIT, 2025.[4] Guo, Kai, et al. Empowering GraphRAG with Knowledge Filtering and Integration, MSU, 2025.
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章