大語言模型(LLMs)常面臨“幻覺”問題,輸出不可靠資訊。不確定性估計作為評估模型輸出可靠性的關鍵指標,對於提升LLM可信度、支撐下游任務至關重要。然而,傳統基於機率的不確定性估計方法難以有效捕捉生成響應的不確定性,在LLM場景中表現不佳。本文揭示了其失效的核心原因:機率方法在歸一化過程中丟失了證據強度資訊。基於此,提出LogTokU(Logits-induced Token Uncertainty)框架,透過利用LLM生成下一token的證據強度將不確定性建模為偶然不確定性(AU)和認知不確定性(EU),即時估計大模型不確定性。在動態解碼和QA可靠性估計中顯著優於傳統方法,提升了LLM的可靠性,拓展了大模型不確定性應用範圍,同時為多領域下游任務探索提供了新思路,已經受到麻省理工學院(MIT)、密歇根州立大學(MSU)等機構研究人員的關注。
一、LLM不確定性估計的巨大應用潛力
不確定性估計能夠量化模型輸出的可靠性,作為多種下游任務的關鍵指示器。例如:
-
幻覺檢測:
透過不確定性識別回答中的潛在錯誤;尤其是在智慧醫療等代價敏感場景中,具有不可替代的作用。
-
具身智慧:
在具身智慧(Embodied Intelligence)中,尤其在動態、開放的物理環境中,不確定性估計對於保障系統魯棒性、安全性和適應性尤為重要。
-
多智慧體:
在多Agent系統中,利用不確定性緩解中間Agent錯誤累積,提升協作效率。
-
極其廣泛的應用場景:
大模型的不確定性估計在醫療、教育和科研中不僅是技術需求,更是倫理保障,它賦予AI系統“自知之明”。

圖1. LLM不確定性估計的應用
二、當前不確定性估計方法的侷限性
當前LLM不確定性估計方法主要分為三類:
-
基於取樣的方法: 透過多次生成輸出,評估其一致性(如語義熵)。但基於取樣的方法存在兩大缺陷: 多次取樣計算成本高,難以部署到即時應用; 無法捕捉模型固有的認知不確定性(EU),例如模型因知識缺失導致多次一致地生成相同錯誤答案。 -
基於言語的方法: LLM透過自然語言直接表達不確定性,言語不確定性(Verbalized Uncertainty)缺乏理論保障,效能高度依賴於LLM本身的規模和能力,以及是否經過了良好的指令微調。實際中,LLM直介面頭給出的置信度分數往往校準度較差。 -
基於機率的方法: 基於機率/熵計算輸出的不確定性。但機率方法受限於softmax歸一化,丟失證據絕對強度資訊,難以有效刻畫EU,導致在LLM場景中效果不佳。 在傳統分類模型中,最大類機率刻畫不確定性通常比較有效。然而,在大語言模型生成任務中,其侷限性凸顯。如下圖所示,傳統機率方法在具有多解的常識問題中信心評估偏低,而在未解的物理問題中信心評估偏高。圖2. 傳統機率方法在多解常識問題與未解物理問題中的置信度表現對比導致此侷限性的根本原因是softmax歸一化之後得到的機率向量僅能指示證據之間的相對強度。而對於某個問題,模型的知識水平(絕對證據強度)卻丟失了。因此,我們建議從logits空間出發,一體化建模相對和絕對證據強度,實現更加完備的LLM不確定性刻畫能力。

圖3. 相對證據強度和絕對證據強度的示意圖

圖4. Softmax歸一化處理之後丟失證據的絕對強度
三、Logits驅動的不確定性建模:四象限框架直觀和精準刻畫LLM不確定性
透過直接利用模型最後一層logits,提出了一種基於證據建模的不確定性估計方法,克服了傳統方法的侷限性。其核心創新包括:
1、不確定性精細刻畫:
透過將不確定性分解,可以將LLM輸出細分為四種狀態(而非傳統機率建模的兩種狀態),這兩種不確定性具體為:
- 相對偶然不確定性(AU, Aleatoric Uncertainty):
反映模型在選擇下一token時的相對不確定性,直觀理解為不同token之間的相對證據對比; - 模型固有認知不確定性(EU,Epistemic Uncertainty):
反映模型因知識缺失或訓練資料不足導致的不確定性,直觀理解為大模型學到的每一個token的絕對證據。
2、證據強度建模:
透過Dirichlet分佈對logits進行建模,捕捉相對和絕對證據強度,避免softmax歸一化導致的資訊丟失。
3、不確定性即時估計:
無需多次取樣,僅透過單次響應的logits即可完成不確定性刻畫,顯著降低推理計算成本。

圖5. 透過AU和EU細粒度建模LLM的4種不確定性狀態
補充說明:LogTokU的數學建模基於證據深度學習(Evidential Deep Learning)工具,確保細粒度且可靠的不確定性估計。
四、實驗結果與效能提升
LogTokU在多個下游任務中表現出顯著優勢,具體包括:
-
多選題任務:
不確定性作為指示器,提升了答案選擇準確性;
-
回答可靠性估計:
透過EU和AU的細粒度刻畫,顯著提高響應可靠性。

表1. 在多選題資料集上利用Token-Level的不確定性訊號指導動態解碼

表2. 在自然語言QA資料集上利用Sentence-Level的不確定性訊號指示回答可靠性
五、LogTokU為何有效?
LogTokU的核心在於將證據強度建模引入LLM不確定性估計,突破了傳統機率方法的侷限性:
- 嚴謹理論基礎:
EU和AU的分解基於證據深度學習的嚴謹數學框架,與經典不確定性估計理論一脈相承; - 證據強度保留:
透過直接建模logits,避免softmax歸一化導致的證據強度丟失; - 細粒度不確定性建模:
四象限分解提供比傳統方法更精細的不確定性感知,適用於複雜的生成任務。
相較於基於多次取樣或自我評估的方法,LogTokU具有更強的理論支撐和更高的即時性和可靠性。
六、學術與應用影響
除了論文中的兩個下游應用以外,該工作已經收到了各個領域研究人員的關注:
- 人機互動:麻省理工研究人員多次評述該工作,在 Chatbot 構建中引用該工作並指出: “if the logits suggest some threshold of uncertainty has been reached, the chatbot should query for additional information.”
- 指導RAG:密歇根州立大學研究員在 GraphRAG 研究中引用該論文並指出: “Leveraging this property, we implement “Internal Knowledge Filtering”, which uses the logits to help refine the answer selection.”
- Agents協同:高麗大學研究員透過郵件諮詢該工作並反饋其已經將該工作部署到了 Uncertainty-aware Multi-agent System,提升Agents協作水平。
相關文獻
[1] Sensoy M, Kaplan L, Kandemir M. Evidential deep learning to quantify classification uncertainty[J]. Advances in neural information processing systems, 2018, 31.
[2] Farquhar S, Kossen J, Kuhn L, et al. Detecting hallucinations in large language models using semantic entropy[J]. Nature, 2024, 630(8017): 625-630.
[3] Hopkins, et al. Chatbot Evaluation Is (Sometimes) Ill-Posed: Contextualization Errors in the Human-Interface-Model Pipeline, MIT, 2025.[4] Guo, Kai, et al. Empowering GraphRAG with Knowledge Filtering and Integration, MSU, 2025.
論文資訊
標題:Estimating LLM Uncertainty with Evidence
論文地址:https://arxiv.org/abs/2502.00290
GitHub地址:https://github.com/MaHuanAAA/logtoku