
新智元報道
新智元報道
編輯:英智
【新智元導讀】還在驚歎預言家的神奇?如今LLM也掌握了預測未來的「超能力」!研究人員透過自我博弈和直接偏好最佳化,讓LLM擺脫人工資料依賴,大幅提升預測能力。
最近,有個爆火的話題:LLM學會教自己預測未來了!
像神秘的預言家一樣,預測未來的天氣、某部電影的票房成績,甚至是股市走勢,聽起來是不是特別像科幻電影裡的情節?
來自Lightning Rod Labs和倫敦政治經濟學院的研究者對提升LLM預測未來的能力展開了研究。

論文連結:https://arxiv.org/abs/2502.05253
人類專家在預測時,會綜合考量大量的資訊,包括各種事實、發展趨勢,以及相互矛盾的證據等,經過複雜的分析和思考,才能做出較為準確的預測。
在金融領域,準確的市場預測能夠幫助投資者把握時機,做出明智的投資決策,實現財富的增長。
在商業領域,對市場需求和產品趨勢的預測,能讓企業提前佈局,推出更受消費者歡迎的產品,佔據市場優勢。
為了提升LLM的預測能力,科研人員進行了諸多嘗試,採用了資料聚合、新聞檢索、模型微調等多種方法。
這些方法在一定程度上確實提高了模型的預測效能,但它們存在一個共同的問題——過度依賴人工整理的資料。
比如,需要藉助最新的大眾預測結果,或者依賴人工篩選的內容。而且,模型往往無法從已經確定結果的事件中學習經驗,實現自我提升。
獲取人工資料成本高昂,效率也較低,使得模型難以持續學習和進步。
LLM的「自學秘籍」
研究人員提出了一個結果驅動的微調框架,讓LLM能夠擺脫對人工輸入的過度依賴,透過自我學習來提升預測能力。

讓模型「自我博弈」,生成多樣化推理軌跡和機率預測。根據這些推理預測與實際結果的接近程度,對推理組合進行排序。最後,利用直接偏好最佳化(DPO)技術對模型進行微調。

資料與新聞收集
研究人員從預測市場Polymarket收集了多達12100個具有二元結果的預測問題,像「奧特曼會參加總統就職典禮嗎?」「FTX在2024年會停止付款嗎?」。
研究者篩選資料,排除了那些結果不明確的問題,並將剩餘資料劃分為訓練集和測試集。
訓練集包含9800個問題,其結果在2024年7月1日至12月15日期間確定;測試集則有2300個問題,結果在2024年12月25日至2025年1月23日揭曉。

將事件未發生標記為「0」,發生標記為「1」。為了評估模型預測的準確性,研究人員引入了Brier分數(BS)這一指標,分數越低,代表預測越準確。

其中N代表預測問題數量。
在答案揭曉前14天,研究人員藉助NewsCatcher API收集新聞。先透過GPT-4o生成搜尋查詢,再利用Newscatcher等外部新聞檢索服務,對相關新聞進行聚合和處理。
這些新聞將為後續模型的自我學習和預測提供重要的支援。
模型Self-Play資料生成
研究者選用了Phi-4 14B和DeepSeek-R1 14B這兩個模型。別看引數只有14B,在一般科學和程式設計基準測試中,表現十分出色。
研究人員讓這兩個模型針對每個問題進行推理,並給出最終的機率預測。
對於Phi-4 14B模型,採用scratchpad提示法,就像給它提供了一個草稿本,便於逐步展示推理過程。DeepSeek-R1 14B模型由於輸出中已有<think>標籤,所以使用零樣本提示法。
提示內容不僅有問題本身,還包含收集到的新聞摘要。每個問題都會生成一對推理軌跡,具體做法是先生成一個推理和預測,然後最多重新執行四次,以獲得第二個不同的預測。若後續預測都相同,則捨棄這組預測。
最終,為9427個預測問題,生成了18854條推理軌跡。
基於結果的重新排序
生成推理軌跡和預測結果後,需要根據預測與實際結果的接近程度進行重新排序。
研究人員定義了一個排序指標,透過計算預測機率與實際結果的絕對差值來衡量兩者的接近程度。
例如,若實際結果為0,一個預測機率是4%,另一個是8%,那麼機率為4%的預測推理軌跡排名更高。這樣,模型就知道哪些推理方式能帶來更準確的預測。
此外,為了排除新聞聚合資訊對排序的影響,研究人員還微調了一組標籤隨機化的控制模型,透過對比,來確定模型的學習效果是否源於更準確的預測依據。
直接偏好最佳化(DPO)微調
研究人員使用直接偏好最佳化(DPO)方法對Phi-4 14B和DeepSeek-R1 14B進行微調。
這種方法無需訓練單獨的獎勵模型,而是直接從模型自我博弈生成的排序推理對中學習獎勵訊號。即使單個預測並不完美,DPO也能透過成對比較,發現預測之間的細微質量差異,系統地糾正偏差。
與傳統的監督微調(SFT)相比,SFT依賴人工挑選的示例,並視其為完全正確,容易丟棄有價值的資訊。DPO則能從所有樣本中學習,顯著提高了微調過程的穩健性和效率。
在微調過程中,研究人員使用LoRA介面卡,對引數進行了精心調整,如設定合適的學習率、使用AdamW最佳化器、採用BF16混合精度等,用8個H100 GPU訓練。
Phi-4 14B在第五輪訓練時效果趨於穩定,而DeepSeek-R1 14B在第四輪就達到了穩定狀態。

最後,用一個包含2300個問題的測試集來檢驗模型的學習成果。
這個測試集的問題結果在訓練集最後一個問題結果出來10天后才揭曉,確保微調後的模型沒有接觸過與測試集相關的新聞資訊,以免影響測試結果。
每個模型都以原始基礎模型、使用正確結果微調的模型,以及使用隨機結果微調的對照模型這三個版本參與測試。這樣可以清晰地區分模型的學習效果是源於接觸新資訊,還是最佳化推理過程。
在測試時,針對不同模型設計了特定的提示。Phi-4 14B模型的提示就像一份詳細的任務指南,引導它逐步思考。DeepSeek-R1 14B模型則被設定為專家角色,直接進行預測。
兩個模型都會獲得問題、問題背景、判斷標準、當前日期、問題截止日期以及最多10篇新聞文章的摘要等資訊。
最終,收集了每個模型對2300個問題的預測結果,模型均給出了有效的預測。

預測能力大幅提升
經過這一系列操作,Phi-4 14B和DeepSeek-R1 14的預測準確性有了顯著提升。
Phi-4 14B和DeepSeek-R1 14B的預測準確率,比基礎模型以及用DPO微調但標籤隨機化的對照模型提高了7-10%,在預測能力上能與GPT-4o這樣的大型模型相媲美。

圖中展示了每個模型的Brier分數核密度估計,較低的Brier分數表示較高的準確性。
Phi-4 14B微調後的平均Brier分數達到0.200,優於隨機標籤的對照模型(0.214)和基礎模型(0.221)。DeepSeek-R1 14B微調後的平均Brier分數為0.197,同樣超過了其對照模型(0.212)和基礎模型(0.212)。

透過獨立樣本t檢驗發現,兩個微調後的模型在預測準確性上都顯著優於各自的基礎和對照模型,並且在經過多重比較調整p值後,這一結論依然成立。
充分證明了該方法能夠切實有效地提升模型的預測效能,而且這種提升並非源於微調時接觸的額外資訊。

與前沿模型GPT-4o相比,Phi-4 14B和DeepSeek-R1 14B雖然引數較少,但微調後的預測效能卻與之相當。
在統計檢驗中,微調後的模型與GPT-4o之間沒有顯著差異。
進一步分析模型在不同問題上的預測準確性分佈,可以發現微調後的模型雖然偶爾會出現一些準確性極低的預測(Brier分數高於0.5),但同時也能做出更多極其準確的預測(Brier分數低於0.05)。
以DeepSeek-R1 14B為例,微調後的模型有8.52%的問題Brier分數高於0.5,略高於基礎模型(7.48%)和對照模型(7.61%);但有32.78%的問題Brier分數低於 0.05,遠高於基礎模型(23.22%)和對照模型(23.13%),Phi-4 14B也呈現出類似的趨勢。
這項研究為LLM提升預測能力開闢了新的道路。
透過自我博弈和直接偏好最佳化,LLM能在不依賴大量人工標註資料的情況下,從實際結果中學習並改進預測,使小模型也能達到與大模型相媲美的效能,極大地提高了實用性和應用範圍。
參考資料:
https://arxiv.org/abs/2502.05253
https://news.ycombinator.com/item?id=43014918


