DeepMind最新研究:逆向思維訓練LLM可大幅提升AI推理能力

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
轉載自 | 夕小瑤科技說
作者 | 努力變大腿的zz
1822 年,電學之父法拉第在日記中寫到“既然通電能夠產生磁力,為什麼不能用磁鐵產生電流呢?我一定要反過來試試!”。於是在 1831 年,第一臺發電機被髮明,推動了人類進入電氣化時代。
與之相似,作為全球億萬富翁之一的查理芒格將逆向思維作為他投資的重要思維模型之一,他有一句很著名的話:如果我知道自己會在哪裡死去,我就永遠不去那裡。
這些都說明了逆向思維的重要性,而作為當前實現通用人工智慧最具希望的道路,大語言模型(Large Language Models,LLMs)是否具備逆向思維?
近日,Google 的 DeepMind 在_"Reverse Thinking Makes LLMs Stronger Reasoners"_文章中給出了明確的答覆:
逆向思維訓練 LLM 可大幅度提升模型推理能力!!!
作為人工智慧研究領域的領頭羊,DeepMind 的研究成果一直是人工智慧領域的風向標,例如 2014 年的 AlphaGo,2017 年的 Alpha Zero 向世人展示了強化學習的強大能力;2016 年的 AlphaFold 開啟了利用人工智慧研究蛋白質摺疊,並於 2024 年助力其研究者 Demis Hassabis 斬獲諾貝爾化學獎,這也是首次由人工智慧研究者獲得該獎項。
DeepMind 這篇關於逆向思維訓練 LLM 的工作也為未來的 LLM 研究提供了全新的思路。
以下是文章傳送門:
論文題目:

Reverse Thinking Makes LLMs Stronger Reasoners

論文連結:

https://arxiv.org/abs/2411.19865

簡而言之,這篇文章從資料合成,知識蒸餾的角度展開研究,透過構建能夠揭示逆向思維過程的資料集,然後利用知識蒸餾框架,藉助教師模型指導學生模型的訓練過程,從而實現利用逆向思維提升 LLM 的推理能力。

什麼是逆向思維

逆向思維:從確定的目標狀態出發,透過分析因果鏈條,找到實現目標的路徑。這種方法在問題較為複雜,正向思維容易迷失方向時特別有效。
以上是 ChatGPT 給出的逆向思維的基本解釋。從直觀上理解,逆向思維就是從答案反推問題。例如:“Emma 有 2 個蘋果,Jack 有 3 個蘋果,一共有幾個蘋果?”。
正向思維就是“2+3=5”,得出一共有 5 個蘋果。
而逆向思維可以理解為:“已知一共有 5 個蘋果,現在 Emma 有 2 個蘋果,請問 Jack 有幾個?”。
這麼做有什麼好處呢?一方面使用逆向思維能夠更加明確推理路徑,另一方面能夠驗證正向推理得到的答案是否正確。而這種思想其實已經在很多場景下有所應用。例如在機器翻譯中,源語言和目標語言之間是存在互譯的雙向關係的,使用這種雙向關係能夠有效提升翻譯的質量。
既然逆向思維非常有效,那為什麼在大模型推理中並沒有廣泛應用呢?
作者認為主要的問題還是資料。
  • 大多數的推理資料只有正向的推理過程,並沒有逆向推理結果;
  • 已有的一些逆向推理工作大多是集中在高度結構化的資料中,例如數學問題。這種問題可以透過簡單的替換變數,替換條件實現逆向推理資料的構建。
那如何在更廣泛,結構化更低的領域中利用逆向思維提升推理效果呢?
DeepMind 給了一個非常好的示例:

逆向思維如何實現

如上圖所示:本文的主要流程可以分為如下步驟:
  1. 資料合成過程
    1. 針對原始的 QA 問題,藉助 LLM 構建從 Q->R 的正向推理過程,同時僅保留得到正確答案的推理過程
    2. 構建詳細的指令(針對每個任務),結合問題和答案,構建逆向問題Q_b
    3. 使用相同的 LLM,針對逆向問答Q_b,生成對應的逆向回答R_b
    4. 使用檢驗函式進行正向推理和逆向推理的一致性檢查,僅保留一致的結果資料
  2. 模型訓練過程(最佳化目標構建)
    1. 正向推理最佳化:利用正向問答 Q->R 最佳化模型,即模型要根據問題進行正確的推理回答
    2. 逆向問題生成:利用正向問題和逆向問題 Q->Q_b最佳化模型,即模型應該具備逆向思維的能力,學習正向問題和逆向問題之間的聯絡和區別
    3. 逆向推理最佳化:利用逆向問答Q_b->R_b最佳化模型,同樣實用化模型需要根據問題進行正確的推理回答
本文使用了多工學習的方法對以上三個最佳化目標進行同時最佳化,可以使用以下的最佳化目標函式進行形式化表示:
其中l(·;·)表示的交叉熵損失函式。

逆向思維效果如何

針對逆向思維提升 LLM 的推理能力,本文選擇了多個推理任務(常識推理,數學推理,表格資料推理,自然語言推理,和邏輯推理),並且使用了兩個不同的基礎大模型(Mistral-7B,Gemma-7B)進行效果驗證。
從下圖中可以看出,本文提出的方法,分別在不同的基礎大模型,不同的推理任務上均取得了非常好的效果。
除此之外,本文還分析了何種逆向推理資料會更有效。具體如下圖所示,可以得到如下結論:
  1. 同時使用正向問答 Q->R 和正逆向問題 Q->Q_b也能夠有效提升模型的效能。
  2. 單獨使用逆向問答Q_b -> R_b會降低模型效能,主要原因可能是該型別資料會出現資料分佈漂移情況。
最後,介紹本文中一個比較有意思的驗證實驗,作者探究了本文所提出的方法在處理不同問題型別和問題難度時的表現,最後發現,模型對一些可逆的問題和中等難度的問題有較好的表現,例如,代數問題,計數問題等。
對數值理論分析問題上逆向思維並沒有太大的效果。作者認為主要原因是這些問題沒有辦法進行逆向思維。與此同時,本文的方法對中等難度的問題有最大的提升,這點很有意思,值得深入研究。

提示詞展示(大力飛磚技巧)

正如前文提到的,本文透過設計精巧的提示詞,直接使用 LLM 生成逆向推理的資料,本文也在附錄中展示了相關的提示詞,可以作為一種資料生成方法的有效參考。當然,經過仔細閱讀這些提示詞,個人感覺這裡仍需要一些人工篩選,我們無法保證 LLM 一定能夠根據設定的提示詞進行準確的逆向推理的生成。
這點個人本來是有比較大的期待的,沒想到最後的解決方案是一種大力飛磚的方法,用最好的大模型直接合成,然後在此基礎上進行篩選,從而構建高質量的逆向思維訓練資料。果然目前階段人工智慧還是得有人工才有智慧。
當然,也不得不說在目前模型結構,訓練方法都沒有太大突破的階段,資料資源反而成為重要的突破方向,而 LLM 強大的生成能力反過來使得構建高質量資料變得高效低成本,那麼如何藉助 LLM 強大的生成能力,合成能夠幫助解決實際問題的資料,透過模型訓練和對齊,實現具體問題的解決就成為當前的簡潔高效的框架。
從這個角度講,新的 idea 不就在路上了麼!
“檢驗一流智力的標準,就是看你能不能在頭腦中同時存在兩種相反的想法,還維持正常行事的能力”。
——《了不起的蓋茨比》
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章