
社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
1822 年,電學之父法拉第在日記中寫到“既然通電能夠產生磁力,為什麼不能用磁鐵產生電流呢?我一定要反過來試試!”。於是在 1831 年,第一臺發電機被髮明,推動了人類進入電氣化時代。
與之相似,作為全球億萬富翁之一的查理芒格將逆向思維作為他投資的重要思維模型之一,他有一句很著名的話:如果我知道自己會在哪裡死去,我就永遠不去那裡。
這些都說明了逆向思維的重要性,而作為當前實現通用人工智慧最具希望的道路,大語言模型(Large Language Models,LLMs)是否具備逆向思維?
近日,Google 的 DeepMind 在_"Reverse Thinking Makes LLMs Stronger Reasoners"_文章中給出了明確的答覆:
逆向思維訓練 LLM 可大幅度提升模型推理能力!!!
作為人工智慧研究領域的領頭羊,DeepMind 的研究成果一直是人工智慧領域的風向標,例如 2014 年的 AlphaGo,2017 年的 Alpha Zero 向世人展示了強化學習的強大能力;2016 年的 AlphaFold 開啟了利用人工智慧研究蛋白質摺疊,並於 2024 年助力其研究者 Demis Hassabis 斬獲諾貝爾化學獎,這也是首次由人工智慧研究者獲得該獎項。
DeepMind 這篇關於逆向思維訓練 LLM 的工作也為未來的 LLM 研究提供了全新的思路。
以下是文章傳送門:
論文題目:
Reverse Thinking Makes LLMs Stronger Reasoners
論文連結:
https://arxiv.org/abs/2411.19865
簡而言之,這篇文章從資料合成,知識蒸餾的角度展開研究,透過構建能夠揭示逆向思維過程的資料集,然後利用知識蒸餾框架,藉助教師模型指導學生模型的訓練過程,從而實現利用逆向思維提升 LLM 的推理能力。
什麼是逆向思維
逆向思維:從確定的目標狀態出發,透過分析因果鏈條,找到實現目標的路徑。這種方法在問題較為複雜,正向思維容易迷失方向時特別有效。
以上是 ChatGPT 給出的逆向思維的基本解釋。從直觀上理解,逆向思維就是從答案反推問題。例如:“Emma 有 2 個蘋果,Jack 有 3 個蘋果,一共有幾個蘋果?”。
正向思維就是“2+3=5”,得出一共有 5 個蘋果。
而逆向思維可以理解為:“已知一共有 5 個蘋果,現在 Emma 有 2 個蘋果,請問 Jack 有幾個?”。
這麼做有什麼好處呢?一方面使用逆向思維能夠更加明確推理路徑,另一方面能夠驗證正向推理得到的答案是否正確。而這種思想其實已經在很多場景下有所應用。例如在機器翻譯中,源語言和目標語言之間是存在互譯的雙向關係的,使用這種雙向關係能夠有效提升翻譯的質量。
既然逆向思維非常有效,那為什麼在大模型推理中並沒有廣泛應用呢?
作者認為主要的問題還是資料。
-
大多數的推理資料只有正向的推理過程,並沒有逆向推理結果;
-
已有的一些逆向推理工作大多是集中在高度結構化的資料中,例如數學問題。這種問題可以透過簡單的替換變數,替換條件實現逆向推理資料的構建。
那如何在更廣泛,結構化更低的領域中利用逆向思維提升推理效果呢?
DeepMind 給了一個非常好的示例:
逆向思維如何實現

如上圖所示:本文的主要流程可以分為如下步驟:
-
資料合成過程
-
針對原始的 QA 問題,藉助 LLM 構建從 Q->R 的正向推理過程,同時僅保留得到正確答案的推理過程
-
構建詳細的指令(針對每個任務),結合問題和答案,構建逆向問題Q_b -
使用相同的 LLM,針對逆向問答Q_b,生成對應的逆向回答R_b -
使用檢驗函式進行正向推理和逆向推理的一致性檢查,僅保留一致的結果資料 -
模型訓練過程(最佳化目標構建) -
正向推理最佳化:利用正向問答 Q->R 最佳化模型,即模型要根據問題進行正確的推理回答 -
逆向問題生成:利用正向問題和逆向問題 Q->Q_b最佳化模型,即模型應該具備逆向思維的能力,學習正向問題和逆向問題之間的聯絡和區別 -
逆向推理最佳化:利用逆向問答Q_b->R_b最佳化模型,同樣實用化模型需要根據問題進行正確的推理回答

逆向思維效果如何

-
同時使用正向問答 Q->R 和正逆向問題 Q->Q_b也能夠有效提升模型的效能。 -
單獨使用逆向問答Q_b -> R_b會降低模型效能,主要原因可能是該型別資料會出現資料分佈漂移情況。


提示詞展示(大力飛磚技巧)


“檢驗一流智力的標準,就是看你能不能在頭腦中同時存在兩種相反的想法,還維持正常行事的能力”。 ——《了不起的蓋茨比》
技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
關於我們
