
文章轉載於新智元
2024年圖靈獎,頒給了強化學習之父!
就在剛剛,計算機學會ACM宣佈:Andrew G. Barto和Richard S. Sutton為2024年ACM圖靈獎獲得者,以表彰他們為強化學習奠定了概念和演算法基礎。
繼諾貝爾獎之後,AI學者再次將圖靈獎收歸囊中。

「強化學習之父」Richard S. Sutton和他的導師Andrew G. Barto,都為強化學習做出了奠基性的貢獻。
從1980年代開始的一系列論文中,二人就引入了強化學習的核心理念,構建了數學基礎,並開發了強化學習的關鍵演算法——這是建立智慧系統最為重要的方法之一。
1998年,Sutton和Barto共同撰寫了「Reinforcement Learning: An Introduction」(強化學習導論),這本書至今仍被視為該領域的奠基之作。目前,已被引用了超過75,000次。
如今,Barto是馬薩諸塞大學阿姆赫斯特分校資訊與計算機科學系的名譽教授。
Sutton是阿爾伯塔大學計算機科學教授,Keen Technologies的首席研究員,以及阿爾伯塔機器智慧研究所(Amii)的特聘研究員。
ACM A.M. 圖靈獎常被譽為「計算機領域的諾貝爾獎」,獎金高達100萬美元,由谷歌提供資金支援。該獎項以奠定了計算科學數學理論基礎的英國數學家艾倫·圖靈(Alan M. Turing)的名字命名。
得知自己獲得今年圖靈獎的訊息時,Sutton感到非常震驚。

就在最近,Sutton才剛發文引述了圖靈的名言
RL之父和他的博導
AI行業一直努力最大化機器知識容量。而身處這個行業的Richard Sutton,長期以來一直在思考一個更為基礎的問題——機器如何學習?
隨著「Reinforcement Learning:An Introduction」的出版,這本強化學習領域的「聖經」在數十年後,仍然有著重要的意義。因為這些思想本質上看似簡單,卻對更廣泛的AI行業產生著持續的影響。

Sutton這樣解釋他的研究方法:研究必須從小處著手;這種基礎研究,不會立即為最新技術帶來明顯的改進。
早在1978年,二人便開始合作。
當時,Sutton正在馬薩諸塞大學阿默斯特分校攻讀博士學位,而他的導師正是Barto。隨後,Sutton又跟著Barto完成了博士後研究。
他們編寫了一些最早的RL演算法,就像人類或機器學習的方式一樣,讓機器透過反覆試錯獲取知識。

雖然Sutton由此贏得了學術界的讚譽,但在某種程度上,卻讓他跟谷歌、微軟、OpenAI等大公司構建的LLM所代表主流理論,產生了分歧。
在他看來,這些技術只是在模仿人類行為,並未真正認識到自己的行動,並且從中學習——
我認為它們並不在通往AGI的正確道路上。
強化學習的核心,是確保機器「從經驗中學習」,或者理解反饋並從錯誤中學習。
然而,LLM是從海量歷史資料中提取資訊來生成回應的,所以它們的智慧程度也僅僅與其神經網路在給定時間的規模相當。
因此,LLM天然就有一種「愚蠢的弱點」。雖然可以調整對書面問題的回答,但它們的主要目標,僅僅是確定文字鏈中的下一個輸出而已。
對於如今的許多AI系統,Sutton都評價為「在於你互動時完全不會學習」。
比如在他看來,ChatGPT就不會根據自己的經驗改變任何權重;它對結果漠不關心,也真正缺乏認知;它對發生的任何事都不會驚訝,因為它本來對於發生的事就沒有任何預期。

Sutton的谷歌DeepMind前同事Michael Bowling如此評價他——
在以後,當人們希望看到能真正和人類互動的AI系統,他們可能會意識到,Sutton對強化學習的貢獻是多麼意義重大。
而且在過去五年中,RL也越來越被重視。引起全球轟動的DeepSeek,就是用RL透過正反饋迴圈來訓練AI的。
在阿爾伯塔機器智慧研究所(Amii)負責人Cam Linke看來,Sutton是一位為人謙遜、不事張揚的專業人士。他摒棄了科學領域常見的傳統等級制度或政治因素,對他來說科學過程才是關鍵所在。
繼Geoffrey Hinton和Yoshua Bengio在2018年與Yann LeCun一起因對深度神經網路研究的貢獻獲獎後,Sutton是最新一位獲得圖靈獎的加拿大研究者。
他表示,自己將自己看作是一個強化學習智慧體,透過經驗在各個層面學習,比如踢到腳趾後調整走路的方式,或者接受一份工作,從中獲得樂趣。

什麼是強化學習?
AI領域通常關注於構建AI智慧體——即能夠感知和行動的實體。
更智慧的AI智慧體能夠選擇更好的行動方案。因此,知道哪些行動方案更好對AI至關重要。
獎勵——這一借用自心理學和神經科學的術語——表示一個提供給AI智慧體與其行為質量相關的訊號。
強化學習(RL)就是在這種獎勵訊號的引導下學習找到更好行動方案的過程。
從獎勵中學習的理念對於動物訓練師來說已經存在了數千年。
後來,艾倫·圖靈(Alan Turing)在1950年的論文《計算機器與智慧》中探討了「機器能思考嗎?」這一問題,並提出了一種基於獎勵和懲罰的機器學習方法。
雖然圖靈稱他曾進行一些初步實驗,而且Arthur Samuel在1950年代後期開發了一個能透過自我對弈進行學習的跳棋程式,但在隨後的幾十年裡,AI的這一研究方向幾乎沒有取得任何進展。
到了1980年代初,受到心理學觀察的啟發,Barto和他的博士生Sutton開始將強化學習構建為一個通用問題框架。
他們借鑑了馬爾可夫決策過程(MDP)提供的數學基礎,在這個過程中,AI智慧體在具有隨機性的環境中做出決策,在每次狀態轉換後接收獎勵訊號,目的是將長期累積的獎勵最大。
與標準MDP理論假設AI智慧體已知MDP的所有資訊不同,強化學習框架允許環境和獎勵是未知的。
強化學習的資訊需求最小,結合MDP框架的通用性,使得強化學習演算法可以應用於廣泛的問題領域。
Barto和Sutton,無論是合作還是與其他研究者協作,都開發出了許多強化學習的基本演算法。
包括他們最重要的貢獻——時間差分學習,它在解決獎勵預測問題方面取得了重要突破,此外還有策略梯度方法和將神經網路作為表示學習函式的工具的使用。
他們還提出了結合學習和規劃的AI智慧體設計,證明了將環境知識作為規劃基礎的價值。
正如前文提到的,「Reinforcement Learning: An Introduction」這本書使數千名研究人員能夠理解併為這一領域做出貢獻,更重要的是,它還在繼續激發當今計算機科學中的許多重要研究活動。
儘管Barto和Sutton的演算法是幾十年前開發的,但在過去十五年中,透過與深度學習演算法(由2018年圖靈獎獲得者Bengio、Hinton和LeCun開創)相結合,強化學習的實際應用取得了重大突破——深度強化學習技術。

強化學習最引人注目的例子是AlphaGo計算機程式在2016年和2017年戰勝世界頂尖人類圍棋選手。
近幾年的另一個重大成就是聊天機器人ChatGPT的出現。
ChatGPT是一個LLM,其訓練分為兩個階段,第二階段採用了一種稱為基於人類反饋的強化學習(RLHF)技術,以更好地捕捉人類的期望和偏好。
強化學習在許多其他領域也取得了顯著成功。
一個備受矚目的研究案例是機器人在手中操作和解決物理(魔方)問題的運動技能學習,這表明完全在模擬中進行強化學習,最終也可能在顯著不同的現實世界中取得成功。

其他的應用領域包括網路擁塞控制、晶片設計、網際網路廣告、最佳化演算法、全球供應鏈最佳化、提升聊天機器人的行為和推理能力,甚至改進計算機科學中最古老的問題之一的矩陣乘法演算法。
最後,這項部分受到神經科學啟發的技術也反過來回饋了神經科學。最近的研究,包括Barto的工作,表明人工智慧中開發的特定強化學習演算法,為有關人類大腦中多巴胺系統的大量發現提供了最佳解釋。
獲獎人介紹
Andrew Barto

Andrew Barto是馬薩諸塞大學阿默斯特分校資訊與計算機科學系榮譽退休教授。是IEEE和AAAS的Fellow。
Barto於1970年從密歇根大學獲得數學學士學位。在閱讀了Michael Arbib and McCulloch和Pitts的作品後,他對利用計算機和數學來模擬大腦產生了興趣,五年後因一篇關於元胞自動機的論文獲得了該校的計算機科學博士學位。
他於1977年作為博士後研究員開始在馬薩諸塞大學阿默斯特分校的職業生涯,此後曾擔任多個職位,包括副教授、教授和系主任。
此前,他曾獲得包括馬薩諸塞大學神經科學終身成就獎、IJCAI研究卓越獎和IEEE神經網路學會先驅獎在內的眾多獎項。
Richard Sutton

Richard Sutton是阿爾伯塔大學計算機科學教授,Keen Technologies的研究科學家,以及阿爾伯塔機器智慧研究所(Amii)的首席科學顧問。是AAAI、英國皇家學會和加拿大皇家學會的Fellow。
在2017年至2023年期間,他曾擔任DeepMind的傑出研究科學家。
在加入阿爾伯塔大學之前,他於1998年至2002年在AT&T夏農實驗室AI部門擔任首席技術專家。
Sutton獲得了斯坦福大學心理學學士學位,並在馬薩諸塞大學阿默斯特分校獲得計算機與資訊科學的碩士和博士學位。
Sutton獲得的榮譽包括國際AI聯合會研究卓越獎、加拿大AI協會終身成就獎和馬薩諸塞大學阿默斯特分校傑出研究成就獎。
參考資料:
https://awards.acm.org/turing