2024年“計算機界諾貝爾獎”之ACM圖靈獎授予強化學習領域兩位奠基人，並警告AI安全

導讀：圖靈獎發給了機器學習中的強化學習兩人組。

今天，美國計算機學會 ACM 今天宣佈安德魯·巴託 (Andrew Barto) 和理查德·薩頓 (Richard Sutton) 獲得 2024 年 ACM A.M.圖靈獎，以表彰他們開發了強化學習的概念和演算法基礎。

就強化學習而言，從 20 世紀 80 年代開始，巴託和薩頓在其一系列論文中介紹了主要理念，構建了數學基礎，並開發了的重要演算法——這是建立智慧系統的最重要方法之一。

ACM 主席雅尼斯·伊奧尼迪斯（Yannis Ioannidis）這樣表示道：

“安德魯·巴託和理查德·薩頓的工作展示了應用多學科方法應對我們領域長期挑戰的巨大潛力。從認知科學、心理學到神經科學的研究領域激發了強化學習的發展，這為 AI 的一些最重要的進展奠定了基礎，並讓我們更深入地瞭解到大腦的工作原理。巴託和 Sutton 的工作並不是我們已經跨越的墊腳石。強化學習仍在不斷發展，併為計算和許多其他學科的進一步發展提供了巨大的潛力。這個領域最有聲望的獎項對於他們而言，實至名歸。”

谷歌高階副總裁傑夫·迪恩（Jeff Dean）這樣說道：

“艾倫·圖靈在 1947 年的一次演講中提到‘我們想要的是一臺能夠從經驗中學習的機器’。由安德魯·巴託和理查德·薩頓開創的強化學習直接回答了圖靈的問題。他們的工作是過去幾十年 AI 進步的關鍵。他們開發的工具仍然是 AI 繁榮的核心支柱，並取得了重大進展，吸引了大批年輕研究人員，並帶動了數十億美元的投資。RL 的影響將延續到未來。谷歌很榮幸贊助 ACM A.M.圖靈獎，並向那些塑造了改善我們生活的技術的個人致敬！”

關於獲獎人

下面我們來介紹一下獲獎人的詳細資訊。

安德魯·巴託 (Andrew Barto) 是馬薩諸塞大學阿姆赫斯特分校資訊與計算機科學系的名譽教授，被譽為強化學習領域的先驅之一。他於 1970 年在密歇根大學獲得數學學士學位，隨後在 1975 年獲得計算機與通訊科學的博士學位。

圖丨安德魯·巴託（Andrew Barto）（圖片來源：College of Information and Computer SciencesUniversity of Massachusetts Amherst）

巴託在 1977 年加入馬薩諸塞大學阿姆赫斯特分校，開始了他的學術生涯，並在多個職位上任職，包括副教授、教授和系主任。巴託在強化學習領域的貢獻不可小覷。他與他的博士學生理查德·薩頓（Richard Sutton）合作，從 20 世紀 80 年代開始，系統地介紹了強化學習的主要理念，構建了數學基礎，並開發了重要的演算法。他們的工作為建立智慧系統提供了重要的方法論支援。

巴託和薩頓共同撰寫了經典教材《Reinforcement Learning: An Introduction》，該書至今仍是該領域的標準參考書目，目前被引次數已超過 75,000 次。

圖《Reinforcement Learning: An Introduction》一書封面

巴託因其在強化學習領域的開創性工作獲得了多項榮譽，包括馬薩諸塞大學神經科學終身成就獎、IJCAI 卓越研究獎和 IEEE 神經網路學會先鋒獎。他是電氣電子工程師協會（IEEE）的會員，他同時也是美國科學促進協會（AAAS）的會士。

理查德·薩頓（Richard Sutton）是阿爾伯塔大學計算機科學教授，同時也是 Keen Technologies 的研究科學家，並擔任阿爾伯塔機器智慧研究所（Amii）的首席科學顧問。薩頓在強化學習領域的影響力深遠，被認為是現代強化學習的奠基人之一。他在 20 世紀 80 年代與巴託合作，共同推動了強化學習的發展。

圖丨Richard Sutton（來源：University of Alberta）

Sutton 於 1978 年在斯坦福大學獲得心理學學士學位，隨後在馬薩諸塞大學阿姆赫斯特分校獲得計算機與資訊科學的碩士和博士學位。他的研究興趣主要集中在決策者與環境相互作用時所面臨的學習問題，認為這是智慧的核心問題。Sutton 在強化學習領域的貢獻包括時序差分學習、策略梯度方法和 Dyna 架構等。

Sutton 因其在強化學習領域的卓越貢獻獲得了多項榮譽，包括國際人工智慧聯合會議（IJCAI）卓越研究獎和加拿大人工智慧協會終身成就獎。他的工作不僅在學術界產生了深遠影響，也為工業界的應用提供了重要支援。

警告人工智慧安全問題非常嚴重

安德魯·巴託 (Andrew Barto) 和理查德·薩頓 (Richard Sutton) 在獲得圖靈獎前就向世界發出嚴重警告。他們這樣說：

人工智慧公司在釋出產品之前並沒有進行徹底和完全的測試，他們將這種開發比作“搭建一座橋樑，然後透過讓人們的使用它來測試它” 。

巴託稱：“在沒有保障措施的情況下向數百萬人釋出軟體並不是好的工程實踐。工程實踐已經發展到試圖減輕技術帶來的負面影響，但我沒有看到正在開發的公司這樣做。”

不安全的人工智慧開發在之前已經受到了約書亞·本吉奧（Yoshua Bengio）和傑弗裡辛頓（Geoffrey Hinton）的批評，他們兩位被人們稱為“人工智慧教父”，也是圖靈獎的獲得者。

2023 年，包括 OpenAI 執行長 Sam Altman 在內的一群頂尖人工智慧研究人員、工程師和執行長也發表了一份宣告，警告稱“減輕人工智慧滅絕的風險，應該是全球的優先事項”。

巴託指責人工智慧公司“受商業動機驅使”，而不是專注於推進人工智慧研究。OpenAI 曾多次承諾提高人工智慧的安全性，並曾短暫罷免執行長奧特曼（Altman），部分原因是“在瞭解後果之前過度商業化發展”，OpenAI 已經於2024 年 12 月宣佈計劃轉型為一家營利性公司。