中國AI門派:汪軍與他的學生們

中國強化學習研究的半壁江山。
作者 | 賴文昕
編輯丨陳彩嫻
來源 | 雷峰網
(ID:leiphone-sz)

作為一支在 AI 領域歷經數十年的研究分支,強化學習仍在歷久彌新。
01
從推薦系統到強化學習
2006 年暑假的一個午後,汪軍踏上了從荷蘭小城代爾夫特開往首都阿姆斯特丹的火車,他將在阿姆斯特丹換乘飛機,飛往美國西雅圖參加第 29 屆國際計算機協會資訊檢索大會(ACM SIGIR)。
此時的資訊檢索領域如日中天,加上微軟、雅虎和谷歌三巨頭最核心的業務也是搜尋,ACM SIGIR 每年都能彙集學術界與工業界的最高人才,來開一場資訊檢索界的“年會”。
在華盛頓大學的會場裡,汪軍在一片掌聲中獲得了最佳博士聯盟獎,於博士畢業的前一年拿下了資訊檢索領域博士的最高榮譽。
這位意氣風發的青年此刻並未想到,自己將會在 15 年後再獲得時間檢驗獎的榮譽提名——2021 年的汪軍已轉向強化學習(RL)數年,作為發起人之一成立了華人強化學習社群RL China,為國內強化學習研究培養了一批優秀的青年人才,成為領域的“一代宗師”。
汪軍出生於江蘇南京,1993 年從金陵中學畢業後開始在東南大學攻讀電子工程專業。本科畢業後,他先在工業界工作三年,又於 2000 年重返學術界,在新加坡國立大學計算機科學與技術系讀研。
千禧年正值數字影片興起,主要播放格式為 DVD、MPEG。彼時在計算機視覺領域佔據主導地位的,是基於手工特徵和傳統機器學習演算法的方法,如在影像匹配、分類等任務中取得了較好效果的 SIFT 特徵、支援向量機等,神經網路則被認為是一個相對複雜和難以解釋的 “黑盒” 。
此時汪軍已開始運用神經網路開展計算機視覺領域的研究,師從印度教授、現新加坡國家人工智慧中心副主席 Mohan Kankanhalli。
作為汪軍學術生涯的首位伯樂,Kankanhalli 引領他進入學術圈,經常鼓勵他自由探索,對其影響深遠。在導師指導下,汪軍的碩士論文聚焦透過不經過解碼,直接利用神經網路從壓縮影片中識別其中的模式、人臉、物體等內容。
2003 年碩士畢業後,汪軍來到荷蘭的代爾夫特理工大學讀博,師從機器學習教授 Marcel J. T. Reinders,在其指導下開始參與 CACTUS 專案。
該專案核心關注在自組織無線環境裡,透過個性化、智慧且具備情境感知能力的可穿戴裝置,解決人機互動與計算機網路互動在技術及可用性上的難題。其中一項關鍵內容為,依據使用者當前狀態,判斷是否應推送不同資訊。
作為一項推薦系統工作,該系統還與資訊檢索緊密關聯,本質上源於其中最基本的使用者需求。此需求可表現為關鍵詞,如透過使用者以往的興趣愛好、歷史瀏覽記錄等尋找到新資訊,結合已知與未知部分,其中衡量它們之間相關性的指標是核心所在。
隨著研究推進,這個大專案範圍逐步收窄,發展成為個性化推薦系統,汪軍也在此過程中逐漸確認了自己對推薦系統與資訊檢索的興趣。
博士期間,指導汪軍學習主流資訊檢索知識的是荷蘭資訊檢索領域的知名教授 Arjen P. de Vries,在他的牽線下,汪軍結識了資訊檢索大牛 Stephen Robertson,並在 2006 年隨之前往微軟劍橋研究院實習。
Stephen Robertson 發明了搜尋領域最出色的演算法 BM25,該演算法基於機率統計等原理建立了一種排名方法,在神經網路興起前廣泛應用於全球資訊檢索領域並主導著該領域的技術方向,在大多數情況下,只要合理使用其公式,搜尋結果通常能達到較好的效果。
對汪軍而言,Robertson 是自己的第二位伯樂。在微軟劍橋研究院時,Robertson 常常同他講解資訊檢索的核心知識,兩人就統一模型(Unified Model) 展開合作,在資訊檢索領域取得了不少理論突破。
過去傳統的機率檢索模型存在面向文件和麵向查詢兩種不同的視角,統一模型則將兩種視角統一起來,以建立一個更完善的檢索模型。沿著這一道路開展推薦系統研究,汪軍在博士階段便逐漸涵蓋了資訊檢索領域的所有基礎問題。
獲得 ACM SIGIR 2006 最佳博士聯盟獎後不久,一心想做老師的汪軍收到了倫敦大學學院(UCL)的 offer,並在 2007 年成為計算機系的一名講師。
剛成為“青椒”的汪軍正值想法豐富、動手能力強之際,立即啟動了推薦系統方向的新研究。
此前 Robertson 曾提出機率排序原理(PRP),其核心為資訊檢索系統應按照文件與使用者資訊需求的相關機率降序對文件進行排序,以實現資訊檢索系統的整體有效性(如期望精度)最大化。
汪軍認為此理論存在不足,還得考慮上不確定性,便創新地將經濟學理論引入資訊檢索領域,在 2009 年發表了“Portfolio Theory of Information Retrieval”一文—— 11年後,此工作被 SIGIR 評為時間檢驗獎的第二名。
簡單來說,就像投資時“不把所有錢都投進一個籃子”,不能只買谷歌股票,還要買可口可樂或其他各類股票。搜尋領域同理,比如當輸入“jaguar”時,因無法確定其指汽車品牌捷豹還是動物美洲豹,最佳做法是讓搜尋結果多樣化,排序時,第一條可排動物相關內容,第二條排車相關,第三個及後續結果也都要注重多樣性。
與 PRP 相比,此方法的優勢在於它突破了單一排名指標的侷限,不僅考慮了文件相關度預測的不確定性,還考慮了檢索文件之間的相關性,透過平衡排序列表的整體相關度和風險水平來進行文件排序,能更全面地處理文件排序問題,還從數學上量化了多樣化的益處並有效降低排序風險。
這項工作完成後,汪軍認為資訊檢索領域已無太多本質問題可研究,而網際網路中的搜尋推薦和廣告推薦發展良好,且廣告尤其吸引他。
雖然廣告本質仍屬資訊檢索範疇,但融入瞭如博弈論等經濟因素。從收益最大化角度,廣告推薦不僅要考慮相關性,還得兼顧經濟價值,有時即便內容相關,若預算用盡也不會被推薦。於是,汪軍開始研究廣告競價機制,如排名競價、即時競價。
在鑽研的過程中,汪軍發現:廣告領域技術的本質就是強化學習。
一是做決策以最大化獎勵,即最大化經濟價值或獎懲收益。廣告的目標是最大化使用者互動以促購買,同時兼顧預算,在既定預算下追求最優表現,或在預算最小化時提升效果,這和強化學習思路一致。具體來說,使用者從點選廣告到真正購買中的延遲,就類似於AlphaGo下棋時當下決策影響未來收益,雙方都涉及如何評估最佳化當下決策對未來的作用。
二是多智慧體博弈。在廣告領域,廣告主間是排名競價關係,例如當用戶與鞋子相關的關鍵詞時,眾多賣鞋廣告主都想投放廣告,彼此競爭,這就是多智慧體強化學習。
就這樣,強化學習的種子埋在了汪軍心裡。
02
UCL 強化學習開拓者
2011 年,汪軍升職為 UCL 的高階講師,並迎來了一位熱衷於圍棋的新同事 David Silver。
David Silver 於 1998 年劍橋本科畢業後同好友 Demis Hassabis 共同創立電子遊戲公司 Elixir Studios,又在 2004 年到阿爾伯塔大學攻讀強化學習的博士,師從強化學習之父 Richard Sutton,期間發表了“在 9×9 計算機圍棋中達到大師級水平” 的論文,其開發的 Mogo 程式是當時最強的圍棋程式之一。
來到 UCL 後,Silver 延續RL在圍棋上的應用,並受 Hassabis 之邀為 DeepMind 提供諮詢,啟動 AlphaGo 專案;而在隔壁辦公室的汪軍,則開始接觸到RL在資訊檢索和排序中的應用,遂請 Silver 來擔任學生 Marc Sloan 的二導。
兩人常探討強化學習的相關邏輯及它在搜尋排序等問題中的應用,此時汪軍雖對RL的理解還不深,但透過討論逐漸覺得這個領域很有意思,便開始用它來探索在新興交叉研究領域——計算廣告市場中的應用。
和傳統的監督學習相比,強化學習強調觀察和反饋。計算廣告生態系統中資料量大,開放性高,決策機會多,同時監管較弱,是絕佳的產學研相結合的平臺。2012年,汪軍的學生袁帥發表了一篇利用隱馬爾可夫鏈選擇廣告的文章,揭開了團隊將強化學習引入計算廣告的序幕。
隨著對計算廣告市場的瞭解不斷加深,汪軍的視野也在快速拓展,新的火花在概念的連線中不斷迸發出來。他的妻子在投行工作,在翻看其大學金融專業的教材時,汪軍瞭解到二級市場、現貨與期貨市場等概念,由此聯想到廣告領域——廣告通常是即時交易,沒有未來市場,但實際上,大廣告主常提前預定廣告位,剩餘不確定流量才放入即時競價平臺,類似期貨市場。
汪軍和學生陳博為據此研究出新的定價方法,創造了廣告期貨/期權的新產品。文章發表後,不但獲得了最佳論文獎,也引起了在劍橋讀 MBA 的 Rael Cline 的注意。Rael主動聯絡汪軍提出合作,二人便於 2014 年夏天一起創辦了 AI 廣告公司 MediaGamma。袁帥和陳博為作為初創員工,一起加入了公司。
MediaGamma的故事延續了七年多時間。在這期間,這群充滿樂觀精神的學院派創業者嘗試了很多主意:從一開始的廣告期權交易所,到後來專為廣告主服務的需方平臺(Demand Side Platform),再到後來專注於開發算法系統,細緻分解計算廣告中的競價過程,當然其中也包括了將RL演算法應用於出價決策——這也是強化學習首次在廣告即時交易中得以商用。
MediaGamma公司始於學術思維的結晶,慢慢發展成一個絕佳的試驗場:它提供了開放的平臺和資料,多樣而實際的商業問題,給了汪軍和學生們充分的挑戰和鍛鍊。袁帥也從一名博士生和工程師,成長為公司資料科學業務的領頭人。
MediaGamma也為汪軍的碩士生、博士生提供了實習機會。其中一位,也是首位緊隨他從推薦系統轉向廣告領域再到強化學習的得意門生,便是張偉楠。
2012 年 3 月,上海交大研一學生張偉楠讀到汪軍的一篇推薦系統論文,覺得思路新穎,當週就發郵件提問。他本科就讀於 ACM 班,畢業前以第一作者完成三篇推薦系統相關論文,並在研一陸續發表。同汪軍的交流讓他獲益匪淺,於是向交大瞭解留學交換事宜。
張偉楠原本計劃本科畢業後出國,卻因金融危機導致上一屆學生出國情況不佳,大三時選擇了保研,但他一直想多接觸國際化環境與頂尖人才,也有師長建議從事科研最好有海外博士學位。思索再三,他覺得還是要出國深造,在和 ACM 班總教頭俞勇溝通後,他決定未來學成回國為實驗室出力。
9 月,張偉楠抵達倫敦開啟博士研究。博士剛開始,張偉楠的研究仍舊集中在推薦系統領域,與另一位博士生趙曉雪(現甲骨文首席資料科學家)合作研究了互動式推薦系統的序貫決策最佳化演算法,並拓展了投資組合理論在投資推薦領域的應用。
張偉楠穩紮穩打、極有計劃,在清楚自己目標外還會和導師同步自己的最新想法,讓汪軍特別放心。來到 UCL 第一年的某一天,張偉楠和汪軍午飯後在校園外散步,汪軍建議張偉楠做網際網路廣告。
當時網際網路廣告正興起,學術界和產業界結合緊密,論文發表增多,新技術即時競價廣告(RTB)也剛出現,不僅要預測使用者對廣告的喜好,還需即時做出價決策——這個決策最佳化和多方博弈拍賣過程的本質,讓強化學習研究變得重要。
起初張偉楠有些猶豫,雖然自己本科在微軟亞洲研究院實習時發表過一篇廣告競價最佳化的論文,但因為學術界總是拿不到和價格相關的廣告資料集,做廣告相關的研究會很困難,因此博士第一年時仍主要做互動式推薦系統。
2013 年,汪軍讓他和學長袁帥合作,參加全球即時競價廣告演算法大賽,二人獲得最終賽季總冠軍,在過程中接觸到業界一手的關鍵廣告出價資料,藉此又發表了幾篇論文。自此,張偉楠正式轉向網際網路廣告競價領域,博士論文主題也定為網際網路廣告出價演算法而非推薦系統。
當時的主流是,實際最佳化廣告出價時,常把建模做泛化和數值最佳化結合。前者捕捉資料規律模式,為後者提供出價範圍和策略指導,後者在此基礎上精細調整出價,實現更好的廣告投放效果和經濟效益。
汪軍和張偉楠起初考慮用強化學習而非此方法,可全球強化學習仍處於“玩具”階段,多是簡單表格型,學術性強,不適用於廣告這類實際領域。
直到 2013 年 12 月,David Silver 在 DeepMind 和團隊發表了大名鼎鼎的 DQN 演算法,首次成功將強化學習與深度學習結合,在Atari 2600遊戲中超越人類水平——剛誕生的深度強化學習能處理更實際的任務。
此時在 UCL 研究RL的唯有汪軍和 Silver 二人,DQN 演算法吸引了一波機器學習牛人相繼投入深度強化學習,其中就包括了微軟劍橋研究院。在汪軍建議下,張偉楠在 2014 年 9 月加入實習,跟隨 Thore Graepel、Katja Hofmann 和 Ulrich Paquet,參與了為 Xbox 打造音樂推薦系統的專案。
三人如今均為RL大牛:Thore Graepel 在微軟工作 12 年,曾開發 Windows 圍棋遊戲 AI,2015 年到 DeepMind 組建多智慧體強化學習組,兩年後發表該領域首篇文章,又帶出 AlphaZero;Ulrich Paquet 任頂會 NeurIPS 2024 的程式主席;Katja Hofmann 則是微軟RL的核心成員。
在三位的指導下,張偉楠對RL有了更深的理解。2016 年秋,他結束了三年多的博士生活回到母校上海交大任教,開始帶學生鑽研RL,是最早歸國的RL學者之一。
汪軍認為生成式對抗網路(GAN)頗具潛力,建議張偉楠朝此方向探索。幾人提出了結合GAN和RL的思路:由於離散資料無法像圖片或語音那樣直接求導,傳統GAN方法難以直接應用,而強化學習中的策略梯度演算法天然適合處理離散資料,因為它可以直接最佳化離散動作分佈,從分佈層面調整結果。
就這樣,張偉楠同學生於瀾濤、導師汪軍、俞勇一起創新性地將策略梯度方法應用於離散資料生成(如文字和音符),在 AAAI 2017 發表SeqGAN,獲得極大的關注,目前引用次數已超3000。
值得一提的是,現在已成為正規化的基於人類反饋的強化學習(RLHF)同SeqGAN背後的思考邏輯出奇一致,都是透過RL方法最佳化生成模型,利用外部反饋訊號(判別器或人類反饋)解決離散資料生成的挑戰。
同年,師生二人還合作了 IRGAN,汪軍提出將 GAN 和 RL 結合,在資訊檢索領域提出了一種創新的生成式方法:與只使用生成模型或判別模型的傳統方法不同,IRGAN框架透過GAN的思想將雙方統一在一個對抗性訓練框架中,透過對抗性訓練融合了彼此的優點,對於生成器採用了基於策略梯度的RL來訓練,在三種典型的資訊檢索任務上(四個資料集)得到了更顯著的效果——作為 SIGIR 2017 唯一的滿分論文,IRGAN 還被提名為最佳論文。
03
多智慧體:“三摺疊”黑盒
與卷文章的實驗室風格不同,汪軍會在給予整體方向指導、親自推導公式、探索新課題之餘,讓每個學生自由探索自己感興趣的領域。
不少學生與他的初見在倫敦泰特現代藝術館。汪軍會先帶學生看展,再坐下來喝咖啡,告訴他們做研究就像欣賞藝術品一樣,讀博第一年不必急於出成果,探索興趣、明確問題,遠比發論文更有價值。
除了讓讀博充滿樂趣外,在溫穎、楊耀東看來,導師汪軍的學術品位極高,總能先人一步探索有潛力的方向。
轉向強化學習後,汪軍選擇了鮮少人涉足的多智慧體領域,最核心的原因是其在網際網路廣告領域的經驗:廣告主競拍廣告位就是典型的多智慧體博弈場景。
深度學習神經網路本就是黑盒,深度強化學習在其基礎上增加了環境動態互動的黑盒,多智慧體強化學習又在這兩層黑盒之上加入多智慧體博弈的黑盒,難以把握博弈收斂的納什均衡點,是最難的學習正規化。
*納什均衡點是博弈中各參與者策略組合達到的穩定狀態,即任何參與者單方面改變策略都無法使自身獲益,以“囚徒困境”中兩囚徒都坦白的策略組合為例,它在多領域被用於分析博弈行為與預測結果。
第一個跟隨汪軍鑽研多智慧體的學生是溫穎。
溫穎 2015 年本科畢業於北京郵電大學的電子商務及法律專業,因學校整體偏通訊與計算機的氛圍,所學內容涵蓋計算機、通訊、經管等多領域知識,因此曾跟著軟體工程和計算機學院老師做過不少資料探勘、複雜網路分析的科研專案,是位不拘小節的程式設計大牛。
保研清華後,溫穎先後在百度、亞馬遜等大廠研發部實習,在瞭解國內碼農工作模式後,又萌生了出國看看的想法。2015 年 7 月,他趕在碩士專案申請季截止(當時唯一未截止的專案是 UCL)前提交申請。剛在清華報到交完學費,溫穎就收到 UCL 錄取郵件,於是放棄保研機會,火速辦理簽證,在 10 月 UCL 報到截止前一天抵達了倫敦。
此時英偉達推出Titan X GPU使算力大幅提升,CUDA 生態變好,谷歌也剛推出深度學習框架 TensorFlow,深度學習得以在學術界大規模興起。
溫穎的碩士方向為網路科學與大資料分析,汪軍是其專案主任,張偉楠也會指導他做研究。師兄弟二人初見時,張偉楠還拿著剛打印出來的 TensorFlow 使用文件,稱它為未來的方向。
碩士的一年間,溫穎跟張偉楠一起嘗試用深度學習做計算廣告、自然語言理解,溫穎出色的程式設計和工程能力讓張偉楠印象深刻,便推薦他加入汪軍組讀博。
對於是否繼續深造,溫穎起初因學費高昂而猶豫,在爭取到學院的Feldman計算統計獎學金(EU/UK費率)後,汪軍又提出讓他去 Media Gamma 實習,讓公司幫他出剩下的學費(國際學生學費),就這樣,溫穎於 2016 年秋留在 UCL 讀博。
此時汪軍剛升為教授,有更多的資源“搞點大事”,便決定正式讓學生們主攻多智慧體強化學習,將博弈思想融入其中。
年初 AlphaGo 問世後,溫穎聽了 David Silver 的講座深受觸動,與汪軍確定該方向,成為其首個研究多智慧體的學生。
2016年的一場學術會議上,汪軍結識了彼時為阿里認知計算實驗室負責人的袁泉,二人都對多智慧體很感興趣,便決定讓倆團隊圍繞星際爭霸遊戲開展合作,溫穎也因其出色的工程能力成為專案主力。
2017年秋,團隊推出多智慧體雙向協調網路BiCNet,專注於複雜環境中的協同與競爭策略最佳化,在星際爭霸遊戲中它透過雙向通訊,建模智慧體間的相互影響,使智慧體能夠學習協同作戰、資源分配和戰術決策,並透過生成多樣化策略池確保在面對不同對手時快速適應並做出最優決策。
可惜的是,儘管BiCNet比2019年釋出的AlphaStar要早上兩年,但因只聚焦星際爭霸的小規模對戰,且沒有足夠的資源去擴充套件規模做全域性遊戲,未能獲得更大的影響力。不過,袁泉也在此專案後離開阿里創立啟元世界,並在2020年6月釋出AI智慧體,使其成為繼DeepMind後全球唯二用AI擊敗人類選手的企業。
此後,溫穎的研究聚焦於多智慧體之間的相互影響建模,將認知層次應用於多智慧體強化學習,幫助智慧體在合作場景中制定更優策略;關注策略之間的相互影響,透過探索策略空間,使智慧體在接觸豐富策略後學到最佳應對策略,從而保證效能下限——這種建模方法在微觀和宏觀層面都顯著提升了多智慧體系統的表現。
隨著溫穎一同加入汪軍組讀博的是楊耀東。
2013 年,楊耀東在中國科學技術大學電子工程與資訊科學系本科畢業後,來到帝國理工學院深造。畢業後,他就職於美國國際集團(AIG)科學部門開發由機器學習風險定價模型。
在加入UCL前,他對深度學習極有熱情,2015年在一次AIG資助的位於愛丁堡大學主辦的深度學習研討會上結識了張偉楠,以愛好者的身份請教最新技術動態。後經張偉楠推薦,到汪軍組讀博。
進組後,楊耀東的第一篇論文探索如何用RL和多智慧體系統模擬自然界捕食者與獵物間的動態關係,如狼與兔的週期性迴圈。與傳統依賴微分方程的方法不同,他透過RL讓智慧體自主決策,模擬自然行為軌跡。這項工作讓他深刻體會到RL的魅力,認為其從決策角度逼近真實人類社會,也奠定了他多智慧體強化學習的研究方向。
這項工作完成後,楊耀東和汪軍討論新課題時發現:少量智慧體的情況較為簡單,但若數量增加到成百上千甚至上萬後,缺少“C位”角色主導的情況將極為複雜。
面對這個問題,楊耀東提出引入“平均場博弈(Mean Field Game)”理論來解決。以股票市場為例,每個投資者的行為複雜且相互影響,但透過平均場方法,可以將所有投資者視為一個整體,計算群體的統計行為,並假設個體行為受群體行為影響,這種方法透過動態迭代關係描述個體與群體之間的相互作用。
楊耀東是第一個將平均場博弈引入機器學習的學者,首創平均場論RL演算法(Mean Field MARL),透過將大規模智慧體系統(百萬級)簡化為群體行為模型,成功降低了計算複雜度,為處理超大規模多智慧體系統提供了新的理論框架和實用工具。
這一創新在多智慧體強化學習領域具有重要意義,中了頂會ICML 2018的Oral。楊耀東反應敏捷、掌握的知識非常豐富,汪軍曾誇讚他“很少有不知道的paper,有時比我知道的還多。”六年以後,楊耀東持續相關領域研究,並指導學生完成了多智慧體強化學習領域華人首篇Nature Machine Intelligence。
除了溫、楊二人外,張海峰和田政也是在2016年加入了汪軍組。
張海峰2012年本科畢業於北大後繼續留校讀博,師從李文新教授研究遊戲智慧體,主要接觸蒙特卡洛樹搜尋等傳統演算法。2017年,他到UCL交換,與汪軍合作研究博弈環境生成,利用RL自動生成遊戲關卡,並在IJCAI發表論文。2018年博士畢業後,他再到汪軍組做博士後,提出雙層RL模型,用於多智慧體系統中的斯塔克爾伯格均衡(Stackelberg Game),以自動駕駛為例研究車輛並道決策。
田政本碩均在UCL就讀,博士期間先研究“快思慢想”理論,提出類似AlphaZero的RL演算法EXIT,在棋盤遊戲Hex中擊敗AI程式MOHEX 1.0。加入汪軍團隊後,他專注於多智慧體強化學習,特別是橋牌叫牌策略,透過叫牌傳遞隱藏資訊併合作取得優勢。
陳旭和杜雅麗則在2019年加入汪軍組做博士後。
陳旭在清華博士期間專攻資訊檢索和推薦系統,被汪軍2017年發表的IRGAN所吸引,十分欣賞利用對抗學習來提升資訊檢索效能的想法,於是選擇加入UCL做博士後研究員。
加入汪軍實驗室後,他一方面拓展強化學習理論,將離散時間馬爾可夫決策過程延伸至連續時間半馬爾可夫決策過程,並擴充套件有限時間界至連續時間界;另一方面,他將強化學習應用於推薦演算法,針對使用者多維度興趣問題,如旅客對酒店的多維度評價,提出基於多目標最佳化的強化學習演算法,將使用者行為建模為序列決策過程,實現動態多目標策略最佳化。
杜雅麗在悉尼科技大學讀博,博士後期時在騰訊AI Lab實習,研究強化學習在星際爭霸中的應用,尤其是多智慧體的微操控制。來到UCL後,她聚焦於多智慧體通訊網路構建、多智慧體能力評估等研究,也和溫穎合作探索強化學習在遊戲的應用。
汪軍對學生們的一大影響是對學術的執著追求與前瞻性。張海峰評價,汪軍總能提出新穎想法,雖部分想法超前,但激勵學生深入探索、調研並完善,因此能在單智慧體應用盛行時,率先投身多智慧體強化學習研究,終成開路人。
在學生培養上,汪軍老師會根據學生興趣細分研究領域,如陳旭側重RL在推薦系統的應用,張海峰關注博弈,杜雅麗和溫穎聚焦遊戲領域等等。
張偉楠形容汪軍“像李白一樣灑脫隨性”,他記得,汪軍不熱衷申請專案、周旋於會議和同行間,經費雖不寬裕,作為大牛卻始終堅守科研一線推導公式、指導學生,“有著低調做人、高調做事的處世哲學。”楊耀東形容。
04
本土崛起
強化學習在國內真正開始受重視始於2016年AlphaGO戰勝李世石的那一刻。
這一年,張偉楠回到母校上海交大任教,既和汪軍繼續保持合作推進SeqGAN和IRGAN,也開始帶學生鑽研強化學習。
此時國內開設RL課程的高校寥寥無幾,更沒有系統教材和足夠的老師,張偉楠便常在夏令營等非正式場合和學生們講解RL的基礎理論與前沿論文,還在2018年暑期邀請汪軍來到上交大授課,講RL、多智慧體博弈論及其最新應用。
但這顯然不夠,學習材料和老師的稀缺讓學生們只能在摸索中前行,直至 2019 年,情況才迎來實質性轉變 。
9月,UCL 人工智慧中心正式成立,隨即與 DeepMind 深化合作。DeepMind 研究員擔綱RL課程,汪軍則負責後續的多智慧體課。
瞭解國內情況後,汪軍萌生了舉辦免費線上夏令營的想法,希望將自己在UCL中教授的內容推廣開來,幫助中國學子更好地學習RL並深入瞭解此學術領域。
在和學生們的微信群裡,汪軍分享了這個主意,眾人積極獻策,提出各種命名建議。經過一番討論,最終定下了張偉楠提議的“RL China”這個名字。
RL China由汪軍發起,在早期推廣中由張偉楠和張海峰負責拉人,張海峰還負責安排日程、釋出報名通知等具體運營。
2019年底張海峰迴國,次年在汪軍的引薦下加入中科院自動化研究所,成立了專注於多智慧體研究的群體決策智慧團隊,強化了自動化所彼時未及NLP、影像那般繁榮的博弈決策研究。
半年後,RL China第一屆暑期課推出,除了張偉楠、張海峰與楊耀東這三位汪軍的學生外,北大盧宗青、天津大學郝建業、新加坡南洋理工大學安波、南京大學俞揚和清華張崇潔等人也受邀參與其中,為報名的同學無償直播講課。
反響熱烈的首期RL China讓汪軍等人確信此活動的必要性,又在2021年擴大了規模,國內外的授課教師數量增至三十餘位,課程涵蓋強化學習、博弈論、多智慧體等,還有華為等企業的應用類課堂。
除了舉辦年度論壇之外,RLChina每週還組織學生研討,由國內外十幾個強化學習研究團隊輪流主持,直播平臺上的觀看人數最高時能達十萬人次。
張海峰一直負責組織RLChina的各項活動,他認為投入精力在國內推廣RL意義重大,“因為它能聚集年輕教師和學生交流,加強學術界與產業界聯絡。”
與此同時,國內的RL教材也不再侷限於搬運海外論文,而是逐步平衡好理論和實操。
張偉楠自2019年在交大開設RL課程後,有不少學生反映課後程式設計實踐與課堂內容存在明顯脫節,在課上證明了策略梯度定理和學習了策略梯度演算法後,課後作業仍難以自己寫程式碼實現策略並在遊戲環境中獲得高分。
為解決這一問題,張偉楠借鑑了ACM班學長李沐出版深度學習書籍的方式,採用相似的形式編寫強化學習教案,每介紹一種方法,先講解原理和公式推導,再附上可執行的Python程式碼,學生可在網頁上直接執行程式碼並檢視結果,即時驗證所學原理。
在ACM班創始人俞勇的鼓勵下,張偉楠和助教們將經過幾年迭代的講義和程式碼作業整理成書,於2022年5月出版了《動手學強化學習》,此書至今銷量已超2.5萬冊,年銷量在全國強化學習領域排名第一。
而除了教學外,汪軍與他的學生們對RL在具體領域的應用探索,同樣為RL的本土崛起出了一份力,尤其是RL和大模型及具身智慧領域的結合。
回到2019年,汪軍擔任了華為諾亞方舟實驗室的決策推理首席科學家,為華為內部業務如5G網路控制和自動駕駛模擬提供多智慧體解決方案,楊耀東和溫穎也先後加入,參與了內部名為“LANDING RL(強化學習落地)”的大專案,專案最終雖沒成功,但幾人對強化學習落地場景的瓶頸都有了新的認識。
2020 年 6 月,GPT-3 問世。汪軍注意到,大模型的Transformer架構具有自迴歸形式和良好的通用泛化性,恰好可以解決傳統RL在不同環境策略間的遷移存在的泛化難題。
於是在2021年,汪軍召集了張偉楠、楊耀東和溫穎三人,開始籌集資金,決定以創業的形式啟動大模型研究——訓練決策大模型極消耗資源,需投入海量算力。
他們希望構建通用決策模型而非語言模型,所開發的“多智慧體Transformer(MAT)”輸入和輸出更復雜,包括影像、連續值(如機械臂關節狀態)、文字和離散動作,初步成果還發表在了NeurIPS 2022。
在MAT基礎上,團隊22年進一步推出了數字大腦決策大模型(DB1),進一步驗證了預訓練模型在文字、圖 – 文、強化學習決策、運籌最佳化決策方面應用的潛力。儘管DB1模型引數量達十多億,資料量達100T,但並未實現預期同語言模型一般的泛化效果。
問題在於,不同模態資料的資訊力度難以對齊,理論上需要長段連續資料才能提取語義資訊,而他們直接將資料強行輸入同一維度,雖在幾百個任務上有效,但未能實現跨模態或組合泛化,這也是DeepMind同年推出的通才大模型Gato同樣沒能解決的問題。
同期,在自動化所的張海峰也和汪軍合作了端到端決策大模型的工作,具體涉及機械臂操控、星際爭霸遊戲模擬、運籌最佳化等跨度較大的領域,劍指通用大模型。可以說,汪軍等人所探索的,就是如今具身智慧的雛形。
張海峰認為汪軍既具超前想法又重落地性,“他2017年就關注機器意識,2021年做決策大模型,領先行業數年。通常有超前想法的人不太考慮落地,但汪老師與產業界聯絡緊密,無論是與華為等企業合作還是個人創業,都顯示他對產業界的熟悉。”
在汪軍的一眾學生中,紮根具身智慧最深的當屬楊耀東。
博士畢業期間,楊耀東先在華為諾亞方舟實驗室從事RL研究,隨後又到倫敦國王學院(KCL)任助理教授,並在2022年1月回國加入北大人工智慧研究院任教。
談及跳出舒適區涉足硬體的原因,楊耀東表示,只將RL應用於遊戲並非智慧的最終形態,無法推動行業發展;而雙手作為人的智慧終端,智慧體難以比擬,且根據莫拉維克悖論,即機器人處理複雜任務容易,執行簡單日常動作卻困難;更重要的是,在試驗中用RL做靈巧手操作能實現兒童精細運動技能評估量表的極多操作,也證實了其可行性。
受北京市科委資助,他牽頭了《基於認知推理的具身智慧可泛化靈巧操作技術研究》並與同年齡段的北大助理教授朱毅鑫、董豪、王鶴一起探索類人靈巧雙手操作。
半年後,團隊實現了第一個雙手拋接球demo,楊耀東立刻給汪軍發了一條微信,分享真正把多智慧體強化學習用到真實場景中的喜悅,“讓AI控制高自由度的機械手達到人的靈巧度十分不容易。”此時距離智元機器人和銀河通用的正式成立還有一年多的時間,用RL實現靈巧手操作也尚未成為產業共識。
05
通往AGI的最後一公里
強化學習在過去十年中經歷了從爆發式興起到反思調整,再到技術突破與場景落地的完整週期。
2016年,AlphaGo擊敗圍棋世界冠軍李世石,成為人工智慧史上的里程碑,其結合蒙特卡洛樹搜尋與深度強化學習的技術引發全球關注,推動學術界和工業界對RL的廣泛投入。
然而,隨著技術熱潮褪去,2016年至2019年間,RL逐漸暴露出取樣效率低下、真實場景應用成本高昂等問題。例如,訓練一個遊戲智慧體需數百萬次互動,而機器人領域的實驗可能因策略錯誤導致裝置損壞,單次實驗成本高達數十萬美元。這一時期,研究者開始轉向離線強化學習(如BCQ、CQL演算法)以降低互動成本,同時探索分層強化學習(如FeUdal Networks)和多智慧體協作(如MADDPG)來應對複雜任務。
2019年後,RL進入復甦與擴充套件階段,並開始滲透至真實場景:OpenAI的Dactyl(2019)透過RL訓練機械手完成精細操作,波士頓動力將其應用於四足機器人運動最佳化;Waymo等公司將RL用於自動駕駛決策系統,處理複雜交通場景;阿里、谷歌透過RL最佳化動態推薦策略等等。
不難發現,作為最早涉足RL的華人學者,汪軍及其學生一脈同樣沿襲了相似的發展脈絡,帶領著中國RL逐步追趕上國際最前沿。
2022年底,橫空出世的ChatGPT更是為這群高歌猛進的RL信徒們注入了一劑強心針,眾人在RL與大模型技術融合的新趨勢中開始發力。
汪軍首先讓公司全面轉向以語言模型為中心的決策智慧體,但仍希望實現決策任務而非僅文字生成,其研發的語言智慧體已具備基礎對話能力和統一語義空間,計劃將不同模態和粒度的資訊對映到語言空間,實現組合泛化。可惜的是,公司未能等到2023年上半年開始的大模型視窗期,在年初宣告了結束。
在學術上,組裡的主力軍們都在汪軍的指導下成果斐然。
馮熙棟在元強化學習(Meta RL)已小有成果,圍繞多智慧體互動與元梯度估計偏差發表過兩篇文章。
22年底Chat GPT的出現讓他意識到LLM的泛化能力遠超傳統元強化學習。在汪軍的提議下遂轉向強化學習與語言模型的融合研究。他的第一篇工作將國際象棋作為包含驗場。論文深入研究了了整個機器學習流程,包含數百萬局對弈資料及對應的語言資料集,對應的語言模型和生成模型訓練,以及評估模型策略的基準設計。
馮熙棟也因此獲得了23年底Google DeepMind關於國際象棋的實習生專案名額,實習大半年後順利轉正,留在了discovery組,參與語言模型,生成模型與強化學習結合的研究。
汪軍也鼓勵學生們從不同的角度上去理解智慧體和環境的互動決策的合理性,並將其用於強化學習與智慧體突破。在汪軍的啟發下,楊夢月在博士期間的研究聚焦於可信AI,因果分析。從因果表示學習開始,進一步的延伸到對智慧體互動的世界環境的因果理解,即因果世界模型,以輔助智慧體決策的可解釋性和可信研究。
楊夢月於2024年底加入布里斯托大學工程數學作為助理教授,她目前也將研究拓展到基於大模型下的廣義的世界模擬中的因果探索。
和二人同屆的李錫涵則關注學習最佳化、偏向於解決實際問題的應用,比如對晶片邏輯電路的最佳化,提出了類似LLM的生成式神經模型“Circuit Transformer”,透過精心設計的解碼機制和馬爾可夫決策過程,嚴格生成與給定布林函式等價且更緊湊的邏輯電路,目標是做出“EDA(電子設計自動化)領域的AlphaGo ”。
目前,李錫涵正與華為諾亞方舟實驗室合作,繼續探索晶片研究。
大洋彼岸,2020年回國加入人大高瓴人工智慧研究院的陳旭,在推進RL、因果推斷在推薦系統方向的應用之餘,也開始關注大模型,如角色扮演能力使大模型行為更貼近人類。同時,他還和社會學等人文社科合作,利用大模型智慧體進行社會模擬,以進行低成本、快速的社會實踐和模擬調查。
楊耀東則對Chat GPT的RLHF技術感到十分驚豔,於是只留下一個多智慧體習方向的博士生,其餘人all in強化學習的對齊方向,成為國內最早做對齊的學者之一。在ChatGPT釋出兩個月後,楊耀東團隊首先復現了RLHF模型後訓練對齊的效果。
楊耀東隨後與當時尚未成立百川智慧的王小川一同探討,兩位“RL信徒”迅速達成共識:這是通向AGI的重要環節。三年後,OpenAI O3、DeepSeek R1的誕生也印證了該認知。與百川智慧的合作也讓楊耀東意識到AI浪潮發生在業界而非學界,再次埋下了創業的種子。
隨後在2024年具身智慧的視窗期,楊耀東與梁一韜,溫穎一同參與了靈初智慧,建立了北大-靈初靈巧操作聯合實驗室,探索類人靈巧操作的具身智慧產品,目前已推出了Psi – P0 規劃模型和Psi – C0 控制模型。
此外,楊耀東還和杜雅麗合作,發表了華人首篇多智慧體強化學習方向的Nature Machine Intelligence子刊,打破DeepMind的壟斷,該論文也成為Nature Machine Intelligence創刊以來最受關注下載量最高的強化學習方向論文。
去年10月,汪軍來到溫暖的花城廣州,在港科大做RL China的開幕致辭。這是RL China第二年開始辦線下活動,參加人數也倍增至500有餘。
汪軍希望未來每一年都採用線下方式舉辦,逐漸形成一個真正的RL學術會議或學生營,幫助縮短與國外存在的差距。
張偉楠指出,相比西方學者自上世紀八十年代的深厚積澱,國內2016年才起步的研究仍存在思維深度與技術底蘊的差距——這種差距既體現在頂級會議核心圈的中國聲音稀缺,也反映在學術生態的脆弱性:當計算機視覺等領域提供更輕鬆的就業通道時,許多強化學習研究者選擇轉行。
作為將深度強化學習引入中國的先驅,汪軍及其學生們在2016-2020年間的影響力甚至早於伯克利系學者的集體歸國潮。他們借RL China點燃了第一把火,培養更多強化學習方向的學者與教師,讓該學科在國內百所學校開設,並推動技術落地產業,實現變革。
汪軍的學生們還談到,汪軍總是活躍在科研一線探索,手把手教學生推公式,完全沒有“學術大牛”的架子,凡事親力親為,總是“樣樣通、樣樣精”,從資訊檢索到推薦系統再到多智慧體強化學習都能碩果累累。
知行合一的學術基因會在新一代學者身上延續。在楊耀東看來,汪軍是他科研和為人處世上的領路人,當自己成為導師後,也希望對博士生傳遞一個核心理念,“五年後你們帶不走任何演算法程式碼,唯有兩樣東西真正屬於你們——辨別研究方向的學術品味,以及決定學術生命長度的學術道德和規範。”
袁帥、陳博為、趙曉雪、張偉楠、楊耀東、溫穎、張海峰、田政、陳旭、杜雅麗、馮熙棟、楊夢月、李錫涵等人從UCL的汪軍組走出,以強化學習為根系成長為多個方向的先行者,在中國強化學習領域形成了重要的影響。
“在邁向AGI的路上,無論是哪種智慧,強化學習這一步都不可或缺。”
UCL的故事已告一段落,但以強化學習為根基的他們,仍在續寫著新的篇章。


相關文章