點選藍字 關注我們
SUBSCRIBE to US

Robotics and AI Institute
大約一年前,波士頓動力公司(Boston Dynamics)釋出了其四足機器人Spot的研究版本,該版本帶有一個低階應用程式程式設計介面(API),可直接控制Spot的關節。即使在那時,就有傳言稱這個API使Spot在效能上有了顯著提升,包括奔跑速度大幅提高。這個傳言來自機器人技術與人工智慧(RAI)研究所,其前身為人工智慧研究所,再往前是波士頓動力人工智慧研究所。如果你去年秋天參加了在鹿特丹舉行的第40屆國際機器人與自動化會議(ICRA@40)上Marc Raibert的演講,你就已經知道這根本不是傳言(https://spectrum.ieee.org/marc-raibert-boston-dynamics-instutute)。
今天,我們能夠分享RAI研究所一直在做的一些工作,即應用基於現實的強化學習技術來讓Spot實現更高的效能。同樣的技術也有助於高動態機器人穩定執行,並且有一個全新的硬體平臺可以展示這一點:一輛能跳躍的自動腳踏車。
看,Spot(機器狗名字)在跑
這個影片展示了Spot以每秒5.2米(每小時11.6英里)的持續速度奔跑。Spot出廠時的最高速度為每秒1.6米,這意味著RAI的Spot的速度是這臺四足機器人出廠速度的三倍多!
如果看到Spot跑得這麼快看起來有點奇怪,那可能是因為它確實奇怪,從某種意義上說,這隻機器狗在奔跑時腿和身體的運動方式與真正的狗奔跑的方式完全不同。“這種步態不具有生物性,但機器人本身就不是生物,”RAI研究所的機器人專家Farbod Farshidian解釋說,“Spot的驅動器與肌肉不同,其運動學也不同,所以適合狗快速奔跑的步態對這個機器人來說不一定是最好的。”
Farshidian能做出的最好歸類是,Spot的移動方式有點類似於小跑步態,只是多了一個騰空階段(四隻腳同時離地),從技術上講,這使其變成了奔跑。Farshidian稱,這個騰空階段是必要的,因為機器人需要這段時間來足夠快地連續向前拉動它的腳以保持速度。這是一種“被發現的行為”,也就是說,機器人並沒有被明確程式設計設定為“奔跑”,而只是被要求找到儘可能快地移動的最佳方式。
強化學習與模型預測控制
當你從波士頓動力公司購買Spot機器人時,隨機器人配備的控制器基於模型預測控制(MPC)。這包括建立一個軟體模型,儘可能最佳地近似機器人的動力學特性,然後針對你希望機器人即時執行的任務求解一個最佳化問題。這是一種非常可預測且可靠的機器人控制方法,但也有些刻板,因為初始的軟體模型與現實情況的貼近程度不足以讓你真正突破機器人的極限。並且如果你試圖說:“好吧,我打算為我的機器人建立一個超級詳細的軟體模型,然後透過這種方式突破極限”,你會陷入困境,因為無論你希望機器人做什麼,都必須即時求解最佳化問題,而且模型越複雜,就越難以足夠快地求解從而發揮作用。另一方面,強化學習(RL)是離線學習的。你可以使用你想要的任意複雜的模型,然後在模擬中花費所需的所有時間來訓練一個控制策略,之後這個策略就可以非常高效地在機器人上執行。
Robotics and AI Institute
以Spot的最高速度為例,在基於模型的控制系統(該系統要在機器人上即時執行)中,根本不可能對機器人的所有執行器的每一個細節都進行建模。因此,取而代之的是,對執行器實際的執行情況做出簡化(通常是非常保守)的假設,這樣就能預期到安全可靠的效能。
Farshidian解釋說,這些假設使得人們難以深入理解實際的效能限制到底是什麼。“機器人領域的很多人都知道,快速執行的限制之一是執行系統將會達到扭矩和速度的最大值。所以,人們試圖利用執行器的資料手冊來對其建模。對我們來說,我們想要回答的問題是是否可能存在其他一些實際上限制性能的現象。”
尋找這些其他現象需要將新資料引入強化學習流程,例如從機器人的實際執行效能中學習到的詳細執行器模型。就Spot的情況而言,這為高速奔跑提供了答案。結果表明,限制Spot速度的不是執行器本身,也不是機器人的任何運動學因素:僅僅是電池無法提供足夠的電量。“這讓我很驚訝,”Farshidian說,“因為我原以為我們會首先觸及執行器的極限。”
Spot的動力系統相當複雜,可能還有一些額外的調整空間,Farshidian表示,阻止他們將Spot的最高速度提升到超過5.2米/秒的唯一原因是他們無法獲取電池電壓,所以無法將該實際資料納入他們的強化學習(RL)模型。“如果我們在上面配備更強勁的電池,我們就能跑得更快。而且如果在我們的模擬器中也對這種現象進行建模,我確信我們能讓速度進一步提高。”
Farshidian強調,RAI的技術遠不止是讓Spot跑得快這麼簡單——它還可用於讓Spot更高效地移動以實現電池壽命的最大化,或者更安靜地移動以便在辦公室或家庭環境中更好地工作。從本質上講,這是一種可通用的工具,能夠找到拓展任何機器人系統能力的新方法。而且,當利用現實世界的資料來讓模擬機器人變得更好時,你就可以要求模擬做更多的事情,並且確信這些模擬技能將成功地轉換到真實機器人上。
超移動載具:教機器人腳踏車跳躍
強化學習不僅有利於最大化機器人的效能,還能使這種效能更可靠。RAI一直在試驗一種他們自主研發的全新型別的機器人:一輛名為超移動載具(UMV)的會跳躍的小腳踏車,它接受了跑酷訓練,使用的基本上是與Spot高速奔跑相同的用於平衡和驅動的強化學習(RL)流程。
並沒有獨立的物理穩定系統(如陀螺儀)來防止超移動載具(UMV)傾倒;它只是一輛能前後移動以及轉動前輪的普通腳踏車。然後儘可能多地將質量集中在上部,執行器可以使其快速上下加速。“我們在這個影片裡展示兩件事,”RAI蘇黎世辦公室主任Marco Hutter說,“一是強化學習如何幫助超移動載具在不同情況下讓其駕駛能力變得非常穩健。其次,瞭解機器人的動態能力如何使我們能夠做新的事情,比如跳到比機器人本身還高的桌子上。”
“The key of RL in all of this is to discover new behavior and make this robust and reliable under conditions that are very hard to model. That’s where RL really, really shines.”
—Marco Hutter, The RAI Institute
儘管跳躍很令人驚歎,但Hutter表示,做一些可能看似相當簡單的動作(比如倒著騎行)同樣困難。“倒著騎行非常不穩定,”Hutter解釋道,“至少對我們來說,用傳統的[模型預測控制]控制器真的不太可能做到,特別是在崎嶇地形上或者有干擾的情況下。”
將這個機器人帶出實驗室,到地形上去進行真正的腳踏車跑酷是一項正在進行中的工作,RAI研究所表示他們將能夠在不久的將來進行展示,但Hutter說,這其實不是關於這個特定硬體平臺能做什麼——而是關於任何機器人透過強化學習(RL)和其他基於學習的方法能做什麼。“這裡更宏觀的情況是,這種機器人系統的硬體理論上能做的比我們用傳統控制演算法所能實現的要多得多。瞭解硬體系統中這些隱藏的限制能讓我們提高效能,並不斷突破控制方面的界限。”
Robotics and AI Institute
適用於各處機器人的強化學習
就在幾周前,RAI宣佈與波士頓動力公司(Boston Dynamics)建立新的合作伙伴關係,“透過強化學習推動人形機器人發展”(https://rai-inst.com/resources/press-release/boston-dynamics-atlas-partnership/)。人形機器人只是另一種機器人平臺,儘管它要複雜得多,有更多的自由度,需要建模和模擬的東西也更多。但是,考慮到針對這種複雜程度的模型預測控制的侷限性時,強化學習方法似乎幾乎是不可避免的,特別是當這種方法由於其泛化能力已經被簡化時。
“作為一個研究所,我們的目標之一是擁有適用於各種不同平臺的解決方案,”Hutter說,“這關乎構建工具、構建基礎設施,為在更廣泛的背景下實現這一目標奠定基礎。所以不僅是人形機器人,還有駕駛車輛、四足動物等等。但是進行強化學習(RL)研究並展示一些不錯的初步概念驗證是一回事——在所有條件下將其推向現實世界中工作,同時突破效能界限,則是另一回事。”
將技能遷移到現實世界一直是在模擬環境中訓練的機器人所面臨的一項挑戰,這正是因為模擬環境對機器人來說太過理想。“如果投入足夠的時間,”Farshidian解釋說,“你就能設計出一個獎勵函式,最終讓機器人做你想讓它做的事。但當你想要把模擬行為遷移到硬體上時往往就會失敗,因為強化學習非常擅長髮現模擬器中的漏洞並利用這些漏洞來完成任務。”
隨著新工具的出現、更精確的動力學(模型)以及大量可用於解決該問題的計算能力,模擬(技術)已經變得越來越好。“我們能夠模擬這麼多東西,並且幾乎免費生成這麼多資料,這是一種非常強大的能力,”Hutter說道。但是,這些資料的有用性在於它與現實的聯絡,要確保你所模擬的內容足夠精確,這樣強化學習方法才能切實解決現實(中的問題)。Hutter認為,將在真實硬體上收集到的物理資料帶回模擬(環境)是一種非常有前景的方法,無論它是應用於奔跑的四足動物、會跳躍的腳踏車還是人形機器人。“模擬(環境)和現實這兩者的結合——我假設這就是正確的方向。”

微訊號|IEEE電氣電子工程師學會
新浪微博|IEEE中國
Bilibili | IEEE中國
· IEEE電氣電子工程師學會 ·
往
期
推
薦