


作者:Adam Zewe
編輯:吳海波

MIT創新雷達|掃描前沿趨勢,洞見科創未來
On Campus and Around World

如何讓機器人像人一樣靈活打包、避障、精準操作?MIT 與 NVIDIA 聯合釋出了一種全新並行規劃演算法 —— cuTAMP,它無需訓練,依靠 GPU 的平行計算能力,讓機器人在數秒內完成複雜多步任務,徹底突破傳統動作規劃的效率瓶頸。本文將帶你深入瞭解這項前沿技術如何重塑工業機器人智慧操控的未來。

研究人員提出了一種新型演算法,使機器人能夠“前瞻思考”——同時並行評估成千上萬種可能的解決方案,並不斷最佳化其中最優的方案,以滿足自身及環境的各種約束條件。|圖片來源:iStock / MIT News
那個期盼已久可以出去旅行的暑假即將到來!在出行前,你需要把旅行必備物品打包進行李箱,要確保所有東西既能放得下,又不會壓壞脆弱物品。對於人類而言,由於具備較強的視覺和幾何推理能力,這通常是一個相對直觀的任務(儘管可能需要反覆調整才能將所有物品塞進箱子)。但對機器人來說,這卻是一個極其複雜的規劃挑戰,需要同時考慮大量動作、約束和自身機械能力。若按照傳統方式逐一嘗試,機器人可能花費很長時間才能找到可行解——甚至可能找不到。
MIT 和 NVIDIA Research 的研究人員提出了一種新演算法,大幅加快了機器人的規劃過程。他們的方法讓機器人能夠“提前思考”:並行評估成千上萬種可能的解決方案,然後不斷最佳化、精煉其中最有希望的方案,以滿足機器人本身和環境的各類約束。不同於許多現有方法逐一測試每個潛在動作,這種新方法一次性並行考慮數千種動作,使得多步操控問題可以在幾秒鐘內得到解決。
他們利用圖形處理單元(GPU)的強大平行計算能力來實現這一加速。在工廠或倉庫場景下,這一技術可讓機器人快速決定如何操控、緊湊地擺放形狀和尺寸各異的物品,且避免損壞、避免撞倒其他物體或與障礙物碰撞,即便是在狹窄空間內也能高效完成。
“在工業場景中,時間非常關鍵,需要儘快找到有效方案。如果演算法要花幾分鐘才得出計劃,而非幾秒,那對企業而言將帶來成本損失。”
本研究的第一作者是麻省理工學院(MIT)研究生 William Shen(SM ’23),他主導了這項機器人規劃演算法的開發工作。

William Shen(SM ’23) 是麻省理工學院(MIT)計算機科學專業的研究生,主要研究方向為機器人智慧規劃與控制系統。他是本研究的第一作者,負責核心演算法 cuTAMP 的設計與實現,致力於提升機器人在真實環境中的操作效率與決策能力。
研究團隊成員包括:
-
Caelan Garrett(’15, MEng ’15, PhD ’21):MIT 本科及博士畢業生,現為 NVIDIA Research 的高階研究科學家,在本研究中貢獻演算法設計與最佳化策略。
-
Nishanth Kumar:MIT 研究生,參與了演算法實驗和模型實現。
-
Ankit Goyal 與 Tucker Hermans:均為 NVIDIA 的研究科學家,其中 Hermans 還兼任猶他大學的副教授,主要負責機器人智慧與系統整合方面的研究。
-
Leslie Pack Kaelbling:MIT 計算機科學與人工智慧實驗室(CSAIL)的教授,松下計算機科學與工程講席教授,長期從事機器人智慧與規劃研究。
-
Tomás Lozano-Pérez:MIT CSAIL 教授、機器人領域權威專家,致力於動作規劃與空間推理。
-
Fabio Ramos:NVIDIA 的資深研究科學家,同時也是悉尼大學教授,在並行最佳化與機器智慧方面經驗豐富。
這項由多位 MIT 與 NVIDIA 頂尖研究人員聯合完成的成果,將在國際機器人頂級會議 Robotics: Science and Systems(RSS)上正式發表。

並行規劃:任務與運動規劃
研究人員的演算法針對“任務與運動規劃”(Task and Motion Planning, TAMP)設計。TAMP 的目標是為機器人生成一份綜合方案:既要有“任務計劃”(高層次動作序列,如“先拿起物品 A,再放入箱中”),也要有“運動計劃”(低層次動作引數,如關節位置、末端執行器朝向等,用以執行上述高層動作)。以將物品打包進箱為例,機器人需要推理多個變數,例如:如何確定每個物品的最終朝向以便它們能緊湊地放在一起;如何用機械臂和夾爪拾取並操作它們;如何避免過程中發生碰撞;如何滿足使用者指定的額外約束(如對打包順序有特定要求)。由於潛在的動作序列極其龐大,若隨機取樣並逐一測試,耗時可能非常漫長。
“搜尋空間非常巨大,很多動作在該空間裡並未帶來實際進展。” ——Caelan Garrett

Caelan Garrett(’15, MEng ’15, PhD ’21) 畢業於麻省理工學院,擁有本科學位、碩士學位和博士學位,現任 NVIDIA Research 的高階研究科學家。他在機器人任務與動作規劃(TAMP)領域具有深厚造詣,是多個高效機器人規劃系統的核心貢獻者,並在本研究中主導並行推理架構的開發工作。
研究團隊提出的演算法稱為 cuTAMP(基於 CUDA 加速的 TAMP)。它透過平行計算,同時模擬並最佳化數千個方案。在核心流程中,他們結合了取樣(sampling)和最佳化(optimization)兩種技術:
1.受限取樣(guided sampling)

傳統隨機取樣在海量可能性中容易“遍歷”大量無效方案,浪費時間。cuTAMP 在取樣階段會限制潛在方案範圍,優先生成更有可能滿足約束的候選解。

透過這樣“引導式”取樣,演算法能夠在廣泛探索的同時削減無效區,提高取樣效率。正如 William Shen 所述:“當我們將這些取樣結果結合後,相比隨機取樣,我們得到的初始點更好,能更快在最佳化階段找到解。”
2.並行最佳化(parallel optimization)

cuTAMP 對每個取樣出的候選方案計算代價(cost):包括是否滿足無碰撞、是否符合機器人運動學/動力學約束,以及任何使用者定義的目標(如打包密度最優、擺放順序、路徑平滑度等)。

這些計算在 GPU 上並行進行:GPU 可同時處理數百、數千條候選方案,使得最佳化一次的成本近似等同於僅最佳化一個方案的成本。

每輪最佳化後,演算法選出若干表現最佳的候選,基於它們繼續取樣或調整;如此迭代,直到收斂到成功方案或達到預設條件。

利用加速計算的優勢
相比通用 CPU,GPU 在大規模平行計算方面更具優勢。研究者藉助 GPU,將可並行取樣和最佳化的方案數量顯著提升,從而最大化演算法效能。正如 Shen 解釋:“在 GPU 上,最佳化一個方案的計算成本幾乎等同於最佳化數百或數千個方案。”
在模擬環境中,他們以類似“俄羅斯方塊式”的打包挑戰為測試:多種不同形狀、尺寸的塊如何在有限空間內緊密排列。實驗結果顯示,cuTAMP 能在幾秒鐘內找到無碰撞的可行方案,而傳統順序規劃方法往往需要更長時間。在真實機器人臂上的部署中,該演算法總能在 30 秒以內找到解。
此外,該系統已在 MIT 的機器人臂和 NVIDIA 的類人機器人上測試,均取得一致效果。由於 cuTAMP 並非基於機器學習,無需預先訓練資料,這意味著它可即刻應用於新場景:給出一個全新問題,即可在理論上保證收斂並找到解。
“它不是機器學習演算法,不需要訓練資料;這讓其能在多種情況下直接部署。給它一個新問題,它就能在理論上證明可以求解。” ——Caelan Garrett
演算法的通用性也超越打包場景。例如機器人使用工具的情形:只需將不同“技能型別”(skill types)整合到系統中,便可自動擴充套件機器人的能力。未來研究方向還包括將大型語言模型(LLM)和視覺語言模型(VLM)融入 cuTAMP,使機器人能夠基於使用者的語音指令生成並執行方案,以達成特定目標。

實驗與結果

模擬測試:在一系列類似 Tetris 的打包任務中,cuTAMP 在幾秒鐘內生成高質量、無碰撞方案;相比之下,許多順序或僅少量並行的演算法需更長時間。

真實機器部署:在實體機器人臂上,演算法始終在 30 秒內找到可行方案,表現穩定可靠。該測試涵蓋多種形狀和尺寸的物品、不同初始擺放狀態,以及不同環境約束(如狹窄空間、特定放置順序等)。

跨平臺適用:已在 MIT 機器人臂和 NVIDIA 類人機器人上進行驗證,說明方法具備較好通用性。

無需訓練:cuTAMP 基於最佳化與取樣,不依賴大規模訓練資料或預先學習模型;因此更易部署,適合多變或未知場景。

未來展望





分散式與雲端協同:在多機器人協同場景中,或藉助雲端 GPU 資源,實現跨裝置並行規劃與協調,以應對更大規模的協同任務。
cuTAMP的誕生,為機器人真正走進多變、複雜的現實環境鋪平了道路。從模擬環境到真實機械臂,從靜態打包到未來語音互動,它展示了機器人“智力”飛躍的另一種路徑。比起一味深度學習,這種無需訓練就能“解題”的能力,或許正是通用機器人真正需要的那顆“芯”。
參考資料:https://news.mit.edu/2025/new-system-enables-robots-to-solve-manipulation-problems-seconds-0605







