叢集機器人領域重要突破:科學家提出多智慧體強化學習策略,實現同時控制200個微米機器人

儘管螞蟻是一種體型很小的昆蟲,但成群的螞蟻卻能夠搬運又大又重的物體,原因在於它們透過高效的個體間協作實現了集體功能的最大化。
上述現象啟發了機器人學領域對群體智慧的研究,這也是叢集機器人領域(如 Kilobots、輪式機器人、魚類機器人)長期以來的核心問題。
近期,德國康斯坦茨大學的團隊與合作者在叢集機器人學、微納機器人學和強化學習的交叉領域取得了重大突破。
研究人員提出了一種多智慧體強化學習策略,藉助雷射驅動的自推進膠體粒子,首次在微米尺度上實現了獨立控制多達 200 個機器人,且具有 600 個可控自由度。
其中關鍵在於強化學習過程中使用了反事實獎勵(Counterfactual Rewards)機制,透過給每個協同工作的微型機器人分配單獨的獎勵,機器人叢集在高噪聲和複雜物理耦合條件下,基於高效訓練的人工神經網路完成了執行復雜的集體任務,比如將大型棒狀顆粒運送到任意位置和方向。
影片丨微型機器人在不到 3000 次動作中成功率超過 90%(來源:Science Robotics
該策略有望應用於移動微型機器、可程式設計藥物遞送膠囊以及其他先進的晶片實驗室等領域的複雜自動化組裝
Science Robotics 主編阿莫斯·馬西科(Amos Matsiko)對該研究評價稱:“要在群體內控制每一個微型機器人頗具挑戰性。Heuthe 等人提出了一種基於多智慧體強化學習的微型機器人個體控制策略。在該學習過程中,每個微型機器人的獎勵取決於它對整體效能的貢獻。微型機器人的推進由雷射束控制,作者演示了這些機器人群體像螞蟻那樣協同搬運貨物的潛力。”
圖丨顧紅日(來源:顧紅日)
日前,相關論文以《反事實獎勵促進單獨控制的叢集微型機器人實現集體運輸》(Counterfactual rewards promote collective transport using individually controlled swarm microrobots)為題發表在 Science Robotics[1]。
康斯坦茨大學博士生韋特洛倫茨·霍伊特(Veit-Lorenz Heuthe)是第一作者,顧紅日博士(現香港科技大學助理教授)和克萊門斯·貝欣格(Clemens Bechinger)教授擔任共同通訊作者。
圖丨相關論文(來源:Science Robotics
實現同時獨立控制 200 個微米機器人
與單獨的機器人相比,微型機器人群體可以透過改變系統大小來適應不同的任務需求。即使部分機器人出現硬體故障,其相鄰的機器人也能迅速替代它們,從而保持系統的整體魯棒性。
然而,如何控制和設計分散式系統,以及如何平衡冗餘資源與效率的問題仍具有挑戰性。此外,由於每個機器人的觀察範圍有限難以瞭解全域性情況,因此如何根據有限的觀測資訊決定機器人的行動方向(如左轉、右轉、前進或靜止)並非易事。
圖丨受自然啟發,在單獨控制的微型機器人系統中集體運輸大型貨物(來源:Science Robotics
在這一背景下,研究人員從自然現象中汲取靈感,探索如何在微型機器人系統中實現集體運輸大型貨物。為了應對強化學習演算法中手動調整獎勵的挑戰,該課題組引入了反事實獎勵機制。
具體而言,他們透過在微型機器人群中分配個別獎勵,提高了學習效能,併成功克服了“懶惰代理問題”,即一些機器人不積極參與任務,卻因其他機器人的工作而獲得獎勵,從而削弱了整體的學習效率。
為了準確評估每個機器人的具體貢獻,研究人員採用了一種能夠兼顧平衡計算量和最佳化訓練過程的巧妙方法。在模擬計算中,他們移除一個機器人,觀察群體在沒有該機器人時的表現。
具體來說,如果移除某個機器人後系統性能沒有變化,那麼該機器人可能並不重要;但如果移除後系統無法完成任務(如推動物體),則說明該機器人的貢獻很大。
透過比較真實實驗和假設場景中的表現,研究人員可以自動為每個微型機器人分配獎勵。每個機器人根據其對集體效能的貢獻獲得獎勵,實現了“多勞多得”,這不僅減少了獎勵訊號的噪聲,還加快了訓練過程。
實驗結果表明,即使在存在大量噪聲和不確定性的微觀環境下,經過多智慧體強化學習訓練的微型機器人群體也能夠成功執行任務。
圖丨由團隊控制微型機器人構成的畫素風格的圖案,用 6 微米大小的機器人組成更大的畫素機器人圖案。其中,綠色的螺旋是真實的螺旋藻(來源:顧紅日)
該系統與其他微型機器人系統相比,獨特之處還體現在:
  • 前所未有的系統複雜性。
以往報道的微機器人叢集大多數只有幾個全域性系統引數,而該研究中的雷射控制微機器人系統展示了多達 200 個單獨控制的微型機器人,具有 600 個可控自由度。
這主要得益於物理團隊搭建的功能強大的雷射操作平臺。當一束雷射進入系統後,經過一個基於聲光效應的聲光偏轉器,透過聲光耦合實現極高的分光速度,達到約 10 萬赫茲。
“這意味著它可以在 10 萬赫茲的速度下掃描二維空間,從而將一束雷射分成 200 束甚至更多的光束,並且每束光的位置都可以精確控制。”顧紅日說。
圖丨微型機器人系統示意圖(來源:Science Robotics
  • 從集體模式到集體功能。
此前,微機器人群的控制主要集中在叢集本身的形狀控制上,而這項工作進一步研究了大型貨物顆粒的集體運輸。這種集體功能涉及非對稱的熱波動、複雜的粒子間相互作用,甚至直接的表面碰撞,這些因素在過去的研究中通常被刻意避免。
該系統在模擬和實驗中展現出靈活多變的特點,並對強熱噪聲和環境噪聲具有很強的抗干擾能力。值得關注的是,其對故障單元也具備較強的容錯能力,即便面對 20% 的故障單元,整體系統仍然可以完成任務。與此同時,還能夠輕鬆適應多種應用場景。
  • 多工的端到端實施。
儘管多智慧體強化學習很有潛力,但在叢集機器人中成功實施的情況卻很少見,主要因為計算機模擬的訓練環境與現實環境存在差異。這項工作實現了一種端到端實施方法,讓微型機器人群在實驗中訓練,並從現實世界的物理互動中學習。
圖丨數量可拓展的微型機器人叢集分散式控制系統(來源:Science Robotics
微型機器人群體展示了分散式控制的優勢。研究人員讓經過訓練的微型機器人群體同時旋轉兩個和三個杆,並且可以獨立控制每個杆的旋轉方向。這一演示實驗突出了獨立移動的微型機器人在分散式控制框架下,所展現出的複雜運動模式潛力。
顧紅日指出,該系統在長時間實驗中表現出極高的穩定性。“如果系統速度再慢一些,我們甚至可以控制更多的機器人,而不僅僅是 200 個。可見,這個系統在叢集控制方面具有很大的潛力和靈活性。”
有望用於可程式設計藥物遞送和先進的晶片實驗室等領域
儘管該研究仍處於早期階段,但其在複雜環境的分散式控制場景已表現出應用潛力。例如,用於海面上流動機器人回收垃圾。
這些機器人受到海浪的影響運動速度較慢,且只能與附近的機器人進行通訊,全域性通訊成本往往較高。在這種複雜的環境中,有望基於該技術協調這些機器人共同完成任務(例如推動大型物體等)。
從微納機器人的角度來看,該技術有望用於在晶片上的微操作。例如,在大規模叢集微操作中,其可用於組裝多層水凝膠藥物等複雜的藥物結構。
目前這些結構的製備通常需要複雜的工藝,如果能夠實現定製化和個性化藥物製備,例如為每位患者定製獨特的藥物膠囊,這種高靈活性的微操作將具有重要的應用價值。在細胞治療領域,該技術還有可能在患者細胞進行個性化處理方面發揮關鍵作用。
顧紅日指出,該系統目前使用的是雷射分光技術,未來可以考慮使用電光鑷來等更強驅動的技術來實現更高效的操作。
在實驗室環境中,多個微型機器人可以單獨控制,並在較大的空間內協同完成複雜的任務,分散式系統的優點在這種場景下將更加明顯,尤其是在全域性控制難度較大的情況。
此外,顧紅日對叢集行為的理解方向也非常感興趣。在一項涉及叢集行為磁性技術的研究中,他曾設想利用叢集行為對血液進行過濾。例如,透過深入理解顆粒在血液中如何與外界的病原體(如細菌)結合的方式,來實現血液過濾功能,進而治療敗血症等治癒較難的疾病。
“儘管目前這方面的研究還面臨一些挑戰,但深入理解叢集行為對於解決這類問題至關重要。”顧紅日說。
談及 AI 在醫療領域的應用,他認為,“我們不會在短時間內完全進入全面智慧化的時代。相反,AI 的應用將是一個逐步發展的過程,最初可能會在一些定義明確的任務中實現功能替代或增強。”
在這一過程中,AI 技術會幫助人們開發出更好用的工具。這些工具可能是在現有工具基礎上的改進,或在價格上更具競爭力,或在質量上實現質的飛躍,從而讓使用者更願意採用。
圖丨康斯坦茨大學課題組(來源:顧紅日)
顧紅日具有機電工程、醫療工程方向和物理學科交叉的學術背景。他本科畢業於浙江大學後,在瑞士蘇黎世聯邦理工學院獲得碩士和博士學位,師從微納機器人先驅布蘭德利·尼爾森(Bradley Nelson)教授。之後,他在康斯坦茨大學克萊門斯·貝欣格(Clemens Bechinger)教授課題組從事博士後研究(DeepTech 此前報道:中國學者驗證最小尺度的可靠藥物遞送,透過仿生人工微管解決微納機器人執行可靠性難題,速度提升至之前方案的10倍)。
2025 年 1 月,顧紅日加入香港科技大學跨學科學院綜合系統與設計系(Division of Integrative System and Design)擔任助理教授,併成立獨立課題組,主要關注新興智慧硬體系統的早期驗證和開發,繼續用交叉學科知識研究跨尺度磁性材料機器人和它們在醫療和環境領域的應用。
“香港科技大學的創新文化和大灣區的硬體創新資源,為技術轉化提供了良好的環境。未來,我們將嘗試將強化學習中的反事實訓練方法應用到更廣泛的機器人場景中。”顧紅日說。
參考資料:
1.Heuthe et al., Counterfactual rewards promote collective transport using individually controlled swarm microrobots. Science Robotics 9, eado5888 (2024). https://doi.org/10.1126/scirobotics.ado5888
運營/排版:何晨龍


相關文章