大語言模型變身軟體機器人設計「自然選擇器」，GPT、Gemini、Grok爭做最佳

大型語言模型 (LLM) 在軟體機器人設計領域展現出了令人振奮的應用潛力。密歇根大學安娜堡分校的研究團隊開發了一個名為「RoboCrafter-QA」的基準測試，用於評估 LLM 在軟體機器人設計中的表現，探索了這些模型能否擔任機器人設計的「自然選擇器」角色。

這項研究為 AI 輔助軟體機器人設計開闢了嶄新道路，有望實現更自動化、更智慧的設計流程。

研究背景

軟體機器人相比傳統剛性機器人具有顯著優勢，特別是在複雜、非結構化和動態環境中，其固有的柔順效能夠實現更安全、更適應性強的互動。然而，軟體機器人設計面臨巨大挑戰：

這些因素使軟體機器人設計成為一項高度挑戰性的多學科問題，傳統上依賴專家直覺、迭代原型設計和計算成本高昂的模擬。

研究創新：從生物進化到 AI 驅動設計

研究團隊提出了生物和機器人設計正規化的概念性轉變：

RoboCrafter-QA 基準測試

研究團隊開發的 RoboCrafter-QA 基準測試專門用於評估多模態 LLM 對軟體機器人設計理解的能力。該測試採用問答形式，為 LLM 提供環境描述和任務目標，然後要求模型從兩個候選機器人設計中選擇效能更佳的一個。

資料生成流程

測試任務多樣性

基準測試包含 12 種不同的任務環境，涵蓋：

不同結構的機器人的效能差異示意：

問題示例：

評估指標

實驗結果

研究團隊對四種最先進的大型語言模型進行了測試評估：GPT-o3-mini、Gemini-2.0-flash、Gemini-1.5-Pro 和 Grok-2。

主要發現：

模型效能層次：Gemini-1.5-Pro 在簡單任務（68.75%）和困難任務（62.48%）中均表現最佳，其次是 Gemini-2.0-flash 和 Grok-2（準確率約 66%），而 GPT-o3-mini 表現最弱。
任務難度敏感性：所有模型在更復雜的任務中準確率均有下降，特別是當需要區分細微效能差異的設計時。例如，Gemini-1.5-Pro 在 Walker-v0 任務中，簡單級別準確率為 75.40%，困難級別則降至 65.20%。
模型在特定環境中的弱點：在跳躍和雙向行走等任務中，所有模型均表現出明顯弱點，這可能與這些任務需要精確時序控制或處理雙向決策相關。

效能分析：獎勵差異水平分析

為評估 LLM 在不同難度水平下選擇更優設計的能力，研究團隊採用了難度加權準確率 (DWA) 指標。該指標特別關注模型在區分細微效能差異設計時的能力，對難度更高的問題（獎勵差異更小）賦予更高權重。

不同 LLM 的全域性 DWA 指標：

研究結果顯示，Gemini-1.5-Pro 在全球平均 DWA 方面表現最佳，達到 63.72%，這表明它在 RoboCrafter-QA 基準測試中具有略微優越的體現設計推理能力。

研究團隊還可視化了不同獎勵差異水平下的錯誤分佈情況，發現 LLM 的大部分錯誤出現在 0.8-1.0 的高難度區間，這進一步突顯了當前模型在進行細粒度設計區分方面的侷限性。

提示設計消融研究

為確定影響 LLM 做出正確選擇的關鍵因素，研究團隊針對提示設計進行了消融研究，重點關注任務描述和驅動器描述對模型效能的影響。研究還進行了一項實驗，修改提示指令，要求 LLM 選擇表現較差的設計而非較好的設計，以進一步分析 LLM 決策過程的穩健性。

提示設計消融研究結果：

消融研究結果揭示了任務描述和驅動器描述在促使語言模型選擇最優設計中的關鍵作用：

任務描述的重要性：模糊任務描述 (NoEnv) 顯著降低了所有模型的效能，例如 GPT-o3-mini 的準確率從 55.34% 降至 52.08%，Gemini-1.5-pro 從 69.75% 降至 62.50%，這強調了任務描述在引導 LLM 決策過程中的重要性。
驅動器描述的影響有限：忽略驅動器描述 (NoAct) 對效能影響較小，效能保持穩定或略有變化。這可能表明在缺乏驅動器資訊的情況下，LLM 會假設驅動器能夠最大化設計的獎勵。
選擇較差設計的挑戰：當指示模型選擇較差的設計時，模型表現出比完整資訊提示更低的準確率（例如，Gemini-2.0-flash 從 66.62% 降至 58.45%），這表明它們在識別劣質設計方面不太擅長，可能是由於訓練偏向於選擇更好的設計所致。

這些發現強調了在設計選擇任務中，為最大化 LLM 效能提供全面任務描述的必要性。與此同時，研究也表明當前模型在理解設計權衡和進行反直覺選擇（如選擇較差設計）方面仍存在侷限性，這可能需要透過更具針對性的訓練或提示策略來解決。

總結與啟示

透過對獎勵差異水平的效能分析和提示設計消融研究，我們可以看出：