
新智元報道
新智元報道
編輯:定慧
【新智元導讀】MIT最新研究讓LLM直接操控宇宙飛船進行太空追逐挑戰賽:ChatGPT少量微調即獲第二,開源Llama更勝一籌,憑提示詞精準追蹤衛星、節省燃料,更是0%失敗率,驗證AI小資料高效與自主航天可行,為未來的太空漫遊鋪路。
剛剛,一項最新關於AI「駕駛」宇宙飛船的研究剛釋出就火了!
在由Kerbal Space Program衍生的航天挑戰賽中,MIT等研究團隊讓ChatGPT作為「主控」智慧體,竟然一舉奪得第二名。
這項比賽被視為太空探索自主化的重要實驗場,而AI的表現,也預示著「AI開飛船」或許比我們想象的更近!
或許,太空漫遊2027真的可以成為現實!圍繞地球的衛星、太空垃圾未來都可能由AI自主執行和處理。

研究團隊並沒有重度訓練模型,而是巧妙地用提示詞工程+少量微調,就讓ChatGPT成功駕馭複雜的太空任務:追擊衛星、規避偵測……樣樣精通。
整個系統由文字狀態輸入→語言模型決策→程式碼執行三步組成,展現出LLM模型強大的泛化與適應能力。
MIT和馬德里理工大學這一研究論文已被《空間研究進展》(Journal of Advances in Space Research)接收,即將發表。

論文地址:https://arxiv.org/pdf/2505.19896
研究亮點速覽:
-
ChatGPT用文字指令完成飛船導航、控制決策,表現遠超預期;
-
研究無需大規模訓練,充分利用LLM已有知識與語言理解;
-
雖仍有「幻覺」等風險,但自主化航天已從幻想變為可行路線。

AI自主開飛船上太空
研究人員長期以來一直致力於開發用於衛星控制和航天器導航的自主系統。
未來的衛星數量實在太多,人類無法全部手動進行控制。
而對於深空探測來說,光速的限制意味著我們無法即時直接控制航天器。
如果我們真的想要在太空領域拓展,就必須讓機器人自己做決定。
為了鼓勵創新,近年來航空研究人員建立了《Kerbal Space Program》博弈挑戰賽。

這是一類基於廣受歡迎的《Kerbal Space Program》電子遊戲的試驗場,讓研究社群在一個(某種程度上)真實的環境中設計、試驗和測試自主系統。
《Kerbal Space Program》(KSP)最早是由墨西哥工作室Squad開發的一款太空飛行模擬影片遊戲,於2015年釋出。

儘管它是一款遊戲,但透過新增模組(mod),它可以被用作模擬環境,這些模組可以增加諸如更真實的物理效果等新功能。
儘管KSP並未提供對現實的完美模擬,但其精確的軌道力學機制受到了讚譽,甚至與NASA建立了合作關係,使其地位超越了一款普通遊戲。
該模擬環境被限制為一個二體問題,並且僅限於少量行星,最常見的情況是隻有一個名為Kerbin的類地行星。

該挑戰賽包含多個場景,例如追蹤並攔截衛星的任務以及規避探測的任務。
研究人員決定使用LLM,因為傳統的控制方法需要經過多輪的訓練、反饋和改進。
但Kerbal挑戰的本質是儘可能逼真,這意味著任務僅持續數小時。
因此,不斷改進模型將變得不切實際。
LLM之所以如此強大,是因為它們已經接受了大量人類寫作文字的訓練。
因此在最佳情況下,它們只需要少量精心設計的提示工程和幾次嘗試,就能為特定情境獲取正確的上下文。
但這樣一個「對話」模型真的可以駕駛宇宙飛船嗎?

用GPT和Llama開飛船
首先介紹一下KSP挑戰中需要解決的問題,智慧體透過推力發動機控制航天器在所有三個旋轉軸(偏航、俯仰和滾動)上的運動。

動作是在航天器的參考系下表達的,包括每個軸的推力大小以及施加推力的持續時間。
KSP挑戰包含以下三種場景:
-
追擊者-逃逸者:智慧體控制追擊者。主要目標是使追擊者與逃逸者之間的距離最小化。
-
目標守衛:智慧體控制劫匪航天器靠近航天器。
-
遮擋太陽:智慧體旨在將航天器定位在逃逸者與太陽之間。本研究的討論範圍只有「追擊者-逃逸者」範疇。

在追擊者-逃逸遊戲的不同場景中,逃逸者的初始軌道在所有場景中保持不變,而追擊者的初始軌道則有所變化。
追擊者和逃逸者具有相同的飛行器引數。
評估指標包括追擊者與逃逸者之間的距離(米)、最近接近時的速度(米/秒)、追擊者燃料消耗量(千克)以及經過的時間(秒)。
明確了任務,讓我們具體看看GPT和Llama是怎麼開飛船的,該研究探索了兩種路線:

1. ChatGPT+微調
選用GPT是因其易於使用,重點使用微調模型策略。


2. Llama+提示詞工程
選用Llama則是由於其社群支援和開源靈活性,使用提示工程進行主要研究路線,並進行簡單微調。



研究人員開發了一種方法,用於將航天器的給定狀態及其目標以文字形式進行翻譯。
然後,他們將其傳遞給LLM,並要求LLM提供如何調整和操控航天器的建議。
研究人員隨後開發了一個翻譯層,將LLM基於文字的輸出轉換為可操作模擬飛行器的功能程式碼。
研究透過生成多個軌道的示例,用於收集Llama訓練資料。

研究還給出了軌道資料生成的虛擬碼。

透過一系列簡短的提示和一些微調,研究人員讓ChatGPT完成了挑戰中的許多測試任務,並且它在最近的一場競賽中最終獲得了第二名。

Llama竟然打敗了GPT
有趣的是,OpenAI的微調API需要定製,但它提供的工具非常有限,尤其是與Llama相比。
因此,GPT訓練的效果在很大程度上取決於資料的數量和質量,以及某些調整(特別是超引數),其中LRM的影響最為顯著。
思維鏈方法的應用顯著提高了飛船駕駛技術在追擊問題中的泛化能力,併成功引導模型實現了執行過程中的0%失敗率。

Llama的結果遠超研究人員預期。
該模型不僅遵循了一條穩定的順行軌道,而且在KSPDG挑戰中表現優於幾乎所有其他方法。

需要強調的是,基礎的Llama模型比GPT模型取得了更好的結果。
然而,考慮到Llama-3是與GPT-4競爭的模型,而非研究中GPT方法中使用的GPT-3.5,這一結果是在預期之內的。
(果然即使是研究人員也燒不起API的錢,開源這一點確實促進了生態的發展)

研究團隊表示,這次研究發現結果非常令人滿意。
軌道生成和智慧體整合表明,使用AI構建訓練場景可以作為一個出色且簡單的模擬引擎替代方案。
雖然這個研究還屬於早期,並且使用模型也不是目前最新的頂尖AI模型,但這個研究探索本身就很有啟發意義。
未來我們不僅要競爭地面資源,太空資源也成為了新時代的「兵家必爭之地」。
馬斯克的星鏈計劃已經開始搶佔地球的低空軌道資源。

根據目前的資料統計,截止2025年上半年,在軌的星鏈衛星已經突破了6500+。
這是一個非常龐大的數量,雖然現在星鏈的執行只是按照既定軌道,少量需要人類干預,未來呢?

單純靠人來控制這些衛星完全不夠,也不現實。
所以這個研究如果真的能夠讓LLM來控制太空飛行器,那麼將顛覆未來的太空競賽生態。

在美劇《太空部隊》中編劇設想了一個場景:
中國的空間站飛行到美國衛星上方時,運用機械臂將美國衛星的翅膀給剪了下來。
然後,美國的衛星就變成了太空垃圾。

除了編劇的「惡趣味」以外,AI上太空開飛船的場景還有很多,比如《特種部隊2:全面反擊》中太空鎢棒武器。

或者是《火星救援》中的遠航小隊,如果有了足夠智慧的AI,就不用冒險再返回拯救馬特達蒙,人類派出AI就夠了。

這些場景未來還有很多很多。
甚至,最近矽谷投資彼得·蒂爾透露馬斯克說要放棄殖民火星的夢想。還在採訪中說「2024年是埃隆不再相信火星的一年。」
馬斯克的轉變是受到他與谷歌DeepMind CEO Demis Hassabis的一次談話影響。
兩人討論了人工智慧和星際旅行哪個會成為世界上最重要的技術進步。
據報道說,在Hassabis告訴他「你知道我的人工智慧將能夠跟隨你去火星」後,Elon沉默了。

不管老馬因為什麼原因對火星失去信心,但是如果AI真的能夠自主駕駛宇宙飛船,也許可以幫助他繼續殖民火星的夢想!

可以設想一下,未來進行這種太空攻防對抗、互助救援和殖民外星球的背後,不僅僅比拼人的水平,還有AI的能力——誰家的AI更聰明、更智慧。
畢竟,在太空探索的背景下,人類的一生還是太過於短暫,也許只有AI能扛過時間的侵蝕了。
人類終將沉睡於時光的塵埃,而AI,或許是那唯一能在深空中繼續訴說文明故事的見證者。
——ChatGPT

參考資料:
https://arxiv.org/abs/2505.19896

