
從ChatGPT 以驚豔之姿闖入大眾視野,到DeepSeek驚豔全球,人們不斷驚歎於大語言模型的強大能力;緊接著,2025 蛇年春晚舞臺上,機器人扭秧歌的精彩表演又掀起一陣科技狂潮。從智慧對話到靈活起舞,這背後都繞不開一個關鍵領域 —— 具身智慧。在科技飛速迭代的當下,具身智慧如何突破發展瓶頸?又將如何重塑我們的未來生活?
讓我們翻開清華大學全球創新學院院長、自動化系教授兼博導劉雲浩的新書《具身智慧:人工智慧的下一個浪潮》,探尋其中的奧秘。


最近,大語言模型的熱潮席捲了整個技術界,也迅速與具身智慧領域緊密結合。有人形象地說,引入大模型就像是給機器安裝了一個新的大腦,似乎只要將其簡單地嵌入,就能賦予機器全新的生命力。
先來說“加 buff(增益)”的地方。
首先,大語言模型能夠幫助智慧體與人類以自然語言進行交流。人類能夠直接說出任務要求,大模型能夠對此進行編碼並得到更加方便機器進行處理的語義表示形式。同樣,大模型也能夠根據智慧機器當時的狀態生成自然語言,反饋給人類。這正如我們所看到的Figure 01 機器人與人類使用者對話交流並執行任務的過程。

其次,大模型能夠提供一些解決問題的“常識”,或者說高層次的語義指導。例如,如果我們問它:“如何把大象裝進冰箱?”大模型可能會輸出:“拉開冰箱門,把大象放進去,關上冰箱門。”我們姑且不論這個方案的可行性如何,大模型確實是能夠將解決問題的完整過程拆解成多個子步驟並且給出一個執行方案的。因此,大模型具備成為優秀的行動規劃器的潛力。
最後,多模態大模型,例如預訓練的視覺—語言模型(Visual-Language Models,VLMs),能夠為智慧機器進行多模態感知和認知提供更為通用的選擇。例如,CLIP 能夠將視覺資訊和文字對映到統一的表徵空間,使得機器能夠直接以視覺資料作為輸入。3D-VLA 提出了一種新的三維視覺—語言—動作模型,它透過引入一個生成世界模型來無縫連線三維感知、推理和動作。與現有的基於 2D 輸入的 VLA 模型不同,3D-VLA 更加貼近現實世界的 3D 物理環境。
當然,除了生成自然語言,大模型在未來也是能夠生成可用的程式碼的。Code as Policies 透過訓練大語言模型來為機器編寫策略程式碼。給定自然語言的指令,大模型生成一段程式碼,然後這段程式碼就可以在智慧機器上執行,持續接收感測器的輸入並輸出行動指令。有研究證明,這種生成程式碼的方式比直接生成行動規劃要更好。VoxPoser 也是使用了大模型來生成程式碼,然後這個程式碼與前面提到的視覺—語言模型進行互動,為後續的動作規劃提供資訊。


接下來我們說說當前遇到的挑戰。大模型的一個顯著缺陷就是缺乏現實世界中的經驗。還是剛才說的,如果我們給大模型一個“把大象裝進冰箱”的任務,它可能會正兒八經地生成一段邏輯上合理的指導,卻不會思考這樣的步驟是否真的能實現。
為解決這一問題,谷歌的一項研究SayCan 提出使用預訓練技能,為模型提供現實世界的知識基礎,這樣大語言模型輸出的內容就被約束在這些預訓練技能對應的範疇內。這種方法有點類似於我們為大模型準備好了很多能夠執行的 API(應用程式程式設計介面),然後大模型透過呼叫它們完成行動。在這種配置中,智慧機器充當模型的“手和眼”,執行具體任務,而大語言模型則負責提供關於任務的高階語義指導。GLiDE 嘗試在大模型的語義和智慧機器在物理世界的行動軌跡之間建立關聯,這個過程使用了人類的演示資料,這樣系統就能夠將自然語言的任務指令翻譯為機器的具體行動序列。
剛才討論的一些方法很多都是利用其他應用領域預訓練好的大模型,因此需要進行額外的“接地”操作,即從大模型輸出的符號(語言、程式碼等)轉換到物理世界的行動。而谷歌的 RT 系列大模型,透過端到端的訓練一步到位輸出行動序列。在 RT—1 中,谷歌科學家首次提出一個模型類,叫作 Robotics Transformer(RT)。RT—1 的設計思路秉承了大模型“力大磚飛”的理念,也就是說,模型容量大,可以吸收大量的各類資料,也可高效地泛化。
之後的RT—2 似乎不滿足之前的訓練力度,於是將基於網際網路規模資料訓練的一個視覺—語言模型直接整合到端到端機器人控制中,進一步提升模型的泛化能力。
而2024 年新推出的 RT—H 開始走分層路線,提出行動層級(action hierarchy)的概念,將複雜任務分解成簡單的語言指令,然後將這些指令轉化為機器人的行動,以提高任務執行的準確性。
例如,以“蓋上開心果罐的蓋子”這一任務和場景影像作為輸入,RT—H 會利用視覺—語言模型預測語言動作,如向前移動手臂和向右旋轉手臂,然後根據這些語言動作,輸出具體的機器行動。這個過程允許人類的干預,人 類的修正也能夠幫助機器進行學習。
可以這麼說,大模型作為目前人工智慧領域的一個方法論,必將成為具身智慧發展的重要推動力。我們有理由相信,不久的將來,具身智慧體將具備執行通用任務的能力和強大的學習能力,它們將能夠更深入地理解我們的世界,並以前所未有的方式參與其中。
至少,在回答“如何把大象裝進冰箱”這一問題時,一個“充滿人性”的具身智慧體可能會這樣回答:“首先,我們需要確認大象是否有意願被關進冰箱裡;其次,考慮到大象的體量,我們可能需要一個特製的大型冰箱;最後,確保在關上冰箱門之後,大象擁有足夠的空間和舒適的環境。”


2025 年的科技圈中,如果有誰還沒聽說過 DeepSeek, 那麼就等於被時代拋在身後了。這款由中國團隊“深度求索”(DeepSeek)研發的大語言模型,憑藉“技術突破、低 成本與開源”的組合策略,迅速成為全球 AI 領域的新焦點。
DeepSeek 之所以能在短時間內爆火,首先要歸功於它對 AI 技術平權的推動。DeepSeek v3 僅用 GPT—4 大約十分之一的訓練成本,就達到了與後者相當的效能。這種“以小博大”的低成本模式為更多中小型團隊帶來了希望,讓AI 從原先的“巨頭玩具”轉變成“大眾工具”。DeepSeek R1 公佈後,不少研發團隊受其啟發,紛紛借鑑 R1 的技術路線,以更易負擔的成本研發大模型,就好像“拼多多”在電商領域用低價策略開啟市場一樣,DeepSeek 同樣憑藉開源和成本優勢,迅速拉近了普通人與尖端 AI 的距離。
除此之外,DeepSeek 的開放生態也產生了強大的“滾雪球效應”。透過開放核心技術,DeepSeek 為全球開發者提供了協同改進模型的機會。這種與維基百科類似的模式不僅加速了技術迭代,而且還允許企業在本地或私有云環境中部署自己的 DeepSeek 例項,從而降低對 OpenAI 等廠商的依賴。在這種“你中有我、我中有你”的生態裡,新功能和新技術能夠快速孵化,最終反哺整個 AI 產業。正因如此,DeepSeek v3 和 R1 一經推出,各路服務商便紛紛宣佈對其進行整合或給予支援。
當然,資本市場對 DeepSeek 的追捧也為其知名度的提升推波助瀾。自 2025 年 1 月開始,AI 概念股一路飆升,中證軟體指數更是在短短數週內上漲 23.1%,與 DeepSeek 相關的公司獲得了資本的“熱捧”。更具戲劇性的是,DeepSeek 在 2025 年 1 月底因過度火爆而遭遇了國家級對手的 DDoS(分散式拒絕服務)攻擊。有人調侃,這是對 DeepSeek 實力的另一種“官方認證”,更進一步印證了它引發的巨大影響力。
DeepSeek 的崛起並不是一次簡單的技術升級,而是一場可能改變行業規則的“地震”。傳統大模型訓練往往動輒耗資數千萬美元,而 DeepSeek v3 採用 FP8 混合精度訓練等創新手段,將單次訓練成本壓到約 550 萬美元,讓人們第一次看到了“以經濟艙價格享受商務艙服務”的可能。與此同時,DeepSeek 的全面開源也打破了閉源模型長期以來的壟斷地位,為醫療、教育等垂直領域的中小公司帶來“二次開發”的機遇,從而催生了一場類似於安卓系統之於手機行業的變革。更引人注目的是,DeepSeek R1-Zero 還是首個完全基於強化學習訓練的大模型,這意味著它能夠像小朋友學騎腳踏車那樣,透過試錯完成自我迭代和進化,逐漸擺脫對人工標註資料的嚴重依賴。
隨著DeepSeek 的步步崛起,中美之間的 AI 競爭格局也受到了影響。美國企業更傾向於依賴 GPU 晶片等硬體優勢,以大算力硬扛大模型的方式來開拓技術前沿陣地。相 比之下,中國團隊則更加註重模型壓縮、演算法最佳化等“以巧取勝”的策略,這種“技術瘦身”繞過了對高階算力的 嚴重依賴,也拓寬了 AI 落地場景的廣度。DeepSeek 的成功證明,不總是需要頂尖算力,透過工程和演算法創新,也可能在 AI 領域取得突破。與此同時,生態模式的分歧也日益明顯。如我們在“大模型的困局”中所述,科技巨頭大多偏向閉源,牢牢掌控技術話語權,但 DeepSeek 所倡導的開源生態,吸引著全球眾多開發者加入“技術共同體”。這種 自下而上的“群眾路線”不僅能不斷豐富 AI 應用場景,還可能瓦解傳統巨頭建立起來的護城河。這種競爭態勢的轉 變,本質上是基礎理論創新與應用落地兩種發展路徑的碰 撞,而中國在智慧製造、智慧城市等領域的深厚產業基礎, 正在為 AI 技術提供得天獨厚的試驗場。
當我們站在AI 開始全面走入普通人生活的開端展望未來時會發現,DeepSeek 依然有漫長的道路要走。它目前的重點在於文字處理,未來可能會擴充套件至影像、影片等多模態領域, 向真正的“全能型 AI 助手”進化。同時,透過邊緣計算技術, DeepSeek 或許能在智慧手機、AR(增強現實)眼鏡等裝置上實現離線翻譯、即時 AR 導航等功能,讓更多人真正體驗到“AI 飛入尋常百姓家”的便利。更深遠的影響或許在於,以DeepSeek 為代表的開源大模型可能像雲計算重構 IT 基礎設施那樣,透過開源社群構建 AI 時代的“水電”網路,讓開發者如同呼叫電力般便捷地使用 AI 技術。
前進的道路上依然存在不少挑戰。資料安全與隱私保護的衝突仍需謹慎應對,國際政治環境帶來的風險也不容小覷。但就像蒸汽機拉開工業革命的大幕,DeepSeek 所代表的 AI 平民化趨勢,很可能正在開啟智慧時代的大門。
DeepSeek 的崛起不僅僅是一家中國企業的逆襲之路, 更是 AI 技術實現民主化的重要里程碑。它用開源去挑戰壟斷,用低成本推動普惠,用工程智慧彌補算力短板,而這場“破圈”革命帶來的意義,恰如網友所戲稱的“過去 AI 是‘神仙打架’,現在終於輪到凡人修仙了”。我們都將是親歷者與見證者。
– END –
作者 劉雲浩|開白名單 duanyu_H|投稿 tougao99999
作者簡介:清華大學全球創新學院院長,清華大學自動化系教授、博導。