具身智慧，騰訊「低調入局」

人類對機械智慧體的渴望，從青銅鍛造爐一直延續到了 2025 年的 WAIC。

作者｜連冉

編輯｜鄭玄

早在 2700 年前的古希臘神話中，工匠之神打造的青銅巨人 Talos，已經在克里特島上巡視、守衛領土。它擁有自主意識，被視為「最早的安保機器人」。

騰訊首席科學家張正友用這個故事作為演講的開場，人類這種對機械智慧體的渴望，從青銅鍛造爐一直延續到了今天的實驗室。

這種渴望在今年的世界人工智慧大會（WAIC）上，尤其強烈。

機器人領域尤其是人形機器人成為了絕對的焦點。世博展覽館二樓 H3 館尤為震撼，匯聚了包括上海智元、傅利葉、杭州宇樹科技、深圳樂聚、北京人形機器人中心等十餘家公司的超百臺人形機器人。

當人形機器人以前所未有的熱度席捲科技圈，幾乎所有目光都聚焦於那個越來越像人的「新物種」時，騰訊 Robotics X 實驗室卻選擇了一條看起來不那麼「時髦」的路。

圖片來源：騰訊

7 月 27 日，在 WAIC 2025 騰訊論壇上，他們正式釋出了具身智慧開放平臺 Tairos，一個代號「鈦螺絲」的軟體平臺。這是這家巨頭在長達七年的前沿探索後，對產業階段、自身定位和未來路徑的一次深度思考與戰略選擇。

機器人的「iPhone 時刻」遠未到來

「現在的機器人行業大概處在什麼階段？」

面對這個問題，騰訊首席科學家、Robotics X 實驗室主任張正友的回答很剋制：「我覺得甚至其實還沒到『大哥大』時代。」他認為，行業的「iPhone 時刻」遠未到來，甚至可能還看不到 iPhone 的影子。

這個判斷，是理解騰訊如今所有選擇的邏輯基礎。

時間拉回 2018 年，Robotics X 實驗室剛剛成立。張正友坦言，那時行業一片荒蕪，甚至找不到一家成熟的機器人本體廠商可以合作，團隊不得不從硬體到軟體進行全棧自研。

從多模態四足機器人 Max 到輪腿式機器人 Ollie，再到人居環境機器人原型「小五」，這些一度令人驚豔的硬體原型，更多是實驗室為了驗證和牽引技術研發而「開的坑」。它們是研究載體，而非產品線上的商品。

2023 年成了分水嶺。

大模型的浪潮讓具身智慧一夜之間從學界、業界走向公眾，資本和創業者蜂擁而入，機器人硬體公司瘋狂湧現。

騰訊團隊在走訪了全國超過六十家機器人企業後發現，一個巨大的市場缺口正在顯現：大量企業能將硬體本體打磨得非常出色，但在軟體和智慧上的投入卻不足，因為這是一個需要長期、巨大投入的無底洞。

具身智慧的落地是一個極其複雜、環環相扣的系統工程。從需要巨大投入的基礎模型，到效率低下、成本高昂的場景資料採集，再到缺少流程化工具的訓練模擬，以及令人「頭大」的真機部署和升級，每一個環節都藏著不少「坑」。

市場的需求變化，讓騰訊看到了新的可能性。既然行業的「黑莓時代」才剛剛開始，探索各種可能的硬體形態是所有玩家的必修課。那麼，與其過早下注某一種具體的機器人形態，不如退後一步，為所有「探索者」提供通用的「平臺」和「開發工具」。

圖片來源：騰訊

這便是 Tairos 平臺的由來。張正友反覆向媒體強調「產品化」與「商業化」的區別。「我們是不賺錢的，『鈦螺絲』這個平臺不是以賺錢為目的。」

他透露，實驗室成立七年來一直不以收入為目標，這是一項著眼於未來的技術儲備和戰略投資。

在張正友看來，真正的智慧，必須是身體與智慧的緊密結合、和諧交融。機器人的「心」（智慧）必須知道「身」（本體）的狀態。

這種「身心合一」的追求，對應他提出的一個關鍵技術理念——IPDE（Integrated Physical-Digital Embodiment），即「虛實整合智慧體」——虛實世界和真實世界的無縫結合。」

機器人可以在數字世界裡「想象」或「模擬」一個動作，預判其在真實世界執行的後果。如果想象的結果與真實執行的預期偏差很大，那麼機器人就必須修正自己的規劃。這種在虛擬中預演、在現實中修正的迴圈，正是實現「身心合一」的技術路徑。

這種哲學思考並非一時興起，而是張正友長期個人修行的沉澱。他談到自己正在第四遍翻譯《道德經》，「每翻譯一遍，重新看一遍，我都有不同的啟發。」

而現在，時機成熟了，是時候將這些前沿的科研成果，變成一個可以賦能行業的標準化產品了。

解構 Tairos：為機器人注入

「左腦、右腦和小腦」

如果說行業的共識是為機器人打造一個聰慧的「大腦」，那麼 Tairos 的目標就是成為那個可以被靈活呼叫的「外腦」。它的核心設計理念是模組化與完整性。

「每一個廠家可以選取他自己想要的模組，」張正友解釋道，「比如他的感知做得很好，那就不需要我們的感知模組。如果規劃做得不夠好，那就用我們的規劃模組。」這種靈活性，大大降低了廠商的研發門檻。

這個「大腦」由三個核心模型和一套雲端服務構成，分別扮演著不同的角色。

右腦：多模態感知模型——讓機器人看懂 3D 世界這個模型致力於讓機器人真正理解自己所處的物理環境。

但張正友指出，這不僅僅是拍張照片然後重建 3D 模型那麼簡單。「很多 3D 建模是『死』的，所有東西都連在一起，」他解釋說，「但機器人需要知道，這個杯子是可以被抓取的，它是一個獨立實體。」Tairos 的感知模型致力於構建一個可互動的、語義化的三維世界地圖。

此外，它試圖擺脫當前主流 VLA（視覺-語言-行為）模型對海量 2D 影像資料的過度依賴。張正友認為，2D 影像缺少 3D 世界的深度資訊，導致資料需求量極大。「從 3D 角度看，一個杯子我只需要一個 3D 描述就夠了，資料效率會高很多。」

左腦：規劃大模型——讓機器人理解任務並思考如果說感知是「看懂」，規劃就是「理解」和「思考」。這個模型能讓機器人理解複雜的指令，並將其拆解成一個個可執行的步驟。

騰訊方面的資料顯示，在複雜的長序列人機互動任務中，該模型的成功率達到了 80%，超過了 GPT-4o 等領先的閉源系統。

張正友認為，僅靠文字訓練的大模型在物理世界規劃上存在天然缺陷。「現實世界很多東西是無法用文字描述的，比如地面的花紋、摩擦力，」他舉例說，「動物沒有語言，但它們依然能在 3D 世界裡很好地生存、覓食。」這說明，對物理世界的深度理解，是比語言更底層的規劃基礎。

小腦：感知行動聯合大模型——打通「看見」到「做到」這是最關鍵的閉環，負責將「思考」轉化為精準、安全的物理行動。近來，一些機器人失控的案例恰恰暴露了這一環節的脆弱，比如一個機器人被懸空吊起後瘋狂亂動——張正友分析根本原因在於機器人缺乏對自身狀態的感知——它不知道自己雙腳已離地，沒有了摩擦力，卻仍在執行地面行走的動作模式，從而導致失控。

Tairos 的「小腦」模型，正是要將力覺、觸覺等多模態感知資訊融合進來，形成對物理規律的深度理解，從而讓行動更智慧、更安全。

除了三大模型，Tairos 還提供了一整套雲端模擬平臺和開發工具鏈。透過騰訊遊戲級別的 3D 場景生成技術，開發者可以在雲端高保真環境中一鍵驗證演算法，解決傳統模擬工具部署複雜、場景單一的痛點。

超越人形熱：探索人機共存的更優形態

在 WAIC 論壇現場，搭載了 Tairos 平臺的宇樹 G1 機器人與張正友的互動，成為了平臺能力最直觀的證明。

當張正友說「到我身邊來」時，機器人自主規劃路徑並準確地停在他身旁；當被問及「講臺上有什麼」時，它能清晰地回答「一個電腦，一束花，兩個麥克風」。

整個過程全部由演算法驅動，沒有任何人為遙控。現場一位工作人員透露，由於是即時演算，機器人每天的回答和表現都可能不一樣，充滿了演算法帶來的「驚喜」。

儘管人形機器人是當下的絕對主角，但張正友對此卻保持著審慎和開放的態度。他認為，過早地將終極形態鎖定在「人形」上，可能會限制行業的想象力。

他給出了三個理由：

效率問題

人類的進化形態是為了適應數百萬年前的複雜自然環境，但在現代人居的平坦環境中，雙足行走的效率並不高。這正是騰訊早期探索「輪腿一體」機器人 Max 和 Ollie 的原因，他們追求的是效率，而非單純的仿生。
想象力限制

以人為藍本，會不自覺地限制技術潛力的發揮。「人不可能進化出一個螢幕，」他舉例道，「但機器人可以。透過螢幕，資訊傳遞速度可以比語音快幾倍，為什麼不利用這些現代技術呢？」
本體探索仍需過程

什麼才是最適合人居環境的機器人形態？這依然是一個開放性問題。因此，Tairos 平臺的設計是本體無關的，無論是雙足、四足還是機械臂，都可以接入並獲得其賦能。