Meta釋出40頁報告,具身智慧的下一步是「心智世界模型」:能聽,能看,能理解,會共情

henry 發自 凹非寺量子位 | 公眾號 QbitAI
最近Meta動作頻頻。一邊是老闆小扎親自下場,豪擲一億美金挖人。
另一邊,自傢俱身智慧研究同樣也憋了個大的,40頁長文報告。
除了LeCun老生常談的世界模型外,最讓人眼前一亮的就是:
這篇報告第一次把對人心智狀態的推斷,放到和物理世界模型(physical world model)同等重要的位置上,並將其概念化為心智世界模型(mental world model)
相比於傳統世界模型(如LeCun的JEPA)僅關注物理規律(物體運動、機械因果),心智世界模型則首次將心理規律(意圖、情感、社會關係)納入世界模型框架,實現“雙軌建模”。
不得不說,Meta還是太超前了!

從物理世界模型到心智世界模型

眾所周知,在Lecun的帶領下,Meta對大模型頗有微詞,在這次報告中也不例外:
大模型雖然很強,但太臃腫,缺乏效率,也缺乏抽象推理能力。
就像我們回家開門的時候,並不會在腦子裡預測門下一秒的每個畫素,而是會關注門的狀態(開關)和鑰匙孔的位置,並作出相應的動作,如找出鑰匙,完成進門這項任務。
因此,要建構像人類一樣的具身智慧體,就需要世界模型從感知中抽象出有用的資訊來理解環境,再進行推理、規劃,採取行動。
那麼問題來了,什麼才叫有用的資訊呢?
這裡,報告將世界模型所需要的資訊分為了兩類。一類是物理世界模型所需要的資訊,其中包括:
物體及其屬性(例如:形狀、大小、顏色)
物體之間的空間關係例如:鄰近性、距離)
環境的動態變化(例如:運動、時間上的變化)
基於物理定律的動作與結果之間的因果關係
另一類是心智世界模型所需要的資訊,包括:
目標和意圖(包括其動機、偏好和價值觀)
使用者的情緒和情感狀態,以及理解這些情緒如何影響行為
捕捉社會動態,包括個體、群體和機構之間的關係,以及文化規範、習俗和期望
理解言語和非言語交流,包括語言、語調、肢體語言和麵部表情
物理世界模型的作用我們都很熟悉。比如知道牛頓定律,具身智慧體就能預測未來環境中物體的運動。
例如,一支筆從桌邊掉落將會做自由落體運動,智慧體就需要在筆摔到地上前及時接住筆。
那為啥還需要心智世界模型呢?
對於人類來說,心智世界模型就是對世界的心理表徵的過程,包括對物體、事件和關係的表徵。
它使人類能夠模擬情境、預測結果、進行反事實和因果推理,從而做出更明智的決策。
例如,我們說小明在漢堡店收到了一份烤糊了的漢堡,他氣沖沖地離開了漢堡店,並沒有交錢。
那麼根據心智世界模型,我們就可以合理推斷,小明並沒有吃下那份漢堡。
因此,為了更好地協助和與人類合作,智慧體就必須學習人類的心理狀態,理解人類的行為模式和文化慣例。
為了實現這一點,就需要心智世界模型來表徵人類使用者或其他AI智慧體的心理狀態。
透過表徵、理解這些心理狀態,具身智慧體就可以
預測使用者的目標和意圖,使智慧體能夠主動提供幫助或指導,幫助使用者實現其目標推斷信念差異,並預測持有錯誤信念的人該如何行動預測情緒反應,從而調整策略,更好的滿足使用者的需求
這將大大提高人機互動和多智慧體互動的效率和舒適性。
那我怎麼知道這玩意不會瞎猜心思,搗亂,幫倒忙呢?
對此,Meta設計了一系列的benchmark來測試具身智慧體的效能。
可不幸的是,以目標推測為例,在第一視角多模態目標推理基準(Egocentric Multi-modal Goal Inference Benchmark)上,視覺-語言模型的成功率只有55%,遠遠達不到使用水平。
沒錯,路還很長。

世界模型的未來

雖然當下的表現很“慘淡”,但物理(心智)世界模型仍然是一個有前景的方向。
為了實現這一點,Meta在報告裡指出:
要讓AI具備真正的自主學習能力,必須把系統A觀察學習(Learning by Observation)和系統B行動學習(Learning by Action)結合起來。
系統A從大量感知資料中學習抽象表示(比如自監督或無監督學習)。
它的好處是能高效學習出通用、抽象的表徵,對後續任務有幫助。
但缺點是需要大量乾淨的資料,不知道自己該學什麼,學到的東西也很難和實際行動結合,往往只能停留在“看懂”,不一定“用得上”。
系統B是透過探索和試錯來學怎麼做事,比如強化學習。
它的優點是和實際行為直接相關,能適應動態環境,也可能發現全新方法。
但缺點是效率很低,需要大量試驗才能學會簡單任務,在複雜情況下容易卡住,還特別依賴明確的獎勵訊號,而現實裡往往沒有現成的獎勵可用。
簡單來說,系統A擅長從大資料中提煉知識,但不會“動手”;
系統B擅長探索和行動,但學習效率低。
透過有效地整合兩者,由系統 A提供抽象結構、先驗和壓縮表示,幫助系統 B高效規劃。系統B則透過主動探索收集更優資料,為系統A提供實踐驗證。
實現感知驅動行動,行動反過來豐富感知,推動AI系統的自主進步。

One More Thing

儘管心智世界模型當前的表現仍顯稚嫩,但它在多智慧體協作中的潛力不容低估。
它為多智慧體之間建立“共識心智”提供了理論支點:
讓每個智慧體不僅看到外部世界,還能推測他人的信念和意圖,形成比單一感知更高階的理解。
當不同的具身智慧體共同執行任務時,心智模型能幫助它們在不確定的環境中對齊目標,協調行動,甚至在衝突中尋找平衡。
這也是讓人機互動從機械執行邁向富有同理心和情境感的重要一步。
在這個意義上,心智世界模型或許不是一條輕鬆的路,但它為具身智慧打開了通往更復雜社會化形態的入口。
報告連結:https://arxiv.org/abs/2506.22355
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
專屬AI產品從業者的實名社群,只聊AI產品最落地的真問題

掃碼新增小助手,傳送「姓名+公司+職位」申請入群~

進群后,你將直接獲得:
 👉 最新最專業的AI產品資訊及分析 🔍 
 👉不定期發放的熱門產品內測碼 🔥
 👉內部專屬內容與專業討論 👂
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章