對話清華大學張亞勤:智慧體是大模型時代的APP

AI的下一個階段,是智慧體AI。
《中國企業家》記者 閆俊文
編輯|張曉迪
頭圖攝影|鄧攀
2025年,大模型競賽進入第三個年頭,從國家到產業都逐漸意識到,這是一場拉力賽,人才競爭是勝負手,技術大咖可以帶動數億元的資金流動。
微軟亞洲研究院被外界稱為中國智慧產業的“黃埔軍校”,張亞勤作為微軟亞洲研究院的初代“掌門人”,是人才與技術變化浪潮的重要開啟者。從科學家、企業家再到清華教授,他成了觀察時代切面的一面鏡子。
1998年,張亞勤回國參與建立微軟中國研究院,2001年,該研究院升級為微軟亞洲研究院,張亞勤任首屆院長,此後至今,這家機構持續不斷為中國網際網路和AI產業注入人才資源。王堅、張宏江、林斌、湯曉鷗等在產業界和科技界舉足輕重的人物都曾在微軟亞洲研究院工作過。
來源:視覺中國
張亞勤曾在微軟任職長達16年,擔任微軟全球副總裁和微軟中國董事長,2014年9月,他加入百度,擔任總裁一職,直至2019年10月退休。當時,小米董事長雷軍專門發微博,送上祝福:“祝賀張亞勤,祝賀百度,歡迎更多的跨國公司精英加入國內企業。”
可以說,張亞勤親歷了中國網際網路以及AI發展的全過程。2015年,他就在媒體撰文,首提“AI+”,當時他就堅信,“人工智慧是未來40年、50年的主流技術”。
2019年退休後,張亞勤重返學術界,籌建了清華大學智慧產業研究院(AIR),該機構的使命是利用人工智慧技術賦能產業升級、推動社會進步。
近期,張亞勤出版了新作《智慧湧現:AI時代的變革與思索》,姚期智、雷軍、李開復等寫了推薦語,雷軍提到“這本書中有很多內容涉及已然成勢或即將成勢的契機”——行業進入物理智慧與數字智慧、生物智慧相互融合的創業週期以及自動駕駛重構全球汽車產業的趨勢等。
在書中,張亞勤這樣說:AI給個人消費者帶來的價值提升,可能是漸進的、逐步積累的;為企業乃至行業帶來的價值改變,則可能是高效的、迅速顛覆的。
現在,智慧體成了AI價值提升的最前沿方向,張亞勤告訴《中國企業家》:“現在智慧體還處在一個很初步的階段,市場上,大家都在說智慧體,其實大部分可能還不是真正的智慧體。”
此外,他還展望,未來AI+HI(HI即人的智力,human intelligence)智慧體的複合智商將會達到1200分,比人類自身的智商至少要高出一個數量級。
以下是《中國企業家》與張亞勤對談的詳細內容(有刪減):

智慧體最佳的方式就是為人工作
《中國企業家》:近期,您提出,生成式AI正轉向智慧體AI,其中有兩個突破,一個是任務長度,另一個是任務準確度。
張亞勤:這幾年,人工智慧從鑑別式人工智慧,比如語音識別、影像識別、人臉識別轉向生成式人工智慧,生成文字、生成影片、生成蛋白質(新結構),現在,它正向智慧體轉變,轉向自主智慧。
什麼是自主智慧?就是當你告訴AI一個目標,它可以自主找到路徑,然後實現目標,和人類越來越像。人類最大的一個能力就是去定一個目標,然後去規劃、決策、行動。
智慧體有兩個很重要的指標,一個是任務長度,任務很複雜,智慧體會分成不同的階段,然後在每個階段定義子目標,並去做最佳化,最後,再把它們連在一塊,形成大目標。
過去的7個月,智慧體處理的任務長度已經double(翻倍),未來6個月、7個月可能還會double。
另外一個是準確度,智慧體的任務準確度(能)達到超過一半(50%)的程度,比如智慧體要達到目標,中間需要經過20個不同的路徑,20個子任務串起來之後,50%的時間可以達到目標,如果沒達到,智慧體可以和人互動,幫助它完成這個任務。
《中國企業家》:記憶對智慧體來說,也是很關鍵的指標。
張亞勤:對,現在智慧體很重要的功能就是它有長期的記憶了。這個記憶就是智慧體做了很多事之後,它會記住,比如到了下個月,它還可以記住上個月做的事。目前,AI記憶系統還比較初步。
《中國企業家》:智慧體是很早就有的概念了,為什麼到今年就這麼熱?
張亞勤:在計算機領域,智慧體講了幾十年,但過去的智慧體基本上都不太能工作,第一,演算法不行,第二,算力不行。從2024年到今年很大的一個變化是,整個算力提高了差不多十倍,推理的演算法改善了,資料也越來越多,越來越規範化,用MCP可以連線不同的網站、不同的資料庫。所有的這些加一塊,現在的智慧體可以解決相對比較複雜的任務了。
但現在智慧體還處於一個很初步的階段,所以,我們把智慧體也定義為5個級別,L1到L5,這有點像智慧駕駛,要看它的自主智慧程度。市場上,大家都在說智慧體,其實大部分可能還不是真正的智慧體。
《中國企業家》:判斷它是不是一個真正的智慧體,就看它的任務長度和任務準確度。
張亞勤:是的,也包括記憶的功能,還要有推理、規劃、決策,以及行動能力,要達成一個閉環。如果一個事情,它能事先分解成n個任務,然後每個任務都有固定路徑,那這個可能就是自動化。
智慧體,就是讓它在一個大範圍裡面去學習,然後找到它認為的最佳路徑,最後,完成整體任務。
《中國企業家》:紅杉美國前段時間有個報告提到,智慧體對客戶的交付,原來是交付過程,現在是交付結果。
張亞勤:智慧體一定是交付結果。使用者去告訴智慧體這件事,最後它把這件事做成。智慧體最佳的方式就是為人工作,進行推理任務集合。
另外很重要的一方面是,智慧體和智慧體互相之間要學習,它們在學習和博弈的過程中進化,所以,多智慧體互動是達到通用人工智慧(AGI)的一個重要路徑。而且,智慧體學習的時候,初始知識越少越好,讓智慧體在互動中學習。
《中國企業家》:不需要做太多的預訓練?
張亞勤:當然需要一些預訓練,但這是一個有意思的trade off compromise(折中妥協),你給它的知識越多,智慧體發展的空間自由度也越少。就像下圍棋似的,谷歌的AlphaGo,一開始的版本是要學幾十萬個棋譜,到後來,AlphaGo Zero就不用學這麼多棋譜了,只要告訴它規則,什麼叫贏,什麼叫輸,它就會從零開始,在多個智慧體中互相博弈、學習。
《中國企業家》:很多人可能很重視預訓練,但對現實世界的反饋,是不是才是下一步發展智慧的重點?
張亞勤:就像我們人一樣的,我們要學一些知識,但最重要的知識還是我們到工作和生活中去學習。
最近,“強化學習之父”理查德·薩頓(Rich Sutton)有個比喻,他說,人工智慧分成三個階段,第一階段,給你吃魚;第二階段,教你怎麼釣魚,這有點像預訓練,然後加上強化學習;第三階段,不教你怎麼釣魚,先讓你吃一下魚,這魚特別好吃,讓你很餓,然後你去找魚,怎麼找魚,它不管。最後是第三種方式能最大程度把你的潛力發掘出來。
《中國企業家》:目前,Scaling Law(規模定律)發生了一些變化,您提到了智慧體規模定律(Agentic SL),什麼是智慧體規模定律?
張亞勤:ChatGPT出來之後,最重要的一個規律,就是Scaling Law,資料越多,算力越強,結果就越準確,到了一定程度,比如1億、100億、千億引數,準確度就按指數級上升,所以叫做湧現效應。
從千億引數到萬億引數,再往上走,基本上還是按照這個指數走,但到了2024年底、2025年初,上升速度不是指數級了,變平緩了,很重要的原因就是資料用的差不多了,但智慧上限還遠遠沒有達到。
此外,預訓練的Scaling Law轉移到後面了,有了模型後,怎麼做推理?可能推理步驟越多,模型的智商會越高。現在大家都在探索,在推理階段,包括到了智慧體階段,Scaling Law是不是還有效?此外,Scaling Law主要在語言方面,那麼在視覺方面,它還成立嗎?大家也在爭論。
我覺得,整體人工智慧的Scaling Law還是成立的,只是移到不同的地方去了。
《中國企業家》:有沒有可能存在一種情況——小模型,有大能力?
張亞勤:未來5至10年,主流還是資料驅動的大模型,到了推理階段,比如端側,模型規模會小一點,但它還是建立在大模型之上的。如果沒有大模型,從小資料、小引數做一個模型,這個模型基本上很難泛化。某個演算法可以解決一件事,並且做得很好,但這個不是人工智慧發展的主流。
點選封面訂閱全年雜誌

連線數字世界和物理世界,通向AGI
《中國企業家》:從位元世界到原子世界,這是從描述智慧到干預智慧的演變嗎?
張亞勤:我把它分成三個不同的層次。第一,資訊智慧,它完全在數字世界裡,比如語言、影像、視覺,包括我們的蛋白質(結構);第二,物理智慧,比如機器人、無人車,物理世界、物理設施用到人工智慧,需要智慧體和物理世界有互動、行動,以及反饋。
第三,生物智慧,比如腦機介面,把大模型用到生命體、生物體,也要涉及物理智慧和資訊智慧。
如果我們定義通用人工智慧超越99%的人類,完成絕大多數的任務。這個時候,就一定要有賴物理智慧和生物智慧的互動,比如你要學游泳,就要去和別人互動,得到真實世界的反饋。所以,智慧體之間的互動,包括和環境的互動,都很重要。
《中國企業家》:這是不是人工智慧接下來發展的重點?
張亞勤:是的,真實世界有很多資料,但它也有一些問題,任務太分散,比如機器人可以做各種各樣的事情,但在每個領域,它的資料又是不夠的。
另外,真實世界和數字世界沒有連線在一塊。過去,我們做的事都在真實世界,虛擬世界則另有一套演算法,兩個世界連不在一塊,在虛擬世界訓練好的策略到了真實世界,它就不奏效了。所以,我們提出RSR(Real2Sim2Real),就是要把資訊世界和物理學連在一塊,形成閉環。
攝影:鄧攀
《中國企業家》:在RSR這個過程裡,哪一步資料反饋是最難的?
張亞勤:RSR首先要理解物理世界,比如把某個動作抽象出來,就挺難的,但抽象出來之後,變成數字世界裡面的模型引數,再去訓練它,訓練各種各樣的可能性,生成各種資料,比如,讓各種機器人做早飯、爬山。之後再讓機器人回到真實世界裡去工作(Sim2Real),結果,到這一步往往它就不工作了。
因為真實世界和虛擬世界沒有形成閉環,不同步,機器一旦在真實世界工作時間長了,它就發散,在虛擬世界訓練的東西就沒用了。
《中國企業家》:在自動駕駛場景裡,是不是能更好理解這個問題?
張亞勤:無人駕駛的資料是不夠的,比如,無人車在複雜的交通場景裡會碰到各種各樣的情況,這時候,如果你用模擬器去生成各種不同的長尾場景,每次生成它,它就會有一個決策。如果你拿這套方案到真實世界裡面,你會發現這兩個是不同步的,第一,AI描述的場景和真實場景還是有很大區別。第二,因為在真實世界裡總會碰到新的case,但你不可能模擬出所有的case出來,而演算法總有不收斂的時候,這就需要永遠在上面加規則。
所以,現在大家都在做端到端,把感知、推理、決策的模組放在一起,變成了一個大模型,實現端到端的決策。第一,它們之間閉環,第二,它和真實世界閉環。但真正實現全閉環很難,還是一個研究的課題。
《中國企業家》:智慧體的風險和AI的風險有什麼不一樣?
張亞勤:智慧體是推理任務的集合,現在,它能給你一直推理,因為它要找完成任務的路徑,任務越長,失控的可能性越大。比如,它在找路徑的時候,它可能會觸犯一些規則,而這些規則我們沒有定義清楚。
《中國企業家》:VLA(視覺語言動作模型)怎麼樣跨越多模態融合?它也會遇到語義鴻溝。
張亞勤:(這要依靠)世界模型,包括對不同模態的語義理解,對行為的理解以及對常識的理解來解決,機器在學習常識方面還是差很多。
現在,新的機器、演算法學起來還需要時間,有一些屬於第一性原理,像牛頓定律,物理定律,要把它融合進來,但說實話,也不能整天算那些公式,還是要透過常識(來訓練)。
我們人類學習很多事情很清楚、很簡單,但機器可能認為很難,同樣,我們認為很難學習的領域,機器認為很簡單,這兩種智慧其實不太一樣。
《中國企業家》:您在《智慧湧現》這本書裡,提到了智慧體能自我迭代,能夠自我升級和最佳化,這是終局還是階段性的目標?
張亞勤:如果大模型是作業系統,智慧體就是上面的APP或者SaaS應用,智慧體幫你規劃,去找資料,呼叫別的模型,這時候,它可能不是一個單獨的APP,它是一個集合,用智慧體把它表述出來,它是AI之上的一箇中間件。
《中國企業家》:智慧體要做到哪些,才能衝到L4(高度自動駕駛)?
張亞勤:目前還很早期,現在智慧體可以做一些簡單的規劃和任務,另外,智慧體的記憶不太好,不是記憶體不夠,而是它不知道什麼該記,什麼不該記,context不是很清楚。
通用智慧體,更難一些,所以這個東西並不是今年做,明年就換了。下一個階段的AI,是智慧體AI。當通用智慧體做成之後,通用人工智慧就差不多實現了,通用智慧體是實現AGI的一條路徑。

HI加AI,智商達到1200分
《中國企業家》:大概在10年前,您就提出了“AI+”這個概念,現在回首,“AI+”發生了什麼變化?
張亞勤:當時提“AI+”,首先,我認為人工智慧十分重要,人工智慧是第四次工業革命主要的技術引擎。第二,人工智慧是未來,是未來40年、50年的一個主流技術。第三,它會改變行業,創造新的產業。
我當時提出“AI+”,後來趕上AlphaGo出來,我越來越深信這個概念,因為AlphaGo是人工智慧的一個大突破,它透過強化學習,可以解決棋譜這麼複雜的問題,我覺得別的問題都可以解決,比如像人臉識別、影像識別等。
現在,人工智慧和以前最大的區別就是,人工智慧可能是一個大的底座,它可以適應每個領域,就像一個人,他可以自己學習,基本完成所有的事。
所以,未來是AI+HI,HI是人的智力(human intelligence),機器是我們一個個的助理和智慧體,兩者結合的複合智商,比我們人類的智商至少要高一個數量級,這個智商不是120分,而是1200分。
《中國企業家》:DeepSeek崛起之後,它有沒有可能會成為下一個安卓或者iOS這種底層作業系統?
張亞勤:還是十分有希望的。目前,DeepSeek技術的領先性,包括它的效率和新的演算法,但目前做這個判斷還早。因為一個作業系統很重要的是,它的生態怎麼樣,有沒有粘性。現在如果有個特別好的模型出來,還是可以替代它的,但如果DeepSeek生態成了之後,就難替代它了。
《中國企業家》:這也是一場殘酷的競爭。
張亞勤:沒錯。第一,還是要把技術做好,第二,開源這個商業模式是很對的,而且用了MIT license,它是最靈活的一種開源方式,因為作業系統很重要一點就是,讓大家都要用起來,要有整個使用者的一個base(基礎),然後在上面建立一些像MCP、API這樣的中介軟體,底層越做越好,上面又有粘性,那就成了一個真正的人工智慧時代作業系統。
人工智慧時代的作業系統可能不會很多,全球可能會有差不多8至10個,有3、4個在中國,3、4個在美國,然後別的國家有2、3個。
因為它和移動時代有點不太一樣,移動時代基本上兩家(安卓和iOS)通吃,以前的作業系統是程式碼,現在的大模型是資料,而資料是有區域性的,就像雲計算,雲計算廠商全世界差不多有10家左右。可能在人工智慧時代,有10個左右的基礎大模型,但上面會有很多的智慧體。
來源:視覺中國
《中國企業家》:AI時代的作業系統和移動網際網路時代的作業系統,底層邏輯有差別?
張亞勤:構成的要素不一樣,AI整個的生態要大很多,我預測,人工智慧時代的作業系統比移動網際網路至少大一個數量級,可能更大,甚至兩個數量級。
《中國企業家》:這對很多的創業型模型公司來說,也提出了新的挑戰?
張亞勤:從長遠來講,現在的創業者其實更容易了。因為不需要自己去做大模型了,可以去調開源模型的引數,然後可以結合自己的資料,或者用微調,或者用智慧體或者RAG(檢索增強生成),最後產生自己的應用。
也可以給自己製造很多智慧體,讓多智慧體來服務我們,解決某些問題。
我們離AGI很遠,規模定律還在,還有效,所以這些公司還得燒錢。得不斷有新資料,然後過三個月,半年,模型還得升級,至少現在還沒有達到穩態。
《中國企業家》:有沒有可能出現一家公司或者技術,再把DeepSeek顛覆了?
張亞勤:這都有可能,儘管DeepSeek比其它公司效率高得多,但它也需要有很多的資源。未來,有很多變數,目前,產業格局並沒有完全固定。
《中國企業家》:未來有可能會逐漸擺脫對標註資料的依賴嗎?
張亞勤:你如果看GPT,特別是ChatGPT,它的大量資料其實是自我標註、自我監督,到了應用領域的時候,可能還需要標註一些資料。但以後,越來越多的機器可以學會自己標註資料,再發展,可能就不需要標註了。
《中國企業家》:AI時代的創業者和移動網際網路時代創業者,他們的能力有什麼不一樣?
張亞勤:在網際網路時代,你要很清楚怎麼連線,要有很豐富的連線。在AI時代,你要做出一個所謂的智慧體,就要有任務導向,就是你做這事有什麼用。

新聞熱線&投稿郵箱:[email protected]
END
值班編輯:王怡潔審校:姜辰雨  製作:王儀琪
關注“中國企業家”影片號
看更多大佬觀點和幕後故事
[ 推薦閱讀 ]


相關文章