清華鄧志東:我們會邁向一個通用人工智慧的世界

基礎大模型可能會走到人類天花板,從量變到質變,迎來奇點時刻。
|《中國企業家》記者 陳浩
編輯張昊
圖片來源|中企相簿
4月18日~19日,由《中國企業家》雜誌社主辦的2025(第十七屆)商界木蘭年會在北京舉行。在“AI大課”環節,清華大學計算機科學與技術系教授、清華大學人工智慧研究院視覺智慧研究中心主任鄧志東分享了關於人工智慧的演進方向、研究前沿與未來發展趨勢的思考。
以下為演講的核心要點:
1.總體來看,人工智慧作業系統(基礎大模型)效能的上限還在不斷提高。
2.一旦寬度達到人類最大平均水平,人工智慧就到了一個所謂的“奇點”時刻,也就是說通用人工智慧達到了強人工智慧。
3.只有巨頭才有資源去做這個作業系統,沒有那麼多人玩得起,大部分只能搞大模型的應用。
4.原來的基礎大模型是一個通才模型,上知天文,下知地理,但它不是專才,我們希望把它後訓練成各個垂直細分領域的專家,從通才模型到專才模型就要靠微調技術來實現。
5.DeepSeek的突破帶來中國AI大模型普惠化應用的拐點機遇,國產大模型效能達到了國際一流水平,有更強的推理能力,還可以做本地化部署推斷應用。
以下為現場分享內容(有刪減):

人工智慧的迭代演進路徑
今天非常榮幸有機會與大家分享人工智慧。人工智慧現在已不是一個陌生的詞彙,它的過去、現在和演進方向都已成為大家關心的話題。我今天分享的主要是三個方面:人工智慧迭代演進的路徑、人工智慧的研究前沿與核心能力、通用人工智慧的未來發展趨勢。
首先,從生成式人工智慧的角度講,它的迭代演化路徑大致是遵從這個方向:
一是單模態文字的大型語言模型,輸入、輸出都是文字。因為我們人類是用文字記錄文明,這個稱之為基礎模型,形成了人工智慧作業系統。它是通才模型,下面有成千上萬的下游任務,進行微調與效能增強後,變成各種特定任務的專才模型,最著名的就是ChatGPT。
二是多模態基礎大型語言模型,讓基礎模型長上眼睛、嘴巴、耳朵。文字的“懂”是一個方面,更重要的是視覺、聽覺和其他感官的“懂”。“懂”就是理解,這叫多模態理解,正在蓬勃發展中。
三是多模態具身智慧,即所謂的通用AI智慧體。增加了一個動作空間,讓這個智慧體長上腳、手,就像人一樣,有了眼睛、耳朵、嘴巴以後,還要有手腳,才能真正作用到真實物理世界。
四是多模態互動式通用人工智慧。這個智慧體能夠到一個世界模擬器裡面進行互動式學習,從而可以達到人類的最高水平,甚至在某些任務上超過人類的最高水平,可以“青出於藍勝於藍”。
總體來看,人工智慧作業系統(基礎大模型)效能的上限還在不斷提高。它模擬了人類的語言智慧,把全世界人類記錄下來的所有文明的語料庫都進行了壓縮與封裝。這個效能上限需要極大的資源,包括高質量資料、AI硬體或算力卡等進行從頭或從零開始的預訓練,它可能會走到我們人類百萬億級別的天花板,完成從量變到質變。
大家如果用過大模型,都不懷疑機器也能夠閱讀理解了。以前可能還懷疑,現在你給它任何一個文字任務,它都能夠很好地理解。進一步就是看得懂、聽得懂的多模態大模型,再進一步是讓它產生動作,這樣就全了。
由此發展到通用智慧體,再到互動式智慧體,到世界模擬器裡跟其他智慧體、人類、環境進行互動,實踐出真知。它可以做到24小時不吃飯、不睡覺、不知疲倦、等效率地在虛擬世界裡面進行互動。比如說自動駕駛智慧體從A點到B點,如果有足夠算力支撐的話,一天可以覆盤幾十萬遍。
因為人工智慧互動得多,有更多的實踐,所以它就有可能比我們強。今後可能發展出來的結果就是在很多工上,它的智商強於人類,但是有些地方趕不上人類的狀態。

通用與泛化:向全寬度人類水平演進

通用人工智慧,我們稱之為AGI。AGI的評價標準一個是通用,一個是泛化。
我們現在看到人工智慧正在模擬我們人類,它的成長過程跟我們人類的成長過程很相同。孩子們學習家長、學習老師,我們稱之為模仿學習,模仿完了離開學校以後會走向社會,在真實的世界裡面去透過互動式學習,尤其是透過強化學習來進行迭代。
什麼叫強化學習呢?就是我們每天在乾的事情,離開學校到社會上會做各種自主的決策。最後總會有個結局,要不就是成功了,要不就是失敗了,要不就是平局了。如果成功了就進入了自我獎勵,獎勵自己的決策序列,失敗了則會懲罰自己,平局的話就不反饋資訊,這個過程就是強化學習。
所以人工智慧會經歷從模仿學習到強化學習的階段,它的評價標準包括通用性和泛化能力。
通用性是說AGI會逼近人的通用能力。比如人類學會的開門的能力,意味著全世界所有的門都可以有辦法開啟,無論門把手是旋轉的、隱藏的、半隱藏的,任何一個正常人都可以開啟全世界的門。但現在機器人要開啟一個特定具體的門必須進行反覆訓練,它可以開啟特定的門,但是打不開全世界所有的門,所以我們需要發展它的通用能力。
泛化能力是指AGI在一個地方學會的能力,可以複用在另外一個領域、場景,就是人類的舉一反三、觸類旁通的能力。
一個人工智慧模型如果只能完成一個任務,我們稱之為弱人工智慧。早期深度學習發展的十年,也就是2012年~2022年,就是弱人工智慧時代。一個模型完成一個任務,這個模型後面還可以完成2個、4個、100個、無窮的任務,這樣的模型就稱之為通用人工智慧。
它完成的任務個數稱之為寬度。一旦寬度達到人類最大平均水平,人工智慧就到了一個所謂的“奇點”時刻,也就是說通用人工智慧達到了強人工智慧。之後它的智商會指數增長,會發展成所謂的超級人工智慧。

人工智慧:研究前沿與核心能力

人工智慧的研究前沿正在蓬勃發展,取得了很多關鍵性的突破。
一是基礎大語言模型正在成為人工智慧時代的作業系統。這個作業系統需要餵養全世界的語料資料,相應的算力需求達到萬卡、十萬卡,甚至百萬卡。只有巨頭才有資源去做這個作業系統,沒有那麼多人玩得起,大部分只能搞大模型的應用。
二是MoE大模型成為基礎大語言模型與具身智慧體的基本構型。MoE是混合專家模型的意思,就是把基礎大模型搞成一個個功能模組構成,特別像人類的大腦皮層,有些功能模組是管語言的,有些是管非語言的,如視覺的。一個外部輸入會啟用串起來形成所謂的神經迴路或稱通路,即每次只有一部分功能模組響應。比如聽到聲音就是聽覺通路響應,其他通路並不響應。大腦看起來很複雜,實際上每次響應的就是一個部分的通路響應。
GPT-4最早擁有這個架構。MoE可以包括語音、視覺、程式碼生成等各種各樣的功能模組,有幾千萬、十億、上百億的已預訓練好的功能模組,有的可以進行引數微調,然後把它們串聯起來進行響應,形成通路。
第三,連續空間的語義對齊,成為實現高效能多模態感知與理解的關鍵。多模態本質上是語義的對齊,語義是語言的本質。語言靠什麼溝通?靠意思來溝通,學術上叫語義。我們懂彼此的意思,就是語言溝通。至於怎麼告訴,是用文字,還是用影像、影片都無所謂,它就是個意思的載體而已。所有的多模態都具有同一個意思就叫語義對齊,這個對齊發生在一個非常神奇的深度神經網路之內,它是一個連續的向量空間,在這個空間裡面可以進行語義的對齊。
第四,VLM與VLA加速了通用AI智慧體的發展。前面說了通用智慧體有了視覺文字(語言)感知與理解,以及推理能力之後,這樣的模型叫VLM。若它增加了動作空間,從感知空間增加了一個動作空間,則叫VLA。從感知空間到動作空間的關係稱之為推理,大家看到DeepSeek就是一個推理型的大模型,推理也叫決策或策略。
第五,高效的微調技術是AI+的核心能力。我們有了這些微調技術以後,各種下游的任務就靠微小的變化、部分進行調整。原來的基礎大模型是一個通才模型,上知天文,下知地理,但它不是專才,我們希望把它後訓練成各個垂直細分領域的專家,從通才模型到專才模型就要靠微調技術來實現。
DeepSeek很成功的一點就是使用了大規模的強化學習微調。微調可以劃分為提示微調、引數微調,再可以劃分為全引數微調、部分引數微調。這裡面非常專業,有大量的方法可以學習與研究。
六是把人工智慧變成一個專才模型,還需要效能增強。提示增強,即可以改變提問的方式,如提問的角色不同,DeepSeek給出的回答肯定不同。你給它一個準確的、有技巧性的提問,它也會回答得更專業、更準確。檢索增強(RAG),意味著大模型還可以像人類一樣利用外部的工具,把搜尋引擎結合起來,先在網際網路上進行搜尋,排完序之後再加上提示詞,從而去補充細節,組合起來再去呼叫這個大語言模型,最終使得大語言模型能夠具有時效性。知識增強,允許它有自己私有的本地專門的知識庫。可以將各種各樣的技巧總結成知識庫,進行垂域知識的增強。而邏輯增強,也就是不斷提高複雜的邏輯推理能力。
DeepSeek現在非常火。大家首先關心DeepSeek的V3版本。這個基礎大模型需要用特別大的資源進行從零開始的預訓練,但是DeepSeek只用了2048塊H800算力卡,而H800只有H100的70%的能力。2000多塊“閹割版”的H800,居然預訓練出來一個國際一流效能的DeepSeek-V3版本的基礎大模型。
有了這個基礎大模型以後,還進行了進一步的創新,發展了大規模的強化學習方法。透過大規模強化學習進行後訓練得到的R1模型,推理能力得到顯著提升。微調或後訓練R1過程中積累的80萬條微調監督資料,進一步做知識蒸餾,相應發展出很多蒸餾模型,這就是後面的6個開源密集模型,也稱“小模型”。
“小模型”可以透過一些輕量化的技術,甚至可裝載到手機裡面,做本地部署。如此可賦能千行百業。大模型最終走向各種各樣的AI終端裝置上面,這是非常了不起的。總之,DeepSeek顯著地推進了推理模型的發展方向和大模型普惠化落地應用的程序。
其他的核心能力還包括空間的感知、空間的理解、時間的感知、時間的理解這些基礎技術的發展。還需要發展通用人形機器人所需要的具身大腦+小腦+本體聯合體。還有就是發展複雜的邏輯推演能力,模仿人的快思維、慢思維。
DeepSeek的成功就是會自動在理解任務之後將之分解成子任務,對每個子任務進行求解。任務分解之後一環一環地求解起來,最終得到一個結果,這就叫思維鏈,英語叫CoT。
如果思維鏈條分解得更長一點,或思維時間更慢一點,那它就很有可能具有更強的推理能力。大模型需要模仿人類的快慢思維。人類大部分任務是技能型的任務,比如騎腳踏車、開汽車都是技能型的,是快思維,不需要過多地思考。
七是世界模型與世界模擬器。人類生活在一個三維空間加上一個時間維的四維時空世界裡面,我們可以透過資料驅動的方式(神經網路的方式)重構它,這個資料來源於我們真實的物理世界,這叫數字孿生系統,也叫世界模擬器。AI智慧體可以進入世界模擬器,如果有足夠的AI算力卡,就可以在裡面進行最高效能的互動式學習。實踐出真知,透過模仿學習+強化學習的路徑,它就可以有更高的真知和智慧,從而青出於藍而勝於藍。

通用人工智慧:未來發展趨勢

最後人工智慧會走向通用人工智慧(AGI),就是模仿學習、互動學習之後的通用人工智慧。在這方面我們將看到幾個特點:
一是DeepSeek的突破,帶來中國AI大模型普惠化應用的拐點機遇。DeepSeek、Qwen2.5-MAX等中國大模型,效能達到了國際一流水平,而且具有更強的推理能力,不僅可以在本地安裝部署,還可以做本地化產業推斷應用。
第二,Manus是一個AI通用智慧體,它能夠透過自主的協調去完成更加複雜的任務。這個智慧體可以透過任務理解、任務分解、子任務的求解進行全過程的協同協調,最終直接給你一個交付結果。我們今後會產生大量通用AI智慧體助手。
第三,更高的智慧特徵是組織能力。組織能力是最強的,是智慧的最高形態。智慧的定義在學術界也有爭議,但是至少有三個特徵:學習能力、協調能力和組織能力。組織能力是最高的智慧特徵,通用智慧體也會有組織能力,去自主地完成給定的任務,甚至可以做意圖的形成,獎勵模型的學習等。
四是從網際網路空間走向真實的物理世界。我們也關注一些新的發展正規化,像自動駕駛、通用人形機器人正在協同發展,它們出現了一些新的正規化、新的導向。比如說發展一體化的一段式端到端的模型,提升L4自動駕駛與通用人形機器人的泛化能力、通用能力。未來會不會出現L4、L5的自動駕駛汽車呢?通用人形機器人會不會走向生產線,進而走向千家萬戶呢?這些都會給人類帶來顛覆性的改變。
五是我們會邁向一個通用人工智慧的世界。通用AI智慧體或通用人工智慧是個資料智慧新物種。人類是生物細胞組成的,是碳基的。這個新的智慧物種是資料餵養的、預訓練的,是矽基的。這個矽基物種會不會改變世界,給我們帶來顛覆性改變?雖然人類利用了鳥的飛行原理啟發發明了飛機,但飛機比鳥要強大得多,可以飛得更遠,更高,載重更大。
從這個角度講,AGI會不會最終發展得比我們人類這樣進化了幾百萬年的生物系統還要更厲害?Scaling Law會不會推動AGI的持續發展?Scaling Law也叫規模化定律,它是OpenAI的信仰,其內涵是大模型基於Transformer的架構,若模型引數規模越大,其效能也會線性或者接近線性地增長。
這樣不斷地擴充套件模型規模,效能是不是還會繼續往上走,甚至走到了人工智慧的奇點時刻,會不會一直都有效?Scaling Law也會帶來另外一個效應叫做智慧湧現。簡單說就是規模到了一定程度以後,會有一個閾值,就會出現智慧湧現。就跟人類大腦一樣,大腦規模化以後產生了這麼多神奇的智慧或智慧,包括人類舉一反三,觸類旁通的強大泛化能力。
但人工智慧的發展如何不威脅到人類文明?生成式大模型和通用智慧體會產生意識嗎?這個意識應該被探究與發展嗎?人工智慧國際治理中的紅線與底線是什麼?所有這些問題都需要我們進行深入思考。  
新聞熱線&投稿郵箱:[email protected]
END
值班編輯:郭立琦  審校:張格格  製作:袁茂麗
關注“中國企業家”影片號
看更多大佬觀點和幕後故事
[ 推薦閱讀 ]


相關文章