朱松純：什麼時候才能出現人工智慧的“中國時刻”？

2.18‍‍‍‍‍‍‍

知識分子

The Intellectual

圖源：Pixabay

編者按

·為什麼AlphaGo、ChatGPT沒有在中國誕生？

·為什麼中國只能出現“百模大戰”？

·什麼時候才能出現人工智慧的“中國時刻”？

這是朱松純教授提出的關於人工智慧的“中國之問”，在當前通用人工智慧（AGI）發展程序中，西方主導的”大資料+大算力+大模型”的模式被認為是唯一正確的發展路徑。直到最近中國本土的大模型deepseek的出現才打破了這一根深蒂固的思維定式。

北京通用人工智慧研究院院長、北京⼤學智慧學院院長、清華⼤學基礎科學講席教授朱松純在蓮花山研究院成立20週年學術思想研討會和第四屆智慧計算創新會議上回顧了資料驅動的人工智慧研究的起源；2009年之後的技術正規化從資料驅動轉變為因果與價值驅動的根本原因；更提出了我們要突破西方主導的敘事框架，發展中國特色的AGI道路的關鍵——基於中國思想、突破單純的資料驅動轉向更綜合的正規化、構建融合”心”與”理"的通用智慧體系、注重人機共生的智慧社會構建。

撰文 | 朱松純

● ● ●

{ 目錄 }

一、引言：直麵人工智慧的“中國之問”

二、探源：大資料驅動的人工智慧熱潮

三、侷限：資料與統計方法驅動的侷限

四、出路：探索資料背後的因果與價值

五、新標：全球首個AGI評級測試標準

六、思考：思想自主與敘事權爭奪

引言：

直麵人工智慧的“中國之問”

2022年底以來，以Chat GPT為代表的大模型進入公眾視野，並引發社會廣泛的關注。通用人工智慧已經超越了純粹的學術研究層面，成為了國家間科技爭奪的前沿焦點。要知道2020年我剛回國時，提出要建立我國第一個通用人工智慧研究院，那時還有人覺得談通用人工智慧太遙遠，僅僅4年後的現在，很多人又覺得通用人工智慧可以馬上實現。資本和流量擠進這個熱門賽道，聲稱他們已經“超英趕美”，故意激化國內的“百模大戰”……要麼冒進，要麼悲觀，就像很多人對通用人工智慧的搖擺一樣。作為人工智慧領域學者，我覺得自己有責任去做一個解釋說明，幫助大家去偽存真，讓人們能夠看到真實的通用人工智慧。

《國家創新驅動發展戰略綱要》指出，我國到2050年要建成世界科技創新強國，成為世界主要科學中心和創新高地。中國人能否在人工智慧領域建立自主的、原創的獨立思想和流派，關係到能不能在人工智慧的前沿科技中搶佔制高點。

每每站在國家命運的十字路口，中國人總會聽到來自歷史的叩問。無論是“李約瑟難題”“錢學森之問”“楊振寧三問”，還是今天的人工智慧“中國之問”，都考驗著我們國家戰略方向的確立和科學家的使命感。我想，要交出一份滿意的答卷，就要走出一條屬於我們自己的路，走底層邏輯自主可控的創新之路，走人工智慧與人類價值觀對齊的創新之路，走不隨大流、堅信人工智慧的“中國時代”必將到來的創新之路。

2025年春節前夕，中國本土公司的人工智慧創業公司，用更低的成本，做出了不遜於國外頂尖大模型的deepseek，就是很好的證明。

這就有必要從源頭捋清一條發展脈絡，說明我們的先進性。許多成果明明由我們先開始，卻被誤以為是別人先做出來的。這就像在體育場裡跑馬拉松經常出現的“套圈”現象，我們已經領先了10圈，其他選手雖然看起來像是在我們前面，實際上卻忽略了我們已經遠遠超越了他們。

所以，我今天講的故事裡，既有我從影像大資料研究這個源頭出發，經歷人工智慧逐漸興起的經歷，也有發現數據驅動人工智慧存在巨大侷限性的思考；有突破邊界，追求價值驅動通用人工智慧道路的堅持，還有將“UV理論”應用在建立全球首個AGI評級測試標準的創新嘗試。

探源：

大資料驅動的人工智慧熱潮

人工智慧現在是全國乃至全世界都關注的熱門領域，這種“熱度”來自於大語言模型的流行，是在這幾年的資本炒作中帶來的。但實際上，在這股熱潮之外，人工智慧已經在科學家們的艱辛探索下，走過了幾十年的發展路程。對技術發展溯源，其實也就是對人工智慧進行探源，將有助於我們在熱鬧和喧囂背後進行清醒思考，並真正理性地選擇人工智慧的未來之路。

探源是一個非常複雜的問題。以長江為例，儒家經典《禹貢》記載，長江的源頭是四川岷江，這種觀念持續千年，直到明末徐霞客才透過探源並在《江源考》中提出，金沙江是長江的源頭。我國科考隊在1976年，才論證了長江源是沱沱河和唐古拉山。歷史證明，儘管明代沒有地圖和導航，儘管科考要冒著風險、付出超乎尋常的代價，人們卻著迷於追求源頭對人類帶來非凡意義。

圖1 對資料的溯源就像對長江探源的過程，探索源頭能夠讓我們瞭解事物的歷史、本源，幫助我們更好地理解現在、展望未來

所以，我今天的報告是想追溯大資料的起源，做一次“資料溯源”的科學考察。首先，此處說的大資料尤其指在計算機視覺領域的資料，也就是影像資料。為什麼要從視覺說起呢？視覺是“五感”中接收資訊量最豐富、系統最複雜、範圍最廣闊的覺知能力，人的大腦皮層的活動，大約70%是在處理視覺相關資訊。我和團隊也是從視覺大資料開始，在技術創新的路上艱難突進，才走到今天，所以視覺大資料是我們的起點，是我們的“初心”。

其次，我希望大家能夠記得幾個時間節點：20世紀70年代、1999年、2001年、2003年、2004年，我還希望大家能記住幾個簡單的詞：PG0、PG+和PG++。這些關鍵時間發生的幾件大事，值得銘記，這幾個關鍵詞代表了我與團隊探索智慧極限、不斷邁向通用人工智慧的過程。下面我為大家展開講一講。

實現通用人工智慧是全人類的夢想。要完成這個目標，有三個可以稱為哲學層面的問題需要回答：

到底多“通用”才算是通用人工智慧？

通用人工智慧需要完成多少項任務？

如何評估智慧體的進步？

我從20世紀60年代到80年代期間說起。那時陸續出現了基於視覺的人工智慧研究，但限於當時的條件，缺乏有效的資料支援。60年代早期研究中使用的線圖是由取樣人員手繪的。到了70年代，這些線圖被用於幫助理解和判斷物品。即使到了1994年，技術也沒有本質上變革，對於視覺資料的收集依然不盡人意。

圖2 1990s年代，2D形狀的表達與物體識別解譯（朱松純 1994）

當我開始籌備我的第一篇關於計算機視覺的論文時，那時候是在做關於2D形狀的對稱中軸（media axis）表達，我們從明信片、拍照或書籍中掃描照片，然後手工將其轉化為二維照片來研究。研究團隊想建立一個葉子資料庫，需要我們去撿大量葉子進行掃描。那時我常在波士頓的路上邊撿葉子，有一次撿得太專注，直到被近處一聲呼喊嚇了一跳，原來我不小心誤入了別人的院子，被當作了小偷。

圖3 1960-1980年代主要是線畫的解釋（Line drawing interpretation， Waltz 1960s）和塊狀物體的解譯（傅京孫先生，block world parsing）

這個時期，研究主要是對線畫的解釋和塊狀物體的影像解譯。傅京孫先生構建了這類研究方法。輸入線畫影像就會出現線畫解譯圖（Parse Graph，簡稱PG）,在結果中不僅能展示物體本身，還能標註物體之間的關係，例如“連線關係”“遮擋關係”等。

那時候對影像的分析只能用線圖表示，影像資料非常匱乏。為什麼沒有資料呢？我認為主要有兩個原因：第一個原因是那時候的計算機資源有限。那時候的微機的速度只有640K，這是什麼概念呢？現在手機拍一張照片也有好幾兆。手機拍照只要一瞬間，如果用那時的微機處理今天的一張圖片，可能就要花很長時間，更不要提處理大資料了。

圖4 左圖：微機的記憶體只有640K；右圖：世界上第一隻數字攝像頭誕生於1975年

第二個原因是那個時候還沒有數字照相機。1992年，我所在的哈佛實驗室花費25萬美元構建了一個影像採集系統。這樣的“天價”裝置，從頻寬、記憶體等方面仍然無法滿足基本要求。即便到了1995年，我所在的實驗室給我配置了當時最先進的32兆記憶體工作站，處理圖片依然是個難題。程式設計時經常要讀盤，將中間資料載入並儲存下來，系統崩潰、資料丟失仍是家常便飯。可以說，一直到90年代中期，人類的硬體條件和資料條件無法支撐大規模視覺資料研究，視覺研究只能做最簡單的幾何研究。直到在90年代的末期，感知器技術革命的到來，才帶動了大資料和機器學習的蓬勃發展。

90年代末，出現了大量影像集，例如索爾比（Sowerby Image Database，簡稱SID）和科立爾（CorelDRAW）資料集。一些攝影師還會將自己的作品刻進光碟售賣，我把他們買回來嘗試讀取、研究，只是那時只有圖片，還沒有標註，算不上是資料集。

圖5 90年代末，感知器革命帶來了大資料處理能力的變化，出現了大量影像集。例如，那時出現的索爾比資料集（Sowerby Dataset）就是其中之一

圖6 世界上第一次被標註的資料集，正式發表於1999年的CVPR。它的作者是斯科特·小西博士

時間來到了1999年，它的重要性在於，這一年出現了世界上最早的標註資料集。這個標註資料集來自日裔科學家斯科特·小西（Scott Konishi）。他在1998年的研究工作中完成了最早的標註資料集，他的成果後來在論文《邊緣檢測的基本邊界：不同邊緣線索的資訊理論評估》（《Fundamental bounds on edge detection: An information theoretic evaluation of different edge cues》）中有體現，這篇文章是做邊緣檢測。當時還有一些任務資料集，比如手寫體識別，從0到9標十個數字，我認為那是分類，不是標註。

說起來我和小西還有一段故事。那時他是加州大學伯克利分校的博士生，沒人帶他，就跟了艾倫·尤利（Alan Yullie）做研究。小西博士當時在舊金山一所研究機構裡做著枯燥的資料標註工作，經費捉襟見肘。我當時在斯坦福大學當講師，斯坦福系主任從保羅·艾倫（Paul Allen）那裡要到了一筆六萬美元的經費（Paul Allen是微軟的聯合創始人之一）。我正準備辭職，沒用完的錢就資助了小西博士，也是第一次用統計的方法來做邊緣檢測資料集。

圖7 統計建模與隨機計算首次進入CVPR。以此為起點，用統計方法來做邊緣檢測資料整合為一種新的趨勢。後來，在我們舉辦的“首屆統計建模與隨機計算工作坊”中，來的也多是統計學出身的學者

後來該成果發表在“計算機視覺與模式識別”會議（Conference on Computer Vision and Pattern Recognition，簡稱CVPR）上，隨後我們舉辦了首屆統計建模與隨機計算工作坊（First Int'l Workshop on Statistical and Computational Theories of Vision – Modeling, Learning, Computing, and Sampling），來者也多是學統計出身的學者。

圖8 2001年大衛·馬丁（David Martin）提出圖片分割（Image Segmentation）資料集，科學家們又向著更高層級影像解析邁出了一步。左下圖為屠卓文的論文，意為《資料驅動馬爾可夫鏈蒙特卡羅影像分割》

2001年，人工智慧的重要時刻又到來了。加州大學伯克利分校的大衛·馬丁（David Martin）提出了影像分割（Image Segmentation）資料集。我帶的第一個博士生屠卓文在這個資料集上用馬爾可夫鏈蒙特卡洛MCMC方法取得了最佳成績，遠遠超過了他們當初提出的演算法。2003年，李飛飛提出了Caltech 101資料集，其實這個資料集沒有標註，只是包含了包括“狗”“飛機”“汽車”等在內的101個分類。

圖9 2003年Li Fei-Fei團隊提出Caltech 101資料集，但該資料集沒有標註，只是分類

到這裡，源頭階段的脈絡就很清晰了，此時的我們已經身處“PG時代”。回顧這幾個對人工智慧來說重要的時間節點，從20世紀70年代到1999年中間跨越了幾十年，從1999年到2001年、2003年僅僅只有幾年時間，我作為身在這個領域的學者，能夠深刻感覺到人工智慧發展的“加速度”，成果誕生的時間週期越來越短，“奇點臨近”的感受愈發明顯，激動人心的未來似乎在向我們招手。

侷限：

資料與統計方法驅動的侷限

儘管早在20多年前就感受到了人工智慧的“奇點臨近”，但我必須強調的是，幾十年的探索讓我們清醒地認識到，資料與統計方法驅動的人工智慧發展道路存在自身的侷限性，當時對人工智慧的認知與開發還遠遠不足，到今天證明了，我的想法是對的。為了說清楚這個問題，讓我繼續從本世紀初的科研實踐講起。

2003年，我們開始超越線畫，做真正的影像解譯（Image Parsing），這個工作在2003年國際計算機視覺大會上獲得了計算機視覺研究的馬爾獎。獲獎並沒有讓團隊停下思考的腳步，因為從上個世紀90年代最早將統計建模與學習方法引入計算機視覺，我們團隊發現統計在對影像理解方面有著越來越重要的作用，所以我決定在湖北鄂州創立蓮花山研究院，開啟大規模、顆粒度極高的資料標註工作。

2004年，蓮花山研究院在湖北鄂州成立，是世界首個大型影像/影片解譯資料庫，也是中國首家民辦非營利性機構，具有劃時代的意義。這不僅對我個人的科研生涯至關重要，在人工智慧發展史上具有標杆意義的存在，制定了影像影片標註的標準影像解譯的測試集，為我國人工智慧人才的啟蒙、乃至全球此輪由資料驅動的人工智慧浪潮，起到了開創性的推動作用。

這個階段的影像解譯不同於以前的單點分割和影像分類，它需要解譯整個影像的結構。舉個例子，如果給蓮花標記，我們不僅給蓮花分類，還要標註花瓣、花蕊等所有結構。此外，影像解譯還關注物體之間的關係，例如標記一輛被柱子擋住的車時，我們會標記遮擋關係，還會生成影像標籤圖、子圖和三維標記。這是一個非常複雜的過程，所以我們還制定了標註標準，併產生了手冊、定義了怎麼解析影像的細節。團隊後來承接了來自世界各地科研機構資料標註的業務，簽訂了不少合同。

圖10 蓮花山影像解譯操作手冊，影像的分割、識別與解譯。對PG0階段，即對影像本身的開發程度已經到了完整的程度

到這個階段，也就是我們現在可以稱之為“PG0時代”的時期，人工智慧技術對影像本身的解譯可以說是非常成熟了。大家可以看圖中的這個小三角形，其中的紅色節點（nodes）都已經被填滿了，這表示，此時技術能夠達到對圖片本身的解譯沒有“死角”的程度，透過“分割”（segmentation）“物件檢測”（object detection）和“三維構建”（3D construction）等技術，已經能夠對圖片畫面有充分理解。

圖11 對影像的三維解譯。這個時期，技術對畫面上包括物體、場景等要素的“理解”已經很充分

值得一提的是，蓮花山研究院還是人工智慧生成內容（AIGC）應用的誕生地之一。我們開發了一種將結婚照轉化為油畫的技術。我們想，每年有數百萬對新人結婚，可以將油畫作為獨特的紀念品或禮品。這也是我們最早的產業創新之一。

圖12 圖片意為“從影像解析到繪畫渲染”。將結婚照轉化為油畫作為新婚夫婦的結婚紀念，成為我們最早的產業化嘗試之一

將結婚照轉化為油畫的技術依賴於我們在30年前提出的、用於紋理合成的模型，這可以算是世界上最早的生成式模型。目前流行的大模型GPT是pre-trained model（預訓練模型），在30年前我們將其稱之為prior learning（先前學習）。現在廣受關注的生成式對抗網路（GAN），最早也是由我的學生屠卓文開發，後來被國外一些研究團隊聲勢浩大地推廣，並更名為“GAN”。

圖13 世界最早的生成式模型：（Generative Model）紋理合成

圖14 論文題目意為《先前學習與吉布斯反應擴散》。先驗模型（Prior Model）最近被改稱為“生成式預訓練”（Generative Pre-trained）。最早叫做先前學習（prior learning）和生成圖片的“郎之萬動力學”（Langevin dynamics for generating images）

圖15紋理合成：多層神經網路的產生式模型

蓮花山研究院作為中國第一個“科民非”，可以理解為現在的新型研發機構。蓮花山研究院的建立開創了國際交流的盛況，當時很多青年學者後來陸陸續續都成了人工智慧領域的中流砥柱。

圖16 第一屆蓮花山研究院研討會合影。很多青年學者後來陸陸續續都成了人工智慧領域的中流砥柱

到了2005年，歐洲出現了一個叫“帕斯卡（PASCAL）”的資料集（全稱Pattern Analysis, Statistical Modelling and Computational Learning，意為“模式分析、統計建模和計算學習”縮寫），它專注於影像分類和分割，是一個非常有名的資料集。這裡有個插曲是在2005年，我們開始對外接訂單，為美國一些公司標註資料，我們標註得非常準確，價格也比較便宜。當時這個資料集的人找到我們，希望我們標註他們的資料。按照我們的標法，每張圖片標註一千多個點，報價是每張照片一歐元。因為對方有數萬張照片，所以覺得價格太貴，最後沒談成，他們不再做影像解譯，只做分割和分類。

大約也是這個節點，科研風氣發生了變化。在後來做單純的分割和分類這波人中，一部分是傳統20世紀70-90年代研究幾何的，因為1999年統計建模出現後，這些人陷入了危機，點雲（Point Cloud）等技術難以繼續，所以他們轉向做大資料集分割和分類，組織競賽和刷榜。2004年之後，“刷榜”文化開始盛行，所謂刷榜，就是一般下載了人家的程式碼，改進、調整、搭建更快的模組，用一個數據集在不同場景下進行測試、評估和排名，不斷地在排行榜上拿名次。但是，這個程式碼不是自主創新的，實際上對技術進步無益。

記得我們2006年在加州大學伯克利分校召開了一次會議，很多數學家在場，這波專門做大資料的人站起來說：“你不用管有的沒的，只需在我的資料集上測試就可以了。”我的導師，獲得過菲爾茲獎的知名數學家大衛·曼福德(David Mumford)當時在場，感到了很強的冒犯。這其實背後反映的是深層次的、用經驗主義還是理性主義來解決問題的爭論。

經驗主義和理性主義有什麼不同呢？經驗主義完全依賴於資料驅動，但資料之外總有例外，世界的複雜性可能遠超資料所能涵蓋的資訊。資料可以幫助我們窺見事物的一部分，但卻無法呈現完整的圖景。而理性主義則強調科學的美感，比如愛因斯坦所倡導的第一性原理，即透過對複雜世界的簡化，找到事物本質，形成普遍適用的理論框架，也就是“大一統理論”。

圖17 經驗主義的審稿人和理性主義的審稿人產生了對立，凸顯了當時解決問題的研究路徑出現分歧

說到這裡，我講一個非常典型的故事。2010年，我在一次發言中討論了理性主義和經驗主義的爭論。我們當時投論文的時候大概有兩類審稿人：經驗主義審稿人和理性主義審稿人。經驗主義的審稿人通常會要求你在不同資料集上執行你的方法，這些審稿人迷信模型，對理論本身是不感興趣的、質疑的。就像“如果你真聰明，怎麼會不富有呢？”他們會說“如果你的研究方法真的好，那麼為什麼比不上現在的模型呢？”這種簡單粗暴的標準將評判科學成果“是否帶來創新、進步”變成了成果“是否符合模型”。其實，就像聰明和富有並無直接關聯，能不能在資料集上執行成功，跟成果的創新性也沒有必然關係。

對於那些偏好執行資料集的文章，理性主義的審稿人則會說：“你的演算法只是在你選定的有限資料集上有效，但對解決真實問題沒有幫助。”堅持理性主義的研究者會從理論上證明某個問題不可解，以此作為拒掉文章的標準。因此，經驗主義和理性主義的分歧，導致了一個現象，就是當時論文能否被接受，很大程度上取決於論文被送到哪派審稿人手裡。現在，經驗主義審稿人佔據了主導地位，堅持理性主義的研究者就逐漸退出了計算機視覺領域。

我更傾向於理性主義，同時結合一定的經驗資料。用通俗簡單的話來比較，經驗主義就是立足於前人經驗，在現有的地基上“壘磚”，我堅持的理性主義更偏向於“輕裝上陣”，從一開始就抱定對世界本源、本真、本質的極致探索。明明是在前人經驗上“壘磚”更容易，就像做大模型，更容易出成果，為什麼我還是這麼執著於理性主義、堅持價值驅動的研究道路呢？因為，我認為我們國家已經到了鼓勵顛覆式創新的階段。什麼是顛覆式創新？就是你這個技術一出來，之前的很多技術都直接歸零了。想要在人工智慧這種絕對的前沿領域達到這種結果，你追求的不能是在別人的正規化之下做科研，漸進地從1到3，從3到n。我們現在希望實現做“從0到1”的成果，只有這樣的技術突破多湧現在這個國家，中國才能成為真正意義上的世界科技強國。

出路：

探索資料背後的因果與價值

接下來我解釋PG+和PG++這兩個關鍵概念，這也是我們取得跨越式發展、找到出路的重要原因。

到了2008年，科學家在PG0階段對影像的探索和創造到了一個“百花齊放”的時代。我曾經的同事、來自麻省理工大學（MIT）的安東尼·托拉爾巴（Antonio Torralba）曾經建立了一個網站叫做LabelMe，意為“給我打標籤”，這個網站讓人們在上面打標籤，他們只在乎兩種標籤：場景類資料（Scene category）和物體類資料（Object category）。每一個節點其實就是一個任務，這在當時是頗具影響力的一項研究。

圖18 來自麻省理工大學（MIT）的安東尼·托拉爾巴（Antonio Torralba）曾經建立LabelMe，意為“給我打標籤”，用來收集場景和物品資料

另一個例子是“圖網”（ImageNet）。他們在圖片本身的解譯工作中更加看重對物體的分類，大約分了1000個類別。這項嘗試後來也變得很流行。

圖19 對圖片解譯的探索已經到了一個瓶頸期，研究只能在PG0框架內“打轉”

但是我想強調的是，這些努力都是在一個PG0的框架內做嘗試，科學家們此時並沒有跳出對圖片裡內容的解譯，頂多是從不同角度在“場景”“物體”“物體關係”上著力，這個階段對“智慧”的認知在今天看來確實比較狹隘，如何走向通用人工智慧，需要從更深刻的角度去思考。

當技術來到一個瓶頸期，科學界就會存在大量的爭論和分歧。這就好比科學家們的面前有一扇門，大家都想要跨過這扇“通用人工智慧”之門，需要正確的鑰匙。我認為，想要找到通往“通用人工智慧”的大門鑰匙，需要先知道困住當下的究竟是什麼，需要認識到當時圖片解譯這一套邏輯的侷限性。

第一個侷限性是大量物理和社會變數該如何標註的問題。物理學家認為，我們可觀察的物質和能量只佔宇宙總體的5%，剩下的95%是觀察不到的暗物質（Dark Matter）和能量。這些變數包括在社會現象中，人的意圖和想法等。且不同於統計學中的潛在變數（latent variables），潛在變數是客觀的隱藏變數，而“暗物質”常常是主觀的、唯心的、內化在社會環境中的。人類能夠感知到這些變數，但機器無法識別，更無法直接標註這些內容。

圖20 用傳統打標籤方式無法滿足多樣的標註需求。當標註了“電話”一詞，系統就會自動認定圖片中的物體就是電話，但現實生活中，電話不僅僅是個物體，圖片中的人會展示拿起電話、撥號、接聽等任務，此時系統可能沒法精準識別電話

第二個侷限性是影像和場景的解譯與具體任務高度相關，光靠標註這種“一刀切”的方法，是沒法應對複雜多樣的現實場景的。任務是無限的，並且與智慧體的具身性有關，因此標註變得非常困難。正如馬爾所說，“the more you look, the more you see”，也就是說，感知到的內容取決於觀察者想做什麼，也就是觀察者的價值，中國古話更簡明扼要，即“相由心生”。例如，標記一個電話，簡單地用一個框將電話框柱、打個標籤，系統就記錄和認定該物體是“電話”——這是傳統大資料驅動正規化的做法，但在真實場景中，具體的標註方式取決於任務，比如撥號或接電話時，人需要接觸電話的不同位置，接觸的位置不同，標註方式也理應不同。傳統方法無法滿足這種多樣的標註需求。

第三個侷限性是我們不僅希望進行簡單的標註，更希望實現影像的理解。理解(Understanding)這一過程非常複雜，不同學者對此有不同的討論。一些學者認為需要定義語義，而語義依賴於任務、因果關係和價值系統等。

圖21 計算機視覺的三種表達方式

計算機視覺中有三種和“理解”相關的表達方式：

第一種是以檢視為中心的（view-centered），基於二維影像的外觀；

第二種是以物體為中心的（object-centered），即基於幾何進入三維場景；

第三種是基於任務的（task-centered），即從智慧體的角度來理解世界。

當時大多數研究以檢視為中心，依賴資料驅動。我們希望能夠轉向任務驅動，以智慧體為中心。

認識到現有方法的侷限性還不夠，還需要提出解決方案。當時就“如何實現通用人工智慧”這一問題，領域內不同學者各執一詞，一定程度上也反映了經驗主義和理性主義之間的矛盾。2010年，在美國自然科學基金委的推動下，就這一問題召開了一場學術會議，我應邀發言。發言之前，我讓我的大女兒畫了一幅畫。

圖22 爬樹與撈月能否登月？

如果說，實現通用人工智慧就相當於登月，是一個非常困難的任務。有人會說“只要我爬得足夠高，我就能夠到月亮”，所以這些人去爬世界上最高的樹，去登世界上最高的山，試圖夠到月亮。資助者看到這些人每天都能在樹上、山上快速上升，就會很高興。但是因為無論樹還是山，都是有盡頭的，這個盡頭離月亮還是十萬八千里的。當然也有人會去選擇水中撈月、乘坐熱氣球，但是真正實現人工智慧，去達到“登月”的高度，肯定是要造太空梭的。只不過在現實生活中，製造太空梭去登月，經常被短視的人們誤以為是“不靠譜”的，很難獲取信任，還要坐很多年“冷板凳”。

實際上，通用人工智慧“航天飛船”的構建，不是單一部件、單一路徑去實現的。人工智慧技術經過幾十年發展與分化，形成了計算機視覺、自然語言處理、認知推理、機器學習、機器人學與多智慧體六大核心領域為主構成的複雜系統。其內部結構之複雜，其研發道路之艱難，不是“大資料”+“大模型”+“大算力”這種純經驗主義路線能夠解決的。如果把實現通用人工智慧比作“登月”，目前大資料路線正在前進的方向相當於“攀登珠峰”，雖然有機會登上珠峰也是很了不起的成就，但是這和達成登月的目標相差甚遠。

圖23 “小資料、大任務”正規化獲得了學術界的廣泛認同

後來，我提出了“小資料、大任務”正規化，獲得了學術界的廣泛認同。我認為，人工智慧研究中存在兩種正規化，一種是“大資料，小任務”，目前基於深度學習的很多大語言模型即屬於此類，其特點是需要極大的資料，但只能完成有限任務，不能對應現實的因果邏輯，無法泛化，類似善於學舌但無法進行認知推理的鸚鵡，你教一隻鸚鵡大量內容，它才能說有限的幾句話；另一種是“小資料，大任務”，其特點是小資料、無監督，可以泛化，類似能在複雜情境中進行認知推理的烏鴉，僅僅靠示範幾次，就能完成一整套任務。

因為此正規化的提出，我們還獲得了一些專案。我們的第一個DARPA（美國國防部高階研究計劃局，簡稱DARPA）專案（2010-2015年）專注於影像解譯。透過層層解譯影像，我們成功生成了文字，用自然語言描述影像。這一專案成為後來視覺問答（VQA）模型的原型。

圖24 美國-英國聯合AI研究團隊 MURI 2010-2015，MURI 2015-2020 （美國國防部部長辦公室資助），跨多個人工智慧學科：計算機視覺、機器人、機器學習、認知科學、神經科學、統計學、應用數學。團隊來自：Berkeley, CMU, MIT, Stanford, Oxford, UCLA, UIUC, Yale 等大學

第二個DARPA專案（2015-2020年）則聚焦於場景理解，涵蓋語義解譯，並進一步探討了對物理和心智的理解。我們的主要目標就是透過一系列跨學科交叉研究，將計算機視覺、機器人、機器學習、應用數學、神經科學、統計與應用等各個領域專家聚到一起，探索出一條通用人工智慧的統一理論。

我們很快發現PG0階段的技術已經不夠“智慧”了。因為我們意識到，在現實中，當人看向一張圖片的時候，可能想到的並不是只有眼睛看到的，其中包含了很多“想象”成分。上面這張圖片中有人在做“倒水”這個動作，雖然看圖的人並沒有看見水，但是他能因此想象得到，水壺裡是有水的，圖片中的人想要喝水，這些資訊量都沒有在圖片中直接體現來，而是隱含在圖片背後，並且能夠廣泛被人們理解。

圖25 在IEEE上發表的論文《從影像解析到文字生成（From Image parsing to text generation）》, Proceedings of IEEE, （Yao et al,2010）

圖26 看圖的人即便沒有看到水，但是因為看到了倒水的動作，

所以人會判斷“水壺有水”“圖片中的人要喝水”這些資訊

這對圖片解譯的意義非常重大。從此開啟了PG+時代。

在“PG+”的解釋框架中，很多圖片中不能肉眼可見的“暗物質”（dark matter）蘊含其中。例如物體的功能（functionality）、物質的機理（physics）、意圖（intent）、因果關係（causality）和價值觀（values）。你看不到人的價值觀，看不到物理世界的因果關係，而這些都是深植在世界的執行中，是人類社會的“約定俗成”。

圖27 在原有的PG0基礎上，影像解譯的維度和空間被拓展，影像解譯新時代到來

圖28 在“砸核桃”這張圖片中，有對空間、時間和因果的感知

在我們看來，圖片雖然是一個平面，但是蘊含了超越圖片本身的資訊量。以這個“砸核桃”圖為例，看圖的人不難想象到，在這個瞬間發生之前，核桃要被拿起、放下、對準、砸碎，這是一種對時間的感知；榔頭的抬起、落下，這是對空間的感知；因為“砸”這個動作的發生，導致核桃碎了，這其中有對因果的感知。

圖29 社會智慧包含能夠對現象或行為進行推理的能力

到了PG+階段，我們覺得還不夠，最終延展到了社會智慧（social intelligence），它被我們稱為PG++，其範圍遠超出了PG0和PG+。人是社會性的動物，人會與他人、與外界環境產生互動，認知也會由此發生變化，在這個過程中，人會產生對某些行為或現象的推理。

想象一下，當你在教室裡演講，這時候有人舉起了倒計時牌子，提醒你時間快要到了，但你沒有看見，這時有位看見倒計時的觀眾衝你揮揮手並將手勢指向了倒計時牌。你可能會下意識地去看他手勢指向的方向，從而看到了倒計時牌。這樣一個過程至少包含了你腦內以下推理過程：“他對我揮手”“他指向了一個方向”“他在提醒我什麼”“那是倒計時牌”“我演講剩下的時間不多了”“我要加快速度了”。所以，這個過程分解來看，是個很複雜的過程。

社會智慧一般包括信念（belief）、意圖（intention）和社會性推理（social reasoning）等。可以說，人類作為智慧體在“看”這樣一個看似簡單的過程中，其實在內部做了很多自上而下的決策，從高層次的認知出發，看圖或者分析場景時做了很多從社會智慧到暗物質，再到場景和物體本身的思考。關於PG++的研究是很匱乏的，也是我們進行進一步探索的動力。

圖30 PG++是比PG0、PG+更高一層的階段

我們認為，在這個包含PG0、PG+、PG++的系統中去構建智慧，才是把智慧的“版圖”拼完整了，即除了考慮視覺本身，還要考慮隱藏在背後的、人的內在要素和社會的內在機制，才能真正邁向通用人工智慧，才能在時間、空間、因果上構成一個完整的智慧體任務體系。

圖31 通用智慧體的構建必須考慮暗物質和社會智慧的存在，要在時間、空間和因果上構成一個完整的體系

沿著這條通路，我和研究團隊不斷拓展著對視覺大資料、對人工智慧、對通用人工智慧的邊界，完成了對個體意義上通用人工智慧體的底層邏輯搭建。然而，這就像爬一棵樹，世界上有那麼多樹，那怎麼辦呢？在這個從PG0到PG+、再到PG++的框架下，搭建一個可以被廣泛使用的平臺，自然成為了我和團隊的下一個任務。

新標：

全球首個AGI評級測試標準

2024年，我們研發了首個通用智慧體"通通"，這一成果入選"中關村論壇重大科技成果"。通通突破了傳統人工智慧系統僅關注具體任務的侷限，展現出更接近人類的認知特徵。她具備基本的物理常識和社會認知，能在價值驅動下完成無限任務，並具有自主定義任務的能力。這種能力是通用智慧的核心特徵，也是人類從兒童時期就開始發展的基本能力。

圖32 全球首個通用智慧人“通通”入選中關村論壇重大科技成果

以通通為基準，我們進一步開發了全球首個通用人工智慧測試評級標準與平臺——通智測試（Tong Test）。該平臺借鑑人類嬰幼兒發育評估標準，構建了基於能力（U系統）和價值（V系統）的評測框架，同時開發了複雜的物理場景模擬和社會互動測試環境。

圖33 研究團隊在2016-2019年之間，將豐富資料匯入VR環境，用來搭建虛擬場景

圖34 運用語言評估系統和以任務為導向的模擬器，構建對智慧體的測試

平臺建設經歷了系統性的發展過程。2016年至2019年間，研究團隊致力於構建高度逼真的虛擬場景。我們將豐富的環境資料匯入VR系統，透過深度學習和任務規劃實現智慧體與虛擬環境的有效互動。同時，建立了完整的語言評估系統和任務導向型模擬器，形成了智慧體測試的基礎框架。目前，該系統能夠模擬多樣化的現實場景，包括辦公樓、社群、學校等複雜環境，為智慧體提供全面的測試條件。

圖35 在2024年中關村通用人工智慧論壇上釋出的通智測試（TongTest）

通智測試的核心是其評價體系，即"V系統"和"U系統"。這一評價體系的設計深深植根於對人類智慧發展的研究。實驗表明，人類的價值體系是與生俱來的，在嬰幼兒身上就能觀察到其雛形。例如，3-4個月大的嬰兒已經具備基本的因果推理能力，能夠識別魔術，即不滿足因果常識的物理現象；18個月大的嬰兒能夠識別他人意圖並做出回應。此外，研究還發現，人類能進化出大量的價值判斷。比如圖中這個實驗，12個月的嬰兒看到了兩個成人在分配玩具，會傾向於選擇分配“公平”的成人一起玩。8-12個月大的嬰幼兒對於相似族裔的偏好要勝過對“公平”這一價值的偏好。也就是這個階段的嬰幼兒會在“公平的人”和與自己族裔相同的成人之間選擇相同族裔者。這些研究發現為構建人工智慧的價值評估體系提供了重要依據。

圖36 12個月的嬰兒參與測試，傾向於選擇更加具有“公平”特徵的成人

圖37 8-12 月大的嬰幼兒參與測試，相對具有“公平”特徵的成人，更願意選擇相同族裔成人

圖38 人的需求既包括生理和安全這類基礎需求，也包含著的人類價值和社會因素，構建智慧體價值體系時，需要以人類價值為基準，構建分層分級的價值體系

在價值體系（V系統）的構建中，我們採用了分層分級的架構，借鑑了馬斯洛需求層次理論和施瓦茨價值觀理論等經典心理學理論。價值系統分為五個層級：基礎自我價值、高階自我價值、多智慧體互動價值、基礎社會價值和高階社會價值，涵蓋了從基本生存需求到高階社會價值的完整譜系。

圖39 價值驅動：除了關於自身的價值驅動，人還具有與他人相互作用產生的價值，以及在社會中作為利益共同體的價值

圖40 通智測試的能力測評系統，按照從L1到L5的順序，對能力要求的難度逐漸增加

能力評估系統（U系統）則構建了視覺、語言、認知、運動和學習五個維度的評估框架。每個維度設定了五個能力層級，隨著層級提升，任務複雜度逐漸增加，對智慧體的要求也隨之提高。例如，在語言能力評估中，從最基礎的詞語理解發展到複雜的多主體互動推理；在運動能力評估中，則從基本的自主運動發展到高階的社會互動能力。

舉個例子，評估智慧體語言能力時，第一層級就是理解詞語，第五層級就得實現推理和理解多人、多智慧體互動；評估運動能力時，第一層級需要智慧體控制自身運動，到了第五層級就包括社會互動與價值流動。這只是一個簡單說明，實際基於通智測試出版的書籍《通用人工智慧：標準、評級、測試與架構》超過200頁，其中設定了86項能力測試，並進一步衍生出更大量的任務測試，累計任務指標多達上百項。

圖41 《通用人工智慧：標準、評級、測試與架構》形成了標準化、定量化和客觀化的完備評估體系

圖42 能力系統與價值系統相互作用，價值驅動能力系統產生行為，能力產生的行為與外界相互作用，又能夠構建價值系統

在這個評估體系中，價值系統和能力系統緊密關聯、相互促進。智慧體基於內在價值驅動外在能力，透過與環境的互動反過來強化和完善其價值體系。這種動態平衡與人類認知發展過程高度類似：價值導向推動行為表現，行為體驗反饋強化價值認知。

圖43 通智測試UV評價系統，兩個系統又各自分5個評價等級，構建了完整的“雙輪驅動”評價體系

至此，通智測試完成了它“價值”與“能力”的“雙驅動評價體系”。這個體系將能力空間和價值空間進行聯合考慮，設定了5個通智測試等級（Level 1-5），進而形成了一套基於能力與價值雙系統的通智測試評級理論。它建立的任務強調實用性、可測量性及與人類智慧發展一致性，成為挑戰傳統理論的正規化，彌補了傳統理論缺陷的典範。智慧體能夠在通智測試中透過完成任務進行測評，能完成的難度越高，最終就能夠實現U（能力）和V（價值）越高的融合程度，就越接近真正的通用智慧體。

不僅如此，我們還提出一套標準來闡釋我們的UV評級框架，即“四論標準”，在人類社會中，我們常會因評價標準單一而陷入困惑：是看“他做了什麼”，還是看“他為何這麼做”？這種“論跡不論心”的爭論，不僅存在於對人的評價中，也同樣適用於人工智慧的評估。一個 AI 系統即便表現優異，但如果其動機不明、推理不合理，能否信任就會成為問題。為解決這些困擾，TongTest 提出了“四論”標準闡釋 UV 評級框架，從“論績、論跡、論理、論心”四個層次出發：

第一個層次是"論績"，也就是考察最基本的結果。這就像考試打分一樣，首先要看答案對不對。

第二個層次是"論跡"，關注行為過程。比如，一個AI系統即使給出了正確答案，如果是靠隨機猜測得出的，那麼這個過程就值得打問號。這就像老師不僅要看學生的考試成績，還要觀察他們平時的學習態度和解題思路。

第三個層次是"論理"，檢驗推理過程是否合理。舉個例子：解數學題時，即使最後答案對了，如果計算步驟錯誤，就說明這個解題過程不可靠。現在很多AI模型就存在這樣的問題 – 雖然能得出正確答案，但中間的推理步驟卻常常出錯。

第四個層次是"論心"，審視AI系統的價值觀和動機。這是Tong Test最高層次的評估。因為即使一個AI系統能得出正確結果，推理過程也很嚴謹，但如果它的價值取向有問題，可能會帶來嚴重後果。

TongTest 的“四論”標準透過“論績”夯實基礎，“論跡”剖析行為，“論理”保障推理可信，“論心”聚焦價值觀正確，層層遞進、環環相扣。這一標準不僅是技術突破，更是倫理實踐的積極探索。它就像為 AI 量身打造的“體檢報告”，不僅關注身體健康（結果與行為），還深入檢查大腦（推理能力）和心靈（價值觀）。只有在“四論”都達標的情況下，AI 系統才能真正令人信任，並在未來社會中實現長期可持續發展。

從生物進化的角度看，智慧體的發展遵循一定規律：大腦容量的增加往往帶來智慧水平的提升。這背後是基因選擇、物種演化等複雜過程的結果。一個智慧體的智慧水平由三個系統決定：認知架構（Cognitive architecture, 字母C表示）、能力系統（Potential Functions, 字母U表示）和價值系統（Value System, 字母V表示）。儘管人類在某些具體能力上可能不及其他物種，但正是這三個系統的綜合優勢使人類成為最高階的智慧體。基於此，通智測試致力於構建一個能夠涵蓋並超越現有智慧體能力上限的評估系統。

圖44 從數學的角度，可以將所有智慧體看作CUV作為變數的函式。C代表認知架構，U代表能力系統，V代表價值系統。人比黑猩猩、猴子這樣的動物要高階，儘管人類的運動能力可能不如黑猩猩和猴子，但是從整體上來說人的CUV比黑猩猩、猴子的CUV整體上要高，所以綜合來看人的智慧程度是要高於這些動物的。要達到能測試智慧體這個目標，就要站在最外圈這個“點”上，即認知架構、能力系統、價值系統都超越現有智慧體上限的這個位置去建構，去尋找智慧體的“公倍數”

通智測試的創新性主要體現在三個方面：

首先，它採用無限任務框架。無限任務指的是在通智測試中，任務的數量是無限的。我認為，一個智慧體需要完成無窮無盡的任務才能稱之為“通用”，真正的標準應該是在複雜環境中處理無限多項沒有預先設定的任務。在以往傳統大模型的設計中，智慧體任務是由專一任務轉向多工處理的，任務的數量是“疊加”起來的，這種疊加的方式帶來一個問題：要疊加到多少任務，才算真正的“通用人工智慧”呢?如果100項任務算是“通用人工智慧”，那麼出現第101項任務怎麼辦？所以任務的數量不能是絕對數，而是要滿足任務“無限”湧現才可以，只有像通智測試一樣，任務是無限的，才能夠實現真正優秀的泛化能力。

其次，它重視自主任務生成能力。人們憧憬著有朝一日智慧體能夠很好地融入人類日常生活，這就需要智慧體可以根據外部環境事件和自我內在狀態的變化，隨時隨地自動產生各種各樣的任務，這也意味著在投入實際場景前，智慧體能夠應對和現實生活一樣的隨機要求。但是，如果智慧體的執行完全依賴人類預設的任務目標，即便擁有海量訓練資料和全面規則，仍然無法很好地應對未經訓練的特殊情況和意外事件。例如，當孩子正拿著一個對他來說頗具危險性的小物件，沒有經受過該物件資料訓練的智慧體能否自主識別出該任務的不合理之處並形成保護孩子安全的新任務？

為了應對這種情況，智慧體需要具備自主定義任務的能力。當智慧體處於開放環境時，它需要依據自身價值判斷並自主設定任務，甚至可以進一步透過實際觀察和體驗來學習，逐步累積經驗並塑造認知。這是通智測試的第二個特點。

最後，它強調價值驅動和人類對齊。通智測試的價值體系（V系統）是它的核心組成部分。為了讓智慧體自主生成並完成符合人類需求的任務，通智測試融入了人類的基本價值觀，使智慧體有能力學習和理解人類的價值偏好，並最終實現與人類價值的對齊。這意味著通智測試不但從功能上完成對智慧體的測試和評級，同時還能保證被測試的智慧體有足夠的、能透過人類社會安全“紅線”的能力。

圖45 通智測試與其他測試對比優勢明顯

這些創新點對通用人工智慧領域意義非凡，也讓通智測試具有明顯比較優勢。

其他智慧體測試往往有以下缺點：

第一，任務複雜度不足，主要基於在特殊設計的環境中的對話/影像/操作，而沒有在人類世界中複製物理和社會互動。第二，主觀偏見與缺乏量化。不同的人有不同的主觀判斷標準，缺乏對不同智慧體之間的量化評估。第三，缺乏價值測試，只有能力測試。第四，缺乏對自主任務生成的測試，只有人類指定的任務。

現在我們再來討論討論AGI的現狀，近些年，隨著人工智慧的迅猛發展，尤其是自ChatGPT4釋出以來，社會各界人士對人工智慧的未來形態或者說通用人工智慧愈發關注，行業內的高校與企業也頻頻聚焦通用人工智慧，然而 AGI的定義、評級與測試依舊沒有達成共識並嚴格提出。制訂一個嚴格的 AGI 定義和定量評級標準與測試平臺是一個世界性的科學難題，我們列出了近年來國內外知名團隊所提出的AGI內容並進行比較。

表國際知名平臺在通用人工智慧定義、分級與測試的比較

現階段，圍繞AGI定義、分級與測試的內容有以下三種情況：

①傳播廣但淺嘗輒止，如OpenAI提出的AGI五階段，然而我去搜索時發現OpenAI官方並未釋出相關報告，所有訊息來自2024年7月彭博社(Bloomberg)報道了OpenAI的內部傳聞，只給出了五行話以粗糙概括AGI的五個階段；

② 嚴謹深入但仍無法給出答案，如Google DeepMind在2024年釋出了一篇paper，它比OpenAI更全面地對AGI定義、分層與測試進行了闡述，深刻分析了其中的困難性，原文認為remains an open research question。舉一個例子，Google DeepMind對AGI分級時對第二級的定義是“熟練成年人的第50百分位”，這是不能直接拿來用的，光是這項層級指標就涉及兩類模糊問題：如何定義並建模熟練成年人？機器與熟練成年人如何比較（即它提出的50百分位）？

③ 給出了可行的方案但只解決單點問題，如之前走紅的ARC-AGI任務，建設性地提出簡潔的任務，評估複雜的抽象與推理能力，引發了人們對通用人工智慧的思考。然而，它的著眼點相對單一，這一測試還不足以全面覆蓋通用人工智慧測試的所有維度。

對比後我們發現，儘管國內外多個平臺已從不同視角對通用人工智慧的定義、分級和測試進行了探索，但並未解決“給出嚴格的AGI定義和定量評級標準與測試平臺”這一世界性的科學難題。

通智測試則採取了一種全新的策略，為通用智慧體的實現設計了一套頂層測試方案。通智測試的設計全面考慮了通用人工智慧的關鍵特徵，填補了通用人工智慧評測的空白。這不但有助於指導研究者為通用人工智慧構建綜合的設計架構與完善的評估體系，而且能夠為人工智慧的安全治理問題提供積極的解決方案。

圖46 圖靈測試無法準確衡量人工智慧的智慧程度，通智測試彌補了圖靈測試方法的侷限性

從實用性來說，在通智測試標準化、定量化和客觀化的評估體系下，政府可針對不同水平的智慧體制定不同的監管准入機制，對於規範化通用人工智慧的發展具有重要參考意義。另外，通智測試的評級機制還可以為通用人工智慧的科研路徑提供明晰可靠的路線圖，協助相關領域的研究者找準科研道路上的前進方向。

構建通智測試平臺，形成全球首個AGI評級測試標準體系，就是對我開頭提到的那幾個問題的“答卷”：

到底多“通用”才算是通用人工智慧？

我的回答是“能力與價值都與人類對齊”。

通用人工智慧需要完成多少項任務？

我的回答是“無限任務”。

如何評估智慧體的進步？

我的回答是“能力與價值雙驅動，分級評估”。

以什麼標準評估智慧體的能力與價值水平？

我的回答是“基於四論標準：論績、論跡、論理、論心”。

到2024年，蓮花山研究院已經成立20年了。我們從影像大資料出發，現在火熱的大資料、大模型這條路我們也走過，但我們最終還是堅定地選擇和踐行了“小資料、大任務”的研究正規化。我堅信這一份在科學創新中的理智和冷靜：堅持不“隨大流”，堅持長期主義，堅持人工智慧與人類價值對齊的本質，做困難且正確的事。

我們在實現通用人工智慧路上一直在不斷探索，不斷重構，不斷創造，不斷再出發。賡續“蓮花山”精神，建立基於價值的通用人工智慧體系，獨立自主地實現中國通用人工智慧，將是包括我在內的中國科學家的責任和不懈追求。

思考：

思想自主與敘事權爭奪

在當前通用人工智慧（AGI）發展程序中，"大資料+大算力+大模型"的發展路徑已成為一種根深蒂固的思維定式。這種認知框架的形成源於深度學習在多個領域的成功實踐，同時也受到大型科技公司持續投入和商業成功案例的強化。隨著GPT系列、DALL-E等大模型的出現，這種發展路徑似乎獲得了更多支援。然而，這種思維定式可能過度簡化了AGI發展的複雜性。

西方主導的敘事與戰略佈局

在這種思維定式下，一種特定的敘事體系逐漸形成。晶片算力被視為決定性要素，資料規模被認為是核心競爭力，模型引數量成為衡量技術進步的關鍵指標。資本市場將算力基礎設施投入作為重要的估值參考，媒體持續關注算力規模和硬體升級，企業則競相釋出更大規模的語言模型。這種敘事不斷強化著既有的發展路徑。

這種敘事背後是西方主導的戰略佈局。美國透過政府與企業的協同行動，構建了一個系統性的敘事框架。在政策層面，2023年4月設立"白宮人工智慧特別顧問"統籌國家AI戰略，9月國防部啟動"AI曼哈頓計劃"整合科研資源。在產業層面，OpenAI、Google等科技巨頭不斷強調其在算力晶片與AGI研發的優勢地位，將技術門檻塑造為"難以逾越的鴻溝"。這種敘事得到資本市場的積極響應，進一步鞏固了美國在全球AI領域的主導地位。

在學術領域，西方的話語主導權同樣顯著。NIPS、ICML等高水平學術會議的投稿和評審長期由歐美學者主導。2024年諾貝爾物理學獎授予神經網路領域的開創性研究，不僅是對Hopfield和Hinton個人成就的肯定，也強化了西方在AI基礎研究方面的學術影響力。這種學術話語權的集中，某種程度上限制了全球AI研究的多樣性發展。這種西方主導的敘事透過主流媒體和社交平臺得到廣泛傳播，國內媒體的跟風報道更強化了這種影響。

思想自主是科技創新的前提

面對這種情況，中國需要建立獨特的發展路徑。中國思想體系是在五千年文明發展中積澱而成的智慧結晶，其特點是"心"與"理"的統一，強調推己及人的價值判斷。這種思維方式為AGI發展提供了獨特視角：不僅關注技術本身，更重視其與人文價值的融合。從上古時期的河圖洛書，到儒、道、法等各家學說，再到理學、心學的發展，形成了一個完整的價值認知體系。

圖47 中國思想的“五彩線”模型

注：最上層列出了時間標尺，以 1000 年為刻度，中國有超過 5000 年的文明史，這裡顯示從公元前 3000 年到公元 2000 年。接下來的一層是中國的朝代，再下面是典型的思想，如上古時期的河圖、洛書，之後的周易，儒、墨、道、法，禪宗，理學，心學等。再下面是代表性人物，如伏羲、孔子等。再下一層是一個“五彩線”的模型，其中一些關鍵時間點做了標識，如公元前134 年出現董仲舒以及“罷黜百家、獨尊儒術”。最下面列出的是其他文明對中華文明的影響：它們對中華文明的影響不是一蹴而就的，而是有個過程，用不同顏色的曲線表示；線條的長短近似表示思想流傳的時間，但不能也無需過分精確，線條的顏色是隨機選擇的；公元前 800 年—公元前200年的所謂的軸心時代特意標示了出來。

基於中國思想的AGI發展模式，應該突破單純的資料驅動，轉向更綜合的正規化。這包括提出"小資料、大任務"的技術路線，強調效率與價值；構建融合"心"與"理"的通用智慧體系；注重人機共生的智慧社會構建。在具體實踐中，如北京大學武漢人工智慧研究院開發的社會模擬器，透過"價值驅動"演算法研究不同治理模式的效能，開創了人文社科研究的新方法。

圖48 全球首個大型社會模擬器（大科學裝置）

發展中國特色的AGI道路需要強大的文化自信。這種自信體現在深入挖掘中華傳統文化中的科學智慧，推動古今中西的深度對話與融合，構建具有中國特色的技術評價體系。透過這種方式，中國能夠在AGI發展中提供獨特的價值主張：不是簡單追求技術領先，而是致力於構建一個更富人文關懷、更具普世價值的智慧文明範式。

此外，中國還應該充分發揮自身優勢。龐大的應用市場、豐富的場景需求、完整的產業鏈，這些都是發展人工智慧的重要基礎。透過建立獨特的發展正規化和價值體系，中國能夠在AGI發展中貢獻獨特的方案。

構建自主的發展道路並非意味著封閉。相反，中國應該在保持技術自主的同時，積極參與國際對話與合作，推動全球AI發展的多元化。這不僅有利於打破現有的敘事壟斷，也能促進人工智慧技術的健康發展。

總的來說，突破西方主導的敘事框架，建立思想自主的發展道路，是中國AGI發展的關鍵。這需要學術界、產業界和政策制定者的共同努力，在認清現實的基礎上，探索符合中國特色的人工智慧發展之路。