3.4‍

知識分子

The Intellectual

圖源：pixabay

編者按

今年年初，國產大模型DeepSeek憑藉低成本和優秀的推理能力震動了業界，但對普通人來說，恐怕給人更深刻的是它犀利的語言風格。看慣了GPT-4百科式精準而波瀾不驚的語言風格，DeepSeek的嬉笑怒罵讓人親切得多，甚至有時會讓人覺得恍惚。AI似乎早已躍出了我們對工具的固有認知，我們對話的，是不是已經是一個具有智慧的矽基生命？

在新書《為機器立心》中，北京通用人工智慧研究院院長、北京大學智慧學院院長、北京大學人工智慧研究院院長、清華大學基礎科學講席教授朱松純就為我們講述了和AI的“相處之道”，我們應該如何和AI共生，又如何讓AI理解人類的善與美。

本書是朱松純教授對通用人工智慧的深刻思考與實踐總結，解答了什麼是通用人工智慧、如何認清智慧的本質、如何為人工智慧找到統一理論與認知架構，進而為機器立“心”等重要問題。旨在為AI賦予“心”與“魂”，開啟智慧時代的“中國時刻”。

書中不僅直面當下AI的迷思——如“ChatGPT是否只是‘缸中之腦’”“如何超越‘鸚鵡學舌’式的智慧”，還提出了獨到的“1238”路線圖：一個統一框架、兩大系統完備性、三項基本特徵、八大關鍵問題，為通用人工智慧的研究提供了系統性思路。書中還介紹了四大研究成果：通用智慧體“通通”、大任務模擬平臺“通界”、評級標準“通智測試”、科研平臺“通境”，並探討了AI與產業結合的可能性。

以下內容出自該書第一章。朱松純指出，我們對於大模型的能力仍然存在高估，更關鍵的是，大模型的雖然出色，但仍然是缸中之腦，不具備真正的智慧。若AI無法建立符號與實在的實質性聯結，它的“智慧”可能終將困於語言的鏡廳之中。

撰文 | 朱松純

大模型與缸中之腦

缸中之腦是由哲學家希拉里·帕特南（Hilary Putnam）提出的一個著名思想實驗。如圖 1-1 所示，該實驗假設將人的大腦與身體剝離，大腦被放入一個能夠維持其機能的盛有營養液的容器中，一臺聯結大腦神經元的超級計算機負責製造出各種幻象，讓大腦誤以為一切仍保持正常，就像《駭客帝國》所演繹的那樣。那麼，人類該怎麼知道自己不是 “缸中之腦”呢？

圖1-1 "缸中之腦"

基於語義學的分析，帕特南指出，當處於缸中大腦狀態的人聲稱自己是“缸中之腦”時，“缸”和“腦”的所指已經發生了變化。如何理解這一觀點呢？

舉個簡單的例子：假設存在一個孿生地球，其居民的生活方式、語言均與人類相同，但他們的水分子構成為 XYZ，而不是 H2O。兩種“水”在外觀、用途和名稱上並無差異，且兩地居民對“水”的心理感知相同，但它們指向的實質卻不同，因此其含義也應有所區別。這也啟示研究者要從符號落地（symbol grounding）的視角看待大模型[1]。

我們研究團隊的成員前段時間發表了一篇論文：Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models(《缸中之腦：關於大語言模型建立的通用人工智慧的一些缺失》)。該論文指出大模型無異於“缸中之腦”，因為大模型本身並不存在於真實世界中，無法像人一樣實現從“詞語（word）”到“世界（world）”的聯結。

這一點是由它的內在構造機制所決定的，即透過統計建模在大量文字上進行訓練，學習文字之間的語言學相關關係，從而根據上一個詞語預測下一個詞語。缺乏符號落地使得大模型很容易陷入無限迴圈，如圖 1-2 所示，使用者啟動了一個話題，讓兩個 GPT-4 進行對話，它們在只進行一輪對話後，就開始對彼此表示感謝，並且無限重複“感謝”。這與符號落地理論相呼應，即當不能建立從詞語到世界的聯結時，對話將進入無限迴圈。

圖 1-2 兩個 GPT-4 無限迴圈的對話

大模型的智慧與其說是內在的，不如說是人類智慧的投影。大模型生成的文字本身並不具有意義，其意義完全取決於人類使用者對文字的闡釋。美國語言學家諾姆·喬姆斯基（Noam Chomsky）曾經嘗試挑戰語言學界，構造了一個符合語法規範但無意義的句子：無色的綠思狂暴地沉睡（Colorless green ideas sleep furiously）。中國語言學之父趙元任在《從胡說中尋找意義》一文中，以一種充滿哲思的方式闡釋了這個句子：

我有一個朋友，總是充滿各種想法，好的和壞的，精緻的和粗糙的，陳舊的和新穎的。在付諸實踐之前，他通常會把新的想法放在心裡，讓它們成熟和發酵。然而，當他匆忙時，有時會在想法完全成熟之前就付諸實踐，換句話說，當它們還很 “生”的時候。他的一些“生綠”想法非常生動且豐富多彩，但並非總是如此，有些則相當樸素和無色。當他想起一些無色的想法仍然太不成熟，以至於無法使用時，他會再次考慮，或者讓它們“睡覺”，正如他所說的那樣。但是，其中一些想法可能彼此衝突和矛盾，當它們在同一晚上一起“睡覺”時，它們會爆發激烈的爭鬥，將整個夜晚變成一場噩夢。因此，我的朋友經常抱怨說，他那些無色的“生綠”想法睡得很狂暴。

這段充滿哲思的闡釋讓我們深刻理解到，文字本身並不攜帶固有的意義，而是人類賦予了它們意義。這種意義既可以是字詞本身的含義，也可以是結合了現實生活體驗，從而超越單個字詞而在語境中創造出來的新的含義。因此，意義的前提是符號落地。

現在的大模型更多的是在純符號空間中進行符號組合，即使它們生成了諸如“我愛你”這樣的語句，也不過是另一種形式的“缸中之腦”。這種表達缺乏對人類真實生活體驗的深刻理解，因此與我們所認同和期待的“我愛你”有著本質的不同。

是真的掌握了概念，

還是僅僅形成了“隱藏記憶”

大模型訓練資料集的不透明性，以及人類評估時所採取的指標差異，可能導致人類高估了大模型的真實效能。

大模型通常利用龐大且容易獲取的網際網路資料進行訓練，而訓練資料中可能包括了用於後續評估的資料集。由於我們目前無法確切瞭解 GPT-4 等大模型訓練資料集的構成，“泛化”這一概念變得模糊不清。我們難以判斷這些模型是真的掌握了核心概念，還是僅僅在從訓練過程中形成的“隱藏記憶”中進行檢索。這種不透明性阻礙了學術界對這些模型進行公正和可靠的評估。

圖 1-3 顯示的是一道連掌握加減進位運算的小學生都能正確解答的數學題，但是 GPT-4 大模型卻算錯了。這說明大模型沒有掌握哪怕最簡單的加減法運算規則。

圖 1-3 GPT-4 大模型出現的計算錯誤

圖 1-4 顯示的是 GPT-4 大模型未經事實驗證，就胡亂編造地生成 “林黛玉倒拔垂楊柳”的事實性錯誤內容。這說明大模型雖然透過海量文字資料分別學到了“林黛玉在大觀園”和“魯智深倒拔垂楊柳”的內容，但是本質上並不具備事實判斷的能力。它所表現出的乃是一種“知識幻象”。

圖 1-5 顯示的是 GPT-4 大模型編造的宋江、吳用、花榮“桃園三結義”的故事。這同樣說明了大模型本質上不具備事實判斷的能力，而只表現出一種“知識幻象”。

圖 1-4 GPT-4 大模型杜撰的“林黛玉倒拔垂楊柳”

圖1-5　GPT-4 大模型自行更換了“桃園三結義”中的人物

圖1-6 顯示的是當輸入“馬騎著宇航員”的英文“A horse is ridingan astronaut”時，某文生圖大模型生成的結果。生成的影像是宇航員騎著馬，而不是馬騎著宇航員。這表明該模型在理解自然語言的字面含義方面存在侷限，並不能準確地解析和生成與輸入語句含義相符的影像。

圖1-6　某文生圖大模型生成的錯誤影像

此外，大模型的一個重要問題是嘗試將本身不屬於語言範疇的問題轉化為語言問題。然而，在這一轉化下，本身不使用語言而使用計算模型的問題自然變得漏洞百出。比如，經過統計，在處理一個小學難度的資料集時，即使是採用了多步迭代策略的大模型，其正確率也難以超過 50%。大模型在處理資料集時的正確率見表 1-1。

在傳統邏輯推理任務中，大模型的準確度往往依賴於語言的清晰度和具體性。一旦我們將原本具有明確語義的詞彙替換為抽象的符號，大模型的推理能力就會急劇下降。

大模型做不好抽象推理，在那些僅依賴於從幾個小樣本中找到潛在規律的任務中，大模型的表現較為一般。如圖1-7 所示，在以英國學者約翰·C. 瑞文（John C. Raven）命名的瑞文標準推理測驗中，測試者需要根據已有的8 個圖形的形狀、數量、大小等，尋找隱含的規律，然後推理出最後一個圖形。大模型在瑞文標準推理測驗中的表現較差。

圖1-7　瑞文標準推理測驗中的圖形推理問題

大模型在創造力方面的表現也遠遠不如人類，甚至在某些方面達不到兒童的水平。最近，研究人員提出一種創造力測試方法，靈感源於歐美廣受歡迎的電視節目中的遊戲環節。這項測試要求參與者對一組單詞進行分類，並說明其分類的邏輯依據。實驗結果顯示，與人類參與者相比，大模型在解決此類問題時遇到了顯著的困難。

大模型雖然在某些方面表現出色，但它們並不具備真正的“智慧”，更像是一種新型的“資料庫”。在實際應用中，大模型最常面臨的問題之一是所謂的“幻覺”現象。這些模型在海量文字資料上進行訓練，因此在回答問題時，它們往往會搜尋所有訓練資料，尋找與問題在統計意義上相似的內容來回答。然而，這種回答僅僅基於問題和資料之間的 “相似性”，並不是真正的“相關性”。

資料價值趨於飽和，學術界普遍認為大模型不是通用人工智慧。OpenAI 的執行長山姆·奧爾特曼（Sam Altman）曾公開表示，目前大模型所使用的資料量已經接近公開可獲取資料的極限，盲目提升規模並不會帶來可預見的突破。

資料是大模型訓練中的關鍵要素。在微軟的加持下，OpenAI 得以利用先進的搜尋技術，其訓練資料集已經非常廣泛，幾乎涵蓋了網際網路上所有可公開訪問的資訊，資料的價值幾乎已經被耗盡。

GPT-4 在很大程度上代表了在當前資料集規模下所能達到的效能極限。在這種情況下，單純增加資料量或模型規模，將難以在人工智慧領域再次實現質的飛躍。

為什麼大模型不是AGI

在圖靈獎得主楊立昆（Yann LeCun）看來，大模型研究是在走人工智慧的下坡道。現有的研究缺乏對於認知推理模型的構建，而單純的資料驅動無法達成人類級別的智慧。楊立昆同時表示，ChatGPT 缺乏創新，沒什麼革命性，ChatGPT 推出的 GPT-3.5 模型在很多方面綜合了這些年來多方所開發的多種技術。

加州大學伯克利分校認知心理學教授艾利森·戈爾尼克（Alison Gopnik）在近期的文章中指出，大模型是一種模仿機器，缺乏認知推理所需的創造力。許多嬰兒都能完成的任務，大模型至今無法完成。

首先，大模型語言空間無法覆蓋所有智慧任務。由於大模型對於符號資料的依賴性，其效能僅表達符號層面的“知”，卻無法完成操作層面的“行”，不滿足對於通用智慧體“知行合一”的要求。

現實生活中存在大量符號資料難以表達的任務，比如，炒菜的時候如何把握火候、駕駛的時候如何控制方向等。這一類任務無法利用符號化的文字進行表達，也無法利用大模型進行學習。同時，大模型由於沒有“行”，沒有動機、目標，也沒有操作的具身空間，完全無法像人類一樣，在一個實體空間中進行主動探索、發現知識和積累知識。這使得大模型只能被動獲取內容，而無法主動掌握技能。

麥克阿瑟“天才獎”得主、華盛頓大學教授、美國阿蘭圖靈研究中心研究員葉因·蔡（Yejin Choi）在 TED 大會上公開表示，大模型缺乏常識概念，不具備人類主動探索的能力。

其次，大模型具有虛假湧現及不可控的特性。斯坦福大學的研究者們最近發現，大模型所謂的湧現能力並非真實存在，而是衡量標準的結果。他們採用了非線性衡量標準，如採用指數標準 xn。隨著 x 的線性增長，模型的表現似乎呈現出指數爆炸式的湧現現象。然而，如果採用線性衡量標準，大模型的表現僅呈現線性增長，不存在效能提升越來越快的情況，更不存在量變到質變的可能。

此外，基於神經網路的大模型有巨大的不可控性。作為一個黑盒模型，我們無法預測其輸出內容，尤其是在輸入大量錯誤資訊後，模型很容易產生不可控的輸出。

[1]《知識分子》編者注：帕特南認為，詞語的意義不僅依賴心理狀態或語言規則，更取決於其與外界的實際指稱關聯。若一個人是缸中大腦，其感官經驗完全由計算機模擬，那麼“缸”和“腦”所指的並非真實物件，而是虛擬訊號；同樣，孿生地球上的“水”雖與地球水外觀相同，但因化學成分為XYZ而非H₂O，其意義已悄然分化。這引出了符號落地問題：語言符號需透過與現實世界的直接關聯獲得意義。而當前大語言模型雖能透過文字資料生成語言，卻缺乏與現實經驗的直接錨定。

BOOK TIME