關於大型語言模型的爭論和侷限

作者 | Yoav Goldberg

1 引言

大約在2014-2017年間，隨著基於神經網路的自然語言處理（NLP）方法的興起，人們開始圍繞著完美語言建模能夠達到人類智慧水平這一主題展開研究。我當時做了一個半學術半科普的講座。與此同時，在一個學術小組中，有人問了一個問題：如果擁有無限的計算能力並且不必擔心勞動力成本，你會做什麼？當時，我的回答是“我會訓練一個超大型的語言模型，目的是證明算力並不能解決所有問題”。當然，我知道這種說法已經陳詞濫調了，但是事實真的如此嗎？這個觀點該如何與我之前提到的“完美語言建模即智慧”的故事相一致呢？

2 完美語言建模就是AI完備

我講座的主題是“計算機理解語言”，重點探討了Claude Shannon提出的“猜謎遊戲”和語言建模。我開始從人工智慧遊戲入手，然後迅速轉向Shannon於1951年發明的“另一種遊戲”，即“猜下一個字母”。在遊戲中，操作員在文字中選擇一些文字，給出填空處，並隱藏結尾，玩家需要在最少的猜測次數中猜出第一個隱藏字母。

為了更好地說明遊戲，我舉了幾個例子，這些例子涵蓋了不同語言知識和理解水平（從形態學到不同層次的語法、語義、語用學和社會語言學）。結果表明，在遊戲中，人們無需刻意練習就能表現出色，這導致他們無法進一步提升，因此他們認為這個遊戲並沒有多大意義。

然後我提到，相對於人類，計算機在這個遊戲中的表現要差得多，但在訓練計算機玩遊戲的過程中，我們獲取了很多隱含的語言知識。儘管在語言建模方面還有很長的路要走，但我們正在穩步前進，這也是目前機器翻譯的工作模式！

我也指出計算機在這方面還不太擅長，這是可以理解的。原因在於這個遊戲是“人工智慧完備（AI-complete）”的，真正“以人類水平”玩這個遊戲意味著要解決AI所面臨的全部問題，並展現類人智慧。

為什麼這麼說呢？因為遊戲涉及到完成任意文字字首，包括很長的字首、對話以及每一個可能的對話字首，還包括用人類語言表達的各種經驗描述，甚至包括任意主題或情境下每個問題的每個回答，還有高數、哲學問題等等。

總之，要玩好這個遊戲，我們需要理解文字、理解文字中描述的情景，並能夠設身處地將自己代入其中並作出回應。這實際上就是模仿人類的經驗和思維。（有人可能不同意，認為人類也需要詢問與影像、場景或模型無關的感知輸入問題，但我相信你能理解我的觀點。）

這就是Shannon的猜謎遊戲（或稱為“語言建模”）以及為什麼要在人類智慧水平上玩這個遊戲需要具備人類級別的智慧。

構建大型語言模型並不能解決所有問題

如果獲得完美的語言建模能力需要智慧（“人工智慧完備”），那為何我還堅持認為構建儘可能大的語言模型並不能“解決所有問題”？我是否想錯了？

答案是，我不認為基於當時的技術（RNNs / LSTM或Transformer）構建一個超大型語言模型會讓我們接近擁有“完美語言建模”能力。

那麼我是否想錯了？確實有可能。大型語言模型展現出的能力讓我很震驚。事實證明，60B引數和175B引數之間發生了“相變”，這讓模型展現出了驚人實力。相比基於文字上訓練的RNN / LSTM / Transformers語言模型，大型語言模型能做的事情要多得多，我曾說過“它們不能解決所有問題”，但現在它們已經做到了我當時腦海中所能想到的全部事情。

當前的語言模型（ChatGPT的第一個版本）確實“解決”了當時我所擔憂的有關語言理解的所有問題，從這個意義上說，我錯了。但從另一種意義上說，我沒有錯，因為它沒有解決全部問題，至少現在還沒有。此外，當今語言模型的效能不僅僅是透過我當時所想到的語言建模能力獲得的，這一點非常重要，稍後我會加以詳細說明。

接下來，我將簡要介紹當前語言模型（current-day-LMs）與之前人們理解的語言模型（LM）之間的區別，以及一些在我看來大型語言模型尚未“解決”的問題，我還會提及一些正確但無關緊要、無趣的論點。

4 自然語言建模 vs 精心策劃的語言建模

與我所瞭解的情況相反，當前的大型語言模型（例如GPT-3，引數量為170B）的訓練確實是透過語言建模來實現的。這些模型使用自然文字資料進行訓練，包括從書籍、網際網路和社交媒體等來源獲取的文字資料。在過去幾十年中，這種基於文字資料的訓練方式被視為主流的"語言建模"方法，並且這些模型表現出卓越的效能。然而，ChatGPT與這種傳統的語言模型存在一些差異。

ChatGPT與傳統語言模型的不同之處在於其採用了三個概念步驟：指令、程式碼和RLHF。儘管這三個步驟都具有一定的重要性，但相對而言，RLHF在關注度上稍顯遜色。這種解釋可能有些隨意，但我希望將來能夠將其進一步發展為更正式的論點，以便讀者從中得到一些啟發。

傳統的語言模型通常是在純文字資料上進行訓練，但這種訓練方式存在一些明顯的理論限制。其中最明顯的問題是，這種訓練方式無法與文字之外的內容建立聯絡，因此無法獲得文字的"意義"或"交際意圖"，也就是說，這些模型缺乏"接地"。它們處理的只是符號本身，雖然可以在符號之間進行互動，但很難將其置於現實世界中，以"藍色"這個符號為例，儘管模型瞭解這個符號，但卻不瞭解與之相關的實際"藍色"概念。

然而，在指令精調中，模型的訓練者開始將模型同時訓練在"發現的"資料和人類建立的特定資料上（這被稱為"監督學習"，例如從帶註釋的示例中學習）。人類註釋者會編寫一些類似於"請總結此文字"的指令，並附上文字和對應的摘要，或者編寫"將此文字轉換成正式語言"的指令，並附上文字以及轉換後的正式語言。類似的指令會被建立很多（如摘要、翻譯等），然後將這些指令新增到模型的訓練資料中。

為什麼這很重要呢？從本質上講，模型仍然在進行語言建模，透過學習預測下一個單詞。但是，人類註釋者向文字中注入了一定程度的"接地"資訊，將一些符號（如"總結"、"翻譯"、"正式"）與它們所表示的概念/任務一起使用。

由於這些符號（或"指令"）總是出現在文字開頭，它們在某種程度上與其他資料獨立，使得模型能夠將人類的"摘要"概念與生成摘要的行為相關聯。換句話說，這有助於模型學習使用者在"指令"中要求"摘要"的交際意圖。

有些人可能會認為，這樣的情況在大規模文字集合中自然發生，模型已經從中學習到了，那麼還有什麼新的變化呢？然而，我認為，直接從指令中學習可能比從非指令資料中學習要容易得多（例如直接陳述"這是一隻狗"與從人們談論狗的內容中推斷出來的）。此外，將訓練資料的分佈轉向這些註釋用例可以從根本上改變模型的行為和其所具備的"接地"程度。相比之下，使用顯式指令資料所需的訓練文字要少得多。

此外，最新一代的模型還使用程式語言程式碼進行訓練，其中包括自然語言指令（以程式碼註釋的形式）和相應的程式語言程式碼。這一點的重要性在於它提供了一種非常直接的"接地"形式。

我們在文字流中擁有兩個獨立的系統：人類語言和程式語言。

我們觀察到這兩個系統之間的直接互動：人類語言描述概念（或意圖），然後以相應程式的形式進行實現。這兩個系統之間的直接互動實際上是"形式到意義的配對"，相對於僅從形式中學習，我們可以從這種互動中學到更多的東西。（此外，我猜測最新的模型還透過執行程式及其輸出進行了訓練，這是一種更強大的"接地"形式：指稱。這不僅僅是語言建模了。

最後是RLHF（人類反饋的強化學習）。RLHF指的是模型觀察兩個人之間的對話，一個扮演使用者角色，另一個扮演"AI"角色，演示在不同情境下AI應該如何回應。這種方法可以幫助模型學習如何進行對話，並在對話狀態中跟蹤資訊（這在僅從發現的資料中學習時非常困難）。這些人類指令也是我們從模型中觀察到的所有"不恰當的…"和其他公式化/模板化回應的來源。這是一種透過示範來訓練模型展現"良好行為"的方法。

以上是ChatGPT的三種能力。當然，該模型可能還具備其他能力，這就是為什麼我認為它與傳統的語言模型有很大不同的原因，也是為什麼它可能不符合我們（或我）對語言模型的某些限制的期望，以及為什麼它在許多工上表現更好：ChatGPT是一種有監督模型，具備訪問外部模態的能力，並透過演示顯式地訓練以遵循給定對話形式的指令。

5

還缺少什麼？

以下是一些關於語言模型的常見爭論。這些爭論確實存在，但並不具有啟發性，或者與我所討論的不相關：

– 語言模型的訓練成本很高，使用起來也很昂貴。然而，隨著時間的推移，成本會降低，並且在更廣泛的背景下考慮時，語言模型的總能耗相對於其他人類活動的能耗來說微不足道。

– 模型存在偏見和刻板印象。這是因為模型模擬人類語言，而人類本身就具有偏見和刻板印象。因此，在應用模型於實際任務時需要謹慎，但從科學的角度來看，這並不降低模型的有效性、有用性或趣味性。

– 模型並不能真正理解語言，但這並不影響我們關注它能夠做到什麼，並對其缺點進行最佳化。

– 模型永遠無法真正理解語言，但我們可以關注其在某些方面的出色表現，並從其他途徑深入探究語言理解。

– 模型不能像人類一樣理解語言，但它們可以提供關於語言結構的有用資訊，而我們可以從其他渠道獲取模型無法提供的資訊。

– 僅透過形式訓練無法學到有意義的內容，但模型並不僅僅透過形式訓練，具體情況請參見前面的部分。

– 模型只是根據統計規律連線先前見過的片段，這是一個令人驚訝且令人敬佩的成就。儘管連線方式可能存在錯誤，但模型仍然可以選擇出“有意義”的連線方式。

– 我們無法預知這些技術可能對社會產生的影響，但這並不妨礙我們研究其潛在影響。我們可以以謹慎的態度進行研究，而這並不會降低其趣味性、有效性或研究價值。

– 模型不會引用來源，但這不是語言模型的核心問題。我們也很少以特定單一來源歸因知識，而且可以透過複製人類的理性化解釋或先查詢來源再引用的有意識過程來解決這個問題。

從更建設性的角度來看，我們可以探索如何將“語言和推理”的核心知識與特定事實的知識分開，以及如何實現“知識”的知識。

我理解你“想要某些應用有引用功能”的想法，因為不想受到模型的誤導。但我認為，這並不是語言模型的核心問題。人們在真正意義上也並不“引用資訊來源”，我們很少將知識歸因於特定的單一來源，即使這樣，我們也往往是出於理性化解釋或先查詢來源再引用的有意識過程。這種情況是可以複製的。從應用的角度來看（例如想開發一個搜尋系統、論文寫作系統或通用問答系統），人們當然可以致力於將表達與來源聯絡起來，可以透過生成過程或後處理步驟，或者先檢索再生成的設定。確實有很多人這樣做了，但這與語言理解並不真正相關。我認為更有意義，或者更有建設性的問題是：（1）如何將“語言和推理”的“核心（core）”知識與關於“事情（things）”的特定事實的知識分開；（2）如何實現“知識”的知識（knowledge of knowledge，見下文）。

目前有哪些真正的侷限和缺失？

對於目前的“大型語言模型”（包括最新版的ChatGPT），存在一些挑戰需要解決。我個人認為這些問題可能不是非常完善，但它們在某種程度上阻礙了模型對語言的“完全理解”。以下是這些模型尚未能夠完成，或者在完成時表現不佳的一些任務：

1. 多文字相互關聯：在訓練過程中，這些模型將文字視為整體或獨立的資訊片段進行處理。雖然它們可能能夠發現文字中的共同模式，但它們缺乏將文字與現實世界中的“事件”相關聯的概念。如果這些模型在訓練中遇到多個描述同一事件的新聞報道，它們無法知道這些文字都在描述同一個事件，並且無法區分與描述相似但不相關的事件有關的多個文字。因此，這些模型無法從它們所“閱讀”的所有文字中形成一致且完整的世界觀。

2. 時間概念：模型在訓練過程中沒有考慮事件發生的先後順序。除了明確提到的時間資訊外，它們實際上沒有時間的概念。因此，雖然它們可能學習到一些區域性的意義，比如“奧巴馬在2009年成為總統”，並且能夠推斷出其他事件發生在此之前或之後，但它們無法理解時間的流逝概念。例如，如果模型在不同的文字中讀到“奧巴馬是美國現任總統”和“奧巴馬不再是總統”，它們無法確定這些資訊的先後關係和當前的真實情況。它們可能同時認為“奧巴馬是美國現任總統”、“特朗普是美國現任總統”和“拜登是美國現任總統”這些陳述都是正確的。此外，這些模型實際上也沒有有效的方式來解釋類似“X是Y的最新專輯”這樣的陳述以及它們之間的關係。

3. “知識”的概念：模型實際上並不真正“知道自己知道什麼”，甚至不瞭解“知道”的含義。它們所做的只是猜測下一個標記的流程，這個猜測可能基於已經獲取的確切知識，也可能只是純粹的猜測。模型的訓練和訓練資料沒有明確的

4.數字和數學：大型語言模型使用的單詞片段並不適合進行數學計算，無法準確表示數字和數字之間的關係。雖然在一些涉及數字的問題上表現不錯，但在數字和數學表示方面仍有改進的空間。

5.罕見事件、高召回設定和高覆蓋設定：模型更關注常見和可能的情況，對於罕見事件的學習和回憶能力存在懷疑。模型可能無法很好地學習和回憶罕見事件，以及回憶所有事件的能力。

6.資料飢餓：大型語言模型對資料的需求量非常大，這是當前面臨的主要技術問題。模型需要大量訓練資料才能達到優秀的效能。然而，大多數語言沒有像英語那樣的大量資料，特別是沒有很多有價值的數字形式資料。這導致在其他語言上覆制英語理解的成果變得困難。

7.地理和文化差異：機器翻譯可以在某種程度上解決語言差異問題，但在文化、規範、故事和事件等方面仍存在差異。不同地區有著不同的文化背景和特點，這些差異無法透過簡單的翻譯來傳達。

8.資料飢餓和英語/美國中心化的問題：資料飢餓和英語/美國中心化的結合是一個重要的問題，特別是對於那些關心社會影響的人來說。這種情況需要引起我們的重視。

9.模組化：如何將核心語言理解和推理與具體事實性知識分開是一個重要問題。透過將核心語言理解和推理模組與知識模組進行模組化和分離，可能能夠更好地解決資料飢餓和文化知識差距的問題，更好地處理和控制偏見和刻板印象，並且能夠免費獲取知識的知識。

為什麼這很重要？因為這意味著在其他語言中很難複製英語在語言理解方面所取得的成就。比如，對於像我的母語希伯來語、德語、法語、阿拉伯語，甚至是中文或印地語這樣更為常見的語言來說，以及非洲和菲律賓等“資源較少”的語言，複製英語的理解水平都具有挑戰性。

雖然這些語言也可以獲得大量資料，但並不像英語資料那樣豐富。雖然透過“指令訓練”技術可能需要較少的資料，但為每種新語言建立指令資料是一項巨大的工作。此外，如果我們相信在編碼和語言方面進行訓練的重要性（我確實相信），那麼在實現其他語言的類似模型時將面臨另一個巨大的障礙。

那麼，翻譯能夠解決這個問題嗎？畢竟，在機器翻譯方面我們取得了很大的進展。我們可以將文字翻譯成英語，然後在英語上執行模型，最後再將結果翻譯回原語言。雖然這種方法可以在一些表面層面上起作用，但地理區域和語言之間存在差異。不同地區有著獨特的文化、規範、故事和事件，與英語地區的文化、規範、故事和事件在各個方面都存在差異。即使是像“城市”這樣簡單的概念，在不同的社群和地理位置也會有所不同，更不用說“禮貌”或“暴力”等概念了。此外，還有人物、歷史事件、重要地點、植物、風俗等方面的“事實”知識，這些在英語的訓練資料中並未涵蓋，也無法透過簡單的翻譯來傳達。

因此，如果我們希望在英語以外的語言中應用語言理解和AI技術，資料飢餓是一個實實在在的問題。

對於那些關心社會影響的人來說，資料飢餓和英語/美國中心化的結合是一個需要認真考慮的重大問題。