最近一邊使用AI,一邊與其他使用者和技術工作者進行一些交流,同時因為好奇,簡單閱讀了一些語言學的資料,形成了一些個人認識,在此記錄一下。專業詞彙使用上可能並不太準確,十分歡迎語言學和AI技術專業讀者批評指正交流。
作者理解,語言學(語言哲學)對AI的產生與發展影響巨大。1957年喬姆斯基出版《句法結構》,提出了“生成語法”,形成了所謂“生成學派”(喬姆斯基學派)。
在《句法結構》中,喬姆斯基提出,把“語言”看成(數量有限或無限的)一套句子,每個句子的長度及其基本結構成分是有限的。對某個語言進行語言分析的根本目的,在於把能夠構成這一語言的句子的、符合語法的序列和不能構成這一語言的序列區別開來,並把那些符合語法的序列的結構加以研究。喬姆斯基就此提出了“語法的獨立性”。喬姆斯基以英語為例,舉了一個例子,“在I saw a fragile-這樣的上下文裡,whale和of這兩個詞在一個說話者過去的語言經驗裡出現的頻率可能都是‘零’”。喬姆斯基還認為,“找出了一種語言的語法,才能用各種方法去研究統計學在語言上的用處,把機率論模式應用在語言上(這與語言的句法結構不同),可能很效果。”
僅從《句法結構》上述表述和目前作者對AI語言生成能力的粗淺認知,大概理解生成式語言AI模型的“工作原理”,是先建立語法結構(語言規則),再用大規模的語料庫(文字資料)進行“訓練”。在訓練初期,可能產生大量符合語法結構但毫無實際意義的反饋(也就是每個字都能看懂也符合語法規則,但不知道什麼意思),透過人類“打標籤”等方式去“匡正”AI生成文字反饋,使其既符合語法結構,也看起來具有“意義”。符合語法結構較容易實現,類似制定一個數學公式,然後用數字符號去套用各種公式,得到答案。數學語言、計算機語言也是一種語言型別,也存在自身的語法結構,相較而言,這類人造的非自然語言是很容易處理的,因為其“意義”並不像人類自然語言那樣複雜,也不帶有“情緒”。人類的自然語言能夠讓人類產生“意義感和情緒感”,細微的差異,人們的感受完全不同。這種語言與感受建立起的關係,是在現實生活中、在社交活動中產生的。如果沒有集體活動、社交活動,那語言的意義也就消失了,語言對情緒的影響也就消失了。因此,在建立語法規則後,真正重要的工作,是透過足夠規模的算力,去實現對語料庫海量語言資料的“統計”,經由統計,去“推測”當出現一句話之後,下一個字出現的可能性有多大。再擴充套件一點,當一個片語或者短語出現後,接下來最有可能出現的字詞是什麼。
如同喬姆斯基舉的那個例子,AI雖然不瞭解人類語言帶來的“意義和情緒”,但它可以透過語料庫的統計分析,形成“推測”,確定下一個字出現的機率,再根據機率進行輸出,在輸出過程中,還可以根據不同可能性進行修正。這種推測能力在GPU算力突破後,產生了“湧現”,看起來,AI就像突然開光了一樣,能夠像人類那樣“思考”了。實際上,這種“思考”是在語法規則為前提,前期人類“匡正”訓練下,才實現的。打標籤這項工作,在語言AI大模型初期,是由很多基層的工作人員去做的,主要是為了避免犯“低階錯誤”。但僅有這些,也就是讓AI的反饋看起來沒有表面上的錯誤,並不能讓反饋質量顯著提高。
所以我們發現,後期的語言類AI模型中,如果有語言學或者文學專業的工作人員加入,會讓AI文字反饋的質量大幅提高。這其實是不同階段“匡正”質量不同所產生的不同結果。
前期,在海量人類語料庫裡“提純”基礎語料庫,首要的是排除低階錯誤,不斷完善“語法規則”。所謂“蒸餾”(distill),實際是某個AI在前期已經完成語料庫“提純”的基礎上,再行最佳化“提純”的過程。這種反覆、相互甚至自我的提純,使得傳統的智慧財產權理論已經很難適應現實。每次distill都是為了對AI反饋能力進一步最佳化,或者從算力受限視角而言,去形成一個相對可用的小模型,以減少部署的壓力。
“匡正”的工作,從基礎的打標籤,逐漸走向了高階的專業干預。在這個過程中,思維鏈(Chain of Thought,CoT)從OpenAI的工作論文變成了Deepseek的現實。擁有CoT的AI與前期AI的最大差異,從使用者的視角看,是AI的“自我思考”能力大幅提升。在前CoT時代,AI的反饋質量高度取決於使用者的提示(prompt),要用足夠精確、充分的提示詞,經過反覆多輪的“對話”,才能逐漸獲得使用者滿意的反饋。CoT的引入,讓AI出現了一個能夠瘋狂自我思考的超級員工,它不是先呼叫基礎語料庫直接輸出文字的推測結果,而是先透過一個“深度思考”過程,去分析使用者隨手輸入的要求究竟背後的意圖是什麼。這個分析過程,類似一個十分“懂行”的老員工,能夠根據領導的隻言片語就“揣測”出領導的真實想法。於是AI的反饋從一步變成了兩步,增加的這個“深度思考”過程,本質是透過統計語料庫中人類某個詞彙或者句子可能產生的若干種可能回答,先行分類整理,然後根據分類情況,再去基礎語料庫中完成“推測”輸出。這給人們的直觀感受就非常深刻了。因為絕大多數人類,需要長年的學習與工作,才能從思維的廣度和文字能力上達到這個水平。
語言類AI模型為什麼會有“幻覺”呢?
幻覺可能出於兩個原因:
一是語料庫中並沒有相關話題,此時找不到能夠直接“推算”出文字或句子的機率結果,只能把話題進行分解,找相關內容。由於沒有直接對應的語料,所以這其實是AI在“現編”。如同一個學生寫一篇自己並不擅長領域的論文,查詢了一些資料,然後下筆,寫著寫著,自認為某個觀點可以推匯出來,也就寫下來,實際與現實相差十萬八千里。所以“幻覺”只是一個現象,但這種現象不是AI獨有的,而是人類在使用語言時經常會出現的,類似“不懂裝懂”,或者至少是“未經驗證”。
二是語料庫中雖有相關話題,但在更全面的深度思考的狀態下,AI可能會“自以為是”地擴充套件許多內容,此時一些邊緣性的子話題又超過了語料庫的基礎,AI又開始編造,幻覺再次產生。所以,AI要減少幻覺的產生,需要足夠的人類“匡正”,語料庫的質量越高、內容越豐富,匡正者的專業水平越高,再加上適當的獎勵或反饋機制,那AI的幻覺情況就會大幅減少。
就上述整體而言,Deepseek真正的貢獻是什麼呢?
作者認為,一是Deepseek的基礎語料庫訓練得非常好,尤其是中文文字的反饋質量非常高;二是CoT成為現實,讓AI的使用感受大幅提升到絕大多數人都能夠實際使用的水平。CoT的另一個重要功能,就是它本身就強化了AI的訓練能力,它讓AI變成了一個自我訓練的熟練工。
此時我們發現,技術工作者和普通使用者的視角出現一些差異。例如,Deepseek R1 671B版才是基於Deepseek自己訓練的語料庫形成的,所謂“滿血版”。但作為開源AI,要部署671B版並且長期免費提供給少量使用者使用,在成本上是肯定無法實現的。所以Deepseek用R1版去distill了阿里的Qwen和美國的Llama這兩個開源模型,形成了六個Deepseek R1的小模型版本。這六個小模型,是基於Qwen和Llama的基礎資料,而非基於Deepseek的基礎資料。所以,這種經由Deepseek蒸餾出來的小模型版本,究竟應該叫Deepseek呢?還是應該叫Qwen或者Llama呢?截至目前,這個命名規則實際沒有形成。
我們看到,許多中國大陸平臺當前部署併發布的Deepseek模型其實是Deepseek蒸餾Qwen版本,也就是具有Deepseek的深度思考功能,但基礎資料其實是Qwen的,這與Deepseek R1 671B版在語料庫的豐富程度和訓練精度上是有顯著差異的。
作者認為,蒸餾(distill)並非一個好的詞彙。從模型訓練的角度看,所謂的“教師模型”是負責訓練其他模型的,而“學生模型”是被其他模型訓練的。所以Deepseek-R1-distill-Qwen這種版本,最符合普通人理解的命名方式應當是:Qwen-trained by Deepseek,也就是經由Deepseek訓練的Qwen模型。它的本質仍然是Qwen,但經由Deepseek訓練後,它變得比以前更好用了。
所以,現在打著Deepseek旗號部署Qwen-trained by Deepseek版小模型的平臺,你們的心思還是收斂一些比較好,有的平臺還非要自稱是“滿血版”,這就涉嫌欺詐消費者了。
作者認為,AI的部署與使用要結合實際需求來。儘管當前算力存在冗餘,但在AI普及之後,對算力的需求還是會持續提升的。所以部署哪個版本,最終要看是否能夠滿足自身需求。本地部署的成本,對中型企業都是完全可以承受的。但對個人使用者而言,大多數時候使用差異可能沒有那麼大。
作者再舉個例子。
騰訊混元AI這兩天上線了Deepseek R1模型,作者認為,這個模型是除了Deepseek R1 671B版之外,當前Deepseek模型中最特別的一個。為何這樣評價呢?因為AI的反饋質量高度依賴語料庫的質量。眾所周知,微信公眾號是中文網路最高質量的語料庫資源地。但騰訊並未將公眾號語料庫開放給其他AI,只有騰訊自己的混元AI可以呼叫公眾號。但混元AI在此前個人使用者實際使用的感受,跟阿里、百度的AI並沒有多大差異,也就是隻能玩一玩對話,真用來工作是不行的。但此次騰訊在混元AI上部署了R1之後,很顯然,Deepseek的推理功能就與高質量的公眾號語料資源直接產生了化學反應。從實際使用來看,Deepseek作為一個非常好的訓練者和思考者模型,激活了公眾號的語料庫資源。
僅以作者自身為例,在再全球化、老齡化、美國民粹主義歷史、需求側改革等若干重要話題上,作者的文章僅出現在公眾號上,只有很少部分授權給虎嗅等平臺在網頁版公開。因此在使用其他AI討論上述話題時,作者的觀點幾乎不可見,因為其他語料庫中,並無作者文章資源。這就導致,一些長年僅在公眾號出現的重要觀點,並不在當前所有的AI語料庫中,也未經訓練“提純”。但要理解,部分專業類公眾號的文章質量在過去幾年實際已經遠遠超過一般中文學術著作、網際網路文的質量。上述作者涉獵的幾個話題,其深度和廣度,思考的張力,在中文世界都是足以佔據一席之地的,部分觀點也不斷被實務工作者、海外研究者和智庫頻繁引用。因此,騰訊此次部署Deepseek R1後,實際是首次將最重要的中文語料庫資源納入到一個十分易用的AI模型中,預計將產生奇妙的化學反應。從當前周圍的使用反饋來看,不少金融行業和其他行業的實務工作者明顯感覺“騰訊混元-trained by Deepseek”的質量很高,並且幻覺更少。這首先是因為語料庫質量更高所致。
就此而言,我們當前對Deepseek的理解已經不能只是一個普通的語言類AI模型,它其實是一個優秀的模型訓練者。可以預計,隨著高質量訓練模型的出現,垂類模型應用將會迅速爆發。因為在垂類模型應用中,更加強調“精準”,而專業資料庫的封閉性,加之“匡正”工作的專業化,可以最大程度減少“幻覺”問題,而Deepseek這樣的訓練模型可以快速實現對分類資料的訓練提純。
以上。