巨浪:生成式AI的神話還能持續多久?(怪盜團新書首發)

網際網路怪盜團的第三本原創著作《巨浪:生成式AI的史詩和現實》業已由電子工業出版社出版並且在各大圖書渠道上架了。正好遇到美國科技股連續兩天暴跌、生成式AI概念短期可能見頂的時候,算是十分湊巧了。在此我想表達一個自己對生成式AI的基本觀點:在長期,它必將徹底改變人類社會的形態,乃至構成第四次工業革命的基礎;在短期,它可能被高估了,尤其是被資本市場高估。前者與後者互不妨礙,我們都既生活在短期、也生活在長期,所謂長期就是由一個又一個短期連續組成的。
半年多以前,當出版社編輯提議我撰寫一部關於生成式AI的書時,我一開始不太感冒:市面上這樣的文章、著作已經很多了,沒有必要再錦上添花。然而,我的態度終究還是改變了,因為透過與幾位在網際網路大廠從事AI研發的朋友交流,我意識到了下面的事實:
  1. 國內對生成式AI產業的理解,很大程度上是割裂的。技術開發者、管理者、投資人和分析師,各自看到了生成式AI的一部分,卻缺乏足夠的交流。至於圈外人士,要想看清產業鏈的整個圖景,就更是難上加難了。
  2. 生成式AI涉及相當複雜的技術細節。市面上大部分關於生成式AI的產業研究和普及讀物,要麼過度糾纏於技術,導致非技術人員看不懂;要麼基本不討論技術,導致失去立足點。找到平衡點是至關重要的。
  3. 生成式AI的技術進步太快了,當人們還沉浸在Sora的震撼中時,GPT-5的公測已經提上了議事日程,更不用說飛速進化的開源大模型了。無論是專業還是非專業人士,都容易沉浸在浩如煙海的新資訊當中,找不到焦點。
因此,我決定寫一本與眾不同的關於生成式AI的書。首先,它應該對AI產業和AI技術過去多年的發展脈絡做一個總結,以高屋建瓴的視角分析事物的全貌。其次,它應該深入淺出地討論AI尤其是生成式AI的關鍵技術問題,但不應沉溺於這些問題。再次,它應該既涉及歐美最先進的生成式AI產業,也涉及中國在追趕中的生成式AI產業。最後,它應該脫離資本市場的短期視角,儘量討論一些基本的、長遠的問題,例如生成式AI到底要如何改造傳統產業。
要針對生成式AI話題寫一本有價值的、站得住腳的書並不容易。幸運的是,我在網際網路和科技行業擁有許多值得信任的朋友。我一直認為,學習一件新鮮事物最好的方法,就是先向信得過的朋友諮詢,以他們的意見為立足點。在本書結尾,我列出了給予我巨大幫助的一些專業人士的名字。除此之外,還參考了生成式AI產業鏈的主要公司,包括英偉達、臺積電、微軟、谷歌、亞馬遜、蘋果、AMD……等等的財報和電話會議紀要。雖然本書只涉及少量技術問題,但仍然參考了幾篇比較重要的AI技術論文,在後記中也一併致謝。
本書的截稿日期是2024年4-5月。在此之後,生成式AI行業又發生了許多巨大變化,例如LLaMA-3釋出、快手可靈釋出、國產大模型價格戰、伊利亞離開OpenAI,等等等等。幸運的是,本書的主要基調沒有過時,仍然是站得住腳的。如果讀者有需要,明年或許會進行一定程度的增補,以體現行業的新進展。

本書目錄如下:

序 生成式AI的突然降臨

第一章 AI之春:一部正在進行的史詩

從“深藍”到AlphaGo:兩種截然相反理念的鬥爭

李飛飛與ImageNet:人工智慧革命的最初“訓練場”

神經網路與深度學習:“AI之春”的技術基礎

如日中天的谷歌AI帝國及其崩潰的預兆
第二章 OpenAI的崛起歷程與統治之道

為什麼“自然語言處理”如此重要

不瘋魔,不成活:OpenAI以偏執狂的方式擊敗谷歌

OpenAI內訌:“聖殿”之中究竟發生了什麼

谷歌何以無法對OpenAI進行有效的反擊
第三章 全球總動員:白熱化的生成式AI戰局

AI大模型的競爭格局:獨角獸vs巨頭,開源vs閉源

岔路仍然很多:懸而未決的大模型技術問題

科技巨頭的困局:是自研、合作,還是擁抱開源生態

應用戰場:微軟一馬當先,但一切才剛剛開始

第四章 算力戰爭:爭奪第四次工業革命最重要的資源

英偉達:偶然性與必然性結合的傳奇

臺積電:難以逾越的全球晶片供應瓶頸

全球科技巨頭的AI算力爭奪戰

關於AI算力的若干神話與現實

第五章 生成式AI在中國的現狀與未來

國產大模型現狀:紛亂複雜的“2+N”格局

國內AIGC應用:希望與困惑

面對AIGC浪潮:矛盾的中國資本市場

“同”與“不同”:AIGC浪潮與當年的網際網路浪潮在中國
第六章 展望未來:AIGC對人類社會的改變

控制組織規模的重要性:從“人月神話”說起

“咒語創業”時代:當《哈利·波特》的場景成為現實

“AI霸權”的興起與專業白領階層的衰落

贍養人類?“智慧體”全面普及之後的社會
附錄 主要參考及學習資料
以下段落摘自本書第二章第一節“為什麼‘自然語言處理’如此重要”,有刪減。歡迎大家多提寶貴意見!
偉大的計算機科學家、哲學家、邏輯學家阿蘭·圖靈(Alan Turing)於1941年發表了第一篇關於人工智慧的論文;很遺憾,其全文現在已經遺失。1950年,圖靈發表了另一篇論文,提出了“圖靈測試”的概念。從那以後,“人工智慧”(AI)這個概念經歷了無數次擴張和演化,外延變得模糊不清。什麼都可以是AI,沒人說得清AI到底是什麼。
在玩遊戲的時候,我們會說“AI太強了”,意思是“由電腦控制的敵人太聰明瞭”;在刷短影片的時候,我們會說“AI怎麼這麼奇怪”,意思是“平臺的推薦演算法不符合我的口味”;在使用掃地機器人的時候,我們也會說“AI調教的不太好”,意思是“掃地機器人內建程式無法很好地識別我家的地貌”。在日常語境下,一切具備自動化和智慧化屬性的計算機程式,均會被我們歸入AI的行列,AI這個詞因此失去了意義。
不管外行人怎麼看待AI,在人工智慧專業人士的心目中,存在一顆“皇冠上的明珠”,大家夢寐以求的彼岸寶藏:通用人工智慧(AGI, Artificial General Intelligence)。這個概念最早在1997年被學術界提出,當時還是所謂“AI寒冬期”。根據谷歌DeepMind的定義,通用人工智慧應該同時在多個領域裡展現出與人類相當或者強於人類的認知能力。這樣的AGI很容易讓人想到阿西莫夫科幻小說《我,機器人》當中的智慧機器人。
遊戲中用來控制敵人的程式,短影片平臺的演算法推薦程式,以及掃地機器人的內建程式,都只適用於某個特定的、狹窄的領域。就算在這個特定領域裡,它們也不一定具備強於人類的認知能力,例如掃地機器人對室內空間和地貌的認知水平肯定比不上熟練的保潔阿姨。它們與通用人工智慧相去甚遠。
邁向通用人工智慧,路在何方?沒有人知道,因為那是人類從未涉足的領域。在2015年離開谷歌之後,伊利亞·蘇茨克維與山姆·奧特曼合作成立了OpenAI,其目的從一開始就很清晰:為了早日實現AGI而努力。OpenAI設立了三個主攻方向,代表了通向AGI的三個可能路徑:
第一是實體機器人。人類生活在物理世界裡,每天跟海量的物理實體打交道,嬰兒在學會說話之前就學會了爬行(有的還先學會了走路)。OpenAI開發了一個機器人系統Dactyl,其最著名的成果是操縱一個機器手臂玩魔方;到了2019年,Dactyl已經具備了復原三階魔方的能力。就在同一時期,OpenAI還開發了名為RoboSumo的虛擬場景,用於模擬現實世界的地形、氣候、物體關係,虛擬機器人可以在這裡學習如何應對複雜的物理世界。
第二是玩遊戲。雖然千千萬萬的家長很討厭孩子玩遊戲,但不可否認,遊戲是人類的天性,而電子遊戲是遊戲藝術的最高形式。深度學習的三種主要方式是監督學習、強化學習和無監督學習,而遊戲無疑是高效的強化學習方式:打怪升級、過關、拿高分,對模型而言都是很好的外部強化。OpenAI用於訓練AI的遊戲,既包括雅達利(Atari)等上古遊戲主機上的簡單遊戲,也包括DoTA2這樣的複雜遊戲。附帶說一句,OpenAI對DoTA2的訓練效果不佳,引發過觀眾的群嘲。

2019年,百度貼吧網友的預言:“OpenAI快倒閉了”,因為其DoTA2電競AI表現不佳
第三是自然語言。我們每個人每天都生活在語言文字的包圍中。哪怕是獨居的、遠離社會的人,也不可能不閱讀各種文字,以及透過電視、電話和網際網路媒介接收各種語音資訊。嬰兒在學會最基本的肢體動作之後,就會開始牙牙學語。事實證明,自然語言是OpenAI下注最成功的道路,關於這一點,後續章節將會展開敘述。
OpenAI押注的上述三個方向,恰好也是谷歌大力押注的方向:在機器人領域,Google Brain的技術研發成果十分豐厚,谷歌收購過無數個機器人開發團隊,還在2019年推出了專門為機器人開發服務的雲平臺。在遊戲領域,DeepMind在圍棋、《星際爭霸2》上取得的成果有目共睹。在自然語言領域,谷歌提出的Transformer技術路線,以及在此基礎上推出的BERT大語言模型,直到2021年都是毫無爭議的領先者。其實這也不是巧合,因為谷歌會對所有可能通向AGI的技術路線都押下重注,與其說它與OpenAI“英雄所見略同”,倒不如說前者的資源過於雄厚,完全覆蓋了後者的領域。
從事後諸葛亮的角度看,自然語言處理(NLP, Neutral Language Processing)成為了對世界影響最大的突破口,也很有可能是通向AGI的正確路徑——對於這一點,有些人還有爭議,但主流意見是認同的。為什麼?這個世界上可以被認識、被理解的事物浩如煙海,人類的語言文字固然很重要,但是到底重要到什麼地步?與前文提到過的影像識別、實體機器人以及玩遊戲相比,自然語言處理究竟有多“特殊”?這個問題看似簡單,實則十分複雜。
從實用主義的角度講,人類互相溝通的主要方式是語言,能夠理解自然語言的AI更容易跟人溝通。人們希望AI幫助處理的日常事務,有一大部分都是語言文字處理事務。即便是其他型別的AI,若能具備一定的自然語言能力,也會大幅提升人類的使用體驗。想象一下,當你家的掃地機器人能夠靈敏地辨認你的語音指示並以語音回答時,你應該會眼睛一亮。ChatGPT釋出之後引起的鋪天蓋地的關注,充分說明了人類對於“能熟練使用人類語言的AI”有多麼期待。然而,自然語言處理之所以成為人類向AGI突破的主陣地,除了實用角度之外,還有更深層次的原因。
看過《封神榜》的讀者,應該還記得商朝忠臣比干的故事:妲己藉口為自己治病,要剖開比干的胸膛,取出“七竅玲瓏心”。被摘心後的比干,面色慘白,照常騎著馬離開朝歌王宮。在朝歌的市場裡,他遇見了一個婦人(據說是妲己的同夥)在叫賣無心菜。比干停下來問她:“人無心如何?”婦人回答:“人無心即死。”比干隨即大叫一聲,從馬上摔下來,死了。
小時候我第一次讀到這個故事時很疑惑:為什麼比干被摘心了沒事,聽到“人無心即死”就死了?相信很多人有同樣的疑惑。其實,這是世界各民族神話傳說中經常出現的一種設定:語言是有魔力的,世界的真相可以由語言“道破”。死去多年的人可能以為自己還活著,直到被人道破“你其實早就死了”。在希臘古典哲學裡,存在名為“邏各斯”(Logos)的概念:它是世界的一般規律、指導萬物變化的隱秘智慧,在本質上是一種語言,中文有時候會翻譯為“道”。《新約·約翰福音》描述上帝創造世界的過程,第一句話就是“太初有道”,即上帝是透過神聖的語言創造世界的。
無論世界的本質是不是語言,人類認識事物的方式都根植於語言。實驗顯示,一門語言的常用語序,例如“主謂賓”或“賓主謂”,往往會影響其使用者看待事物的方式:前者可能傾向於優先關注“主語”,後者可能傾向於優先關注“賓語”。語言中的各種各樣的詞彙,構成了人類腦海中的“分類系統”,在一定程度上決定了他們如何看待世界。語言本身是由人類文化塑造的,而語言反過來又塑造了人類文化。當我們陷入沉思的時候,我們往往會在腦海中用自己熟悉的語言不停地“默唸”,思考的過程就是用語言梳理周圍環境的過程。
2015年,澳大利亞墨爾本大學的兩位語言學家對澳大利亞西北海岸的一小群原住民的母語穆林帕特哈語(Murrinh-Patha)進行了深入研究。這是一種詞序自由、主謂賓可以任意組合的語言。語言學家要求原住民觀看一系列圖片,然後用穆林帕特哈語講述圖片裡描述了什麼。結果很有趣:被試者的目光會在圖片裡的各個物件之間飛快地移動,試圖釐清它們之間的關係,這個過程往往會在幾百毫秒內完成!這可能是因為他們的語言沒有固定的詞序,所以他們必須先對圖片形成整體認識,然後在腦海中組織語言。相比之下,母語為英語等“主謂賓”語言的被試者,一般傾向於先看“動作發出物件”(主語),再看“動作接受物件”(賓語)。在某種意義上,這些原住民的思維整體性更強。
20世紀最偉大的哲學家之一路德維希·維特根斯坦(Ludwig Wittgenstein)有一句頗具爭議的名言:“哲學剩下的任務只是語言分析。”這句話包含兩層含義:首先,人類進步的歷史就是哲學領地縮小的歷史,在人類知識體系高度發展的情況下,哲學的研究範圍在不停地被其他學科侵佔,認識世界變成了自然科學的使命,認識人類變成了社會科學的使命;留給哲學的地盤只剩下語言了。
其次,語言分析可以為哲學的許多傳統問題提出解藥。例如,客觀世界真實存在嗎?除了我以外的其他人具備自我意識嗎?我們如何確切地理解其他人的感覺?維特根斯坦認為,無論對外部的客觀世界,還是內心的主觀世界,我們都是透過語言認識的;語言帶有公共性,不存在只有自己能理解、別人不能理解的“私人語言”。而且語言本身就是一種行動。比方說,我們會用語言去祝福自己親愛的人,去詛咒自己的敵人,去呼喚朋友一起玩耍。那種認為語言只代表內心感受、與行動對立的觀點,是膚淺的、不值一駁的。認識世界的正確方式不是搞“缸中之腦”“哲學殭屍”這樣的哲學實驗,而是從語言分析入手!

從上至下第二排右三為中學時代的維特根斯坦;第一排右一為他的同學阿道夫·希特勒,1933-1945年任德國總理
在其最重要的著作之一《邏輯哲學論》當中,維特根斯坦提出:世界是一切事實的總和,而語言是一切命題的總和;命題是事實的“影像”,所以語言就是世界的“影像”。語言的邊界就是世界的邊界,那些“不可言說”的東西,就是我們無法認識的。不過,維特根斯坦晚年的思想又有了大轉向,開始批判自己早年對語言的看法(但不是完全推翻)。無論如何,他對“語言與世界的關係”的描述,深刻影響了一代又一代的哲學家、語言學家、心理學家。當代學術界的主流觀點是:語言不僅是人類互相溝通的工具,也是人類認知和思考的工具。要學習人類的思維方式,語言就是最好的切入點!
因此,我們可以理解,為何自然語言處理成為了人工智慧界“顯學中的顯學”,以及為什麼大語言模型具備如此驚人的效率和創造力。透過實體機器人去認識世界的物理規律,這當然很好,但並非人類思維方式的支點;透過下圍棋、玩遊戲去提高自己的認知水平,這也非常好,但也不是人類思維方式的支點;學習並預測蛋白質的結構,那是非常有用的,但與人類思維方式的距離有點遠。只有當神經網路模型熟練掌握了人類語言、能夠與人類以自然語言無縫溝通時,它才真正掌握了人類的思維方式,也就掌握了人類認知範圍內的“世界”。
無論當年OpenAI和Google
Brain的科學家們有沒有讀過維特根斯坦,他們應該早已理解自然語言對人類思維的意義,因為他們的日常工作之一就是語言學、心理學、認知科學研究者打交道。在深度學習革命以後,人工智慧變成了一個多學科交叉的研究領域,數理模型和程式碼只是基礎設施,不能離開其他學科孤立發展。自從2017年Transformer模型釋出之後,谷歌在自然語言處理方面投入的資源與日俱增,大語言模型就算不是谷歌AI帝國的核心,至少也是核心之一。在OpenAI那邊也是如此,尤其是在2019年接受微軟投資之後,大語言模型基本成為了一切希望所在。
在大語言模型方向上,谷歌與OpenAI的技術路線其實高度重合,僅在極少數問題上存在不同觀點——這極少數問題正是一切的關鍵所在。我們知道,人類與黑猩猩的DNA有96%的相似性,但是前者建立了輝煌燦爛的文明,後者卻只能在熱帶雨林和動物園裡吃果實和樹葉。下面就讓我們看看二者的技術分歧究竟在哪裡,以及這些分歧如何決定了競爭的勝負。
(由伊利亞·蘇茨克維領銜的OpenAI研究團隊以不可思議的偏執方式擊敗了谷歌,打贏了幾乎毫無勝算的戰役,將生成式AI從涓涓細流變成巨浪,直到他戲劇性地在一場宮廷政變中失敗並離開OpenAI為止。對於這一點,相信大部分人略有耳聞,本書的第二章及第三章的一部分集中討論了這些話題。)


相關文章