圖1 深度神經網路先驅傑弗裡·辛頓 圖源:維基百科
深度學習的海嘯分三波襲來:首先是語音識別,然後是影像識別,再之後是自然語言處理。在第三波海嘯中,辛頓、楊立昆和本吉奧等人的工作,真切地讓人們感受到深度神經網路對於整個人工智慧領域帶來的翻天覆地的改變。
而當前由大模型驅動的自然語言處理變革,已經影響到各行各業。浪潮將往哪裡去?我們正在見證。
[英] 克里斯·布利克利 | 撰文
《演算法簡史》 | 來源
辛頓(圖1)1947年出生於戰後的英格蘭溫布林登。他認為自己在學校時數學不是特別好。儘管如此,他還是被劍橋大學錄取,在那裡攻讀物理與生理學專業。由於對專業不太滿意,他轉而學習哲學。最後,他選擇了心理學。回首過往,辛頓說他想要了解人類思維是如何運作的。他的結論是,哲學家和心理學家都沒有答案。此後他又轉向了計算機科學。
畢業後,他先做了一年的木匠,然後去愛丁堡大學攻讀博士學位。在導師不情願的默許下,辛頓堅持進行人工神經網路(ANN)的研究。在完成博士學位後,辛頓作為一個新手學者走上了一條四處流動的道路。在進入多倫多大學擔任教授職位之前,他曾在薩塞克斯大學、加利福尼亞大學聖迭戈分校、卡內基梅隆大學和倫敦大學學院工作過。
2004年,辛頓向加拿大高等研究院(Canadian Institute For Advanced Research,CIFAR)提交了一份為神經計算研究專案申請資助的提案。CIFAR以資助基礎研究聞名,但此次申請獲批的希望仍舊不大。蒙特利爾大學的約書亞·本吉奧(Yoshua Bengio)教授後來評論道:
那是最糟糕的時間點。其他人都在忙著做不同的事情。傑夫不知道怎麼說服了他們。
這筆數額不大的經費被用於組織一系列只有受邀才能參加的聚會,受邀人中有一些世界上頂尖的ANN研究者。本吉奧又講道:
在廣義的機器學習領域,我們有點像一群邊緣人:我們的論文無法發表。聚會為我們提供了一個交換意見的地方。
這項撥款後來被證明是一次結構性變革的開端。
2006年,辛頓和多倫多大學的西蒙·奧辛德洛(Simon Osindero)以及新加坡國立大學的鄭宇懷發表了一篇革命性的論文。該論文標誌著現在被稱為深度學習(deep learning)的開端。文章描述了由3個全連線的隱藏層組成的網路。這個網路有太多的引數,用反向傳播演算法的方式進行訓練會非常緩慢。為了解決這個問題,辛頓和他的團隊設計了一種新的方法來加速訓練。
通常,反向傳播演算法以隨機引數值開始訓練。但在這項新研究中,團隊在反向傳播之前插入了一個預訓練階段。這個新增階段的目的是快速找到一組好的引數,以支援反向傳播演算法的啟動。
反向傳播演算法是監督(supervised)訓練的一個例子。這意味著訓練要為網路提供輸入和輸出相匹配的示例。在這個新的初步階段中,辛頓和其他共同作者建議採用無監督(unsupervised)訓練。無監督訓練只使用輸入示例。
在無監督的預訓練中,示例輸入被提供給網路。透過演算法調整網路引數,使ANN學會探測輸入中的重要模式。不需要讓網路知道這些模式與什麼類相關——它學習的只是區分這些模式。對於手寫文字識別,這些模式可能是線條的長度和方向,或者曲線的位置和長度。為了實現這一點,訓練演算法每次只更新一層的引數,從輸入層開始。換句話說,該演算法從輸入向前構建出網路引數。該方法的計算複雜度明顯低於反向傳播演算法。
一旦預訓練完成,網路就能夠在輸入資料集中區分出最顯著的模式。之後,用預訓練得到的引數開始進行正常的監督訓練。由於反向傳播演算法有了很好的起點,因此它用更少的迭代就能完成訓練。
跟隨貝爾實驗室的腳步,辛頓的團隊選擇了以攻克手寫數字識別問題為目標。這一次,有一個更大的資料集可供使用。該專案使用了由楊立昆(圖2)、谷歌實驗室的科琳娜·科爾特斯(Corinna Cortes)和微軟研究院的克里斯托弗·伯吉斯(Christopher Burges)構建的MNIST資料集。MNIST收錄了7萬個手寫數字,這些數字是從美國人口普查報告和高中考試答卷中獲取的。

圖2:法國計算機科學家楊立昆(Yann André Le Cun),被稱為卷積網路之父。圖源:維基百科
最終得到的ANN達到了89.75%的準確率,這個成績不如楊立昆的卷積神經網路。然而,這不是重點。他們已經證明,透過預訓練,可以訓練出一個深度的、全連線的網路。獲得更深入和更有效的網路,這是行得通的。
在接下來的10年中,深度學習發展勢頭良好。3種進步的融合使研究人員能夠建立更大、更深層次的網路。更智慧的演算法減少了計算複雜度,更快的計算機縮短了執行時間,更大的資料集允許對更多的引數進行最佳化。
2010年,瑞士的一組研究人員進行了一項實驗,希望看看增加神經網路的深度是否真的能提高其準確性。在資深神經網路專家于爾根·施米德胡貝(Jürgen Schmidhuber)的領導下,該團隊訓練了一個6層神經網路來識別手寫數字。他們訓練的神經網路含有多達5 710個神經元。和辛頓的團隊一樣,他們使用的是MNIST手寫數字資料集。然而,即使是MNIST,也不足以滿足施米德胡貝團隊的目標。他們透過扭曲MNIST中的照片,人為地生成了額外的數字影像。
得到的ANN達到了99.65%的準確率。這不僅是一項世界紀錄,其表現也已經達到了人類的水平。
突然,所有人都意識到,ANN太小了,無法實現任何實際用途。深度網路才是前進的方向。一場人工智慧革命近在眼前。
深度學習的海嘯分三波襲來:首先是語音識別,然後是影像識別,再之後是自然語言處理(NLP)。半個世紀的模式識別研究在短短3年內被淘汰出局。
60年來,科技界一直在努力將口語表達準確地轉化為文字。最好的演算法依賴傅立葉變換來提取諧波的振幅。然後利用隱馬爾可夫模型(Hidden Markov Model,HMM),根據觀察到的諧波情況和聲音序列在真實語音中已知的出現機率來判斷髮出的音素。
在辛頓實驗室的實習生納夫迪普·賈特利(Navdeep Jaitly)的幫助下,谷歌去除了他們語音生成識別系統的一半,用深度神經網路取而代之。他們得出的ANN-HMM混合體語音識別系統包含一個4層的ANN。該團隊使用來自谷歌語音搜尋的5 870小時的語音錄音來訓練ANN,並添加了來自影片網站YouTube的1 400小時的對話音訊。新的ANN-HMM混合體比谷歌先前使用的基於HMM的語音識別系統性能高出4.7%。在自動語音識別的領域,這算是一個巨大的進步。完成了在谷歌的任務後,傑出的實習生賈特利返回多倫多大學去完成他的博士學位。
在接下來的5年裡,谷歌逐步擴充套件和改進了他們基於ANN的語音識別系統。截至2017年,谷歌的語音識別系統達到了95%的準確率,這是前所未有的水平。
2012年,辛頓的團隊報告了一種深度神經網路,旨在從靜態影像中識別出真實世界的物體。這些物體是常見的東西,如貓、狗、人、面孔、汽車和植物。這個問題遠不像識別數字那麼簡單。數字是由線條組成的,但識別物體需要分析其形狀、顏色、紋理和邊緣。除此之外,要識別的物體類的數量也大大超過了微不足道的10個印度—阿拉伯數字。
這個網路被以首席設計師亞歷克斯·克里澤夫斯基(Alex Krizhevsky)的名字命名為“亞歷克斯網”(AlexNet),包含65萬個神經元和6 000萬個引數。它整合了5個卷積層和其後的3個全連線層。此外,這項工作還引入了一種簡單但卻有效得驚人的技術。在訓練過程中,隨機選擇少量神經元並使其沉默。換句話說,它們被禁止放電。這項技術被命名為丟棄(Drop-out),它迫使神經網路將決策負載分散到更多的神經元上。這使網路面對輸入的變化更加穩健。
該團隊在2012年用這個網路參加了影像網大規模視覺識別挑戰賽(ImageNet Large Scale Visual Recognition Challenge)。比賽的資料集包括大約120萬張訓練影像和1 000個物體類。克里澤夫斯基、伊利婭·蘇特斯科娃(Ilya Sutskever)和辛頓的深度卷積網路大獲全勝。亞歷克斯網前5項識別結果的總準確率達到了84.7%。也就是說,真正的物體類落在這個ANN的前5大選擇中的情況佔比超過84%。該網路的錯誤率幾乎是排名第二的系統的一半。
與此同時,在多倫多以東僅500千米的聖勞倫斯河河畔,蒙特利爾大學的一個團隊正在研究如何將深度神經網路應用於文字處理。該團隊由約書亞·本吉奧(圖3)領導。

圖3 神經網路研究者約書亞·本吉奧,2017年 圖源:©巴黎綜合理工學院-J.巴朗德(J. Barande)
本吉奧生於1964年,來自法國巴黎,是神經網路復興的領軍人物之一。他在位於蒙特利爾的麥吉爾大學學習電子工程和計算機科學,獲得工學學士、理學碩士和博士學位。本吉奧在青少年時期是科幻小說迷,在讀研究生時期對神經網路研究充滿熱情。他如飢似渴地閱讀有關這個主題的所有早期論文。作為一個自稱書呆子的人,他開始建立自己的ANN。在AT&T貝爾實驗室和MIT做過博士後之後,本吉奧於1993年加入了蒙特利爾大學。本吉奧的團隊訓練ANN來預測文字中單詞序列出現的機率。
2014年,谷歌選擇了本吉奧的工作,將其用於解決把文件從一種語言翻譯成另一種語言的難題。那時,谷歌翻譯網路服務已經運行了8年。該系統依靠傳統的方法將句子分割並將短語從一種語言對映到另一種語言。總的來說,這個系統的翻譯不是特別好。翻譯出來的句子大多可讀,但並不流暢。
谷歌採取了不同尋常的一步,將兩個神經網路背靠背連線起來。在該方案中,編碼器(第一個網路)的輸出被作為解碼器(第二個網路)的輸出提供給解碼器。谷歌的想法是,編碼器可以將英文文字轉換為抽象的數字向量。解碼器可以把這個過程逆轉過來,把抽象的數字向量轉換成法語。研究人員沒有規定中間的數字向量是什麼。他們只是依靠訓練程式來尋找合適的表徵數字。
經過兩年的努力,谷歌完成了一個8層編碼器和一個配套的8層解碼器的開發。該網路是用一個包含3 600萬對人工翻譯句子的語料庫進行訓練的。新系統優於之前的谷歌翻譯系統,翻譯錯誤減少了60%,令人驚歎。該系統在谷歌網站上線後,雙語使用者報告說,翻譯質量有了立竿見影式的顯著提高。
一次又一次的成功催生了深度學習的熱潮。很多公司預見到了由深度學習驅動的大量新應用——自動駕駛汽車、智慧相機、下一代推薦系統、增強的網頁搜尋、精確的蛋白質結構預測、加速藥物設計和很多其他方面的應用。谷歌、臉書、IBM、蘋果、亞馬遜、雅虎、推特、奧多比(Adobe)和百度都在搶奪深度學習方面的人才。據很多傳言稱,神經網路界名人的起薪高達七位數。楊立昆被任命為臉書AI研究總監。吳恩達(Andrew Ng)加入百度擔任首席科學家。在65歲那年,傑弗裡·辛頓成為谷歌的暑期實習生!
2015年,在這場淘金熱中,楊立昆、辛頓和本吉奧在《自然》雜誌上發表了一篇調研行業發展的論文。在文章發表之前,深度神經網路已經席捲了整個人工智慧領域,方方面面都發生了翻天覆地的改變。
楊立昆、辛頓和本吉奧於2018年獲得了圖靈獎,他們分享了谷歌贊助的100萬美元獎金。
隨著深度學習的巨大成功,一些人推測人類智慧水平的人工通用智慧已經不遠了。但楊立昆提出了異議:
我們是否能夠使用新方法創造出人類水平的智慧,嗯,解決這個問題可能有50座山要爬,包括我們還看不到的那些山。我們目前只爬了第一座,也許是第二座。
到目前為止,我們所擁有的只是複雜的模式識別引擎。然而,我們可以推測穿過這些大山的路徑。目前,最好的猜測是我們需要一個ANN的網路。想要有顯著的改進,可能還需要對ANN進行根本性的重新開發。現今的ANN只是對生物神經網路的一種大致的近似。也許我們需要一個更現實的模型。魔鬼很可能藏在細節中。
對於計算機科學界以外的人來說,深度神經網路的力量第一次顯現是在2016年。那一年,一個人工智慧登上了世界新聞媒體的頭條。儘管這是在一個狹窄領域的努力,但這也許是人工智慧第一次獲得了超越人類的能力。

本文摘自《演算法簡史:從美索不達米亞到人工智慧時代》,《賽先生》獲中信出版社授權釋出。標題和導讀為賽先生編輯所加。
BOOK TIME
《演算法簡史:從美索不達米亞到人工智慧時代》
[英] 克里斯·布利克利 著
張今 譯
中信出版社/新思文化
2024年10月出版

賽先生書店可開發票,請在購書備註中留下開票資訊(抬頭、稅號和電子郵箱),確認收貨後,由出版社開具。
21世紀的今天,我們生活的方方面面無時無刻不在被演算法影響和塑造。它們幫我們選擇最佳的行車路線,向我們推薦我們可能購買的商品,為我們識別語音和影像,甚至給單身人士匹配婚戀物件。越發強大的演算法也在不斷突破極限,無論是打敗圍棋世界冠軍柯潔,藉助大語言模型與人類會話,還是在200秒內完成超級計算機1萬年才能完成的計算。
然而,演算法並非新近才開始影響人類社會,人類受益於演算法已經有數千年的歷史。在《演算法簡史:從美索不達米亞到人工智慧時代》中,以演算法發展過程中的關鍵人物和經典演算法為主線,作者克里斯·布利克利繪出了一幅近4000年的演算法發展簡史:從鐫刻在古巴比倫泥板上求2的平方根的演算法,到劉徽和祖沖之父子對圓周率的精確計算;從查爾斯·巴貝奇和艾達·洛芙萊斯試圖建造的機械數字通用計算機,到艾倫·圖靈對演算法的正式定義和他構想的圖靈機;從第一臺可程式設計的通用電子計算機ENIAC,到第一個人工智慧程式“邏輯理論家”;從網際網路的誕生,訊息的傳輸和加解密,再到亞馬遜的推薦系統、谷歌搜尋和社交媒體的動態排序,以及今天無處不在的人工神經網路……書中豐富的演算法例項讓讀者充分感受到演算法中蘊含的數學之美以及演算法推動人類社會進步的強大力量。
全書語言通俗易懂,幾乎沒有使用一個公式,述及超過20點陣圖靈獎——“計算機界的諾貝爾獎”——得主及其科學貢獻,為沒有專業背景但希望瞭解演算法的讀者提供了一個絕佳的視窗。
作者簡介:
克里斯·布利克利(Chris Bleakley)。愛爾蘭都柏林大學計算機科學學院教授,曾任該院院長,有超過40年的演算法設計經驗。除學術研究和教學外,布利克利在產業界也有豐富的從業經驗,曾擔任多家業內公司的顧問、高階研究員和副總裁。
星標《賽先生》公眾號,


歡迎關注我們,投稿、授權等請聯絡