
新智元報道
新智元報道
編輯:犀牛
【新智元導讀】谷歌首席科學家Jeff Dean與Transformer作者Noam Shazeer在一場訪談中不僅揭秘了讓模型速度提升三倍的低精度計算技術,分享了「貓神經元」等早期AI突破的背後故事,還大膽暢想了AI處理萬億級別Token、實現「1000萬倍工程師」的可能性。
如果沒有「Attention Is All You Need」這篇論文,今天的AI會是什麼樣子?
Jeff Dean,谷歌的首席科學家,和Transformer的作者Noam Shazeer,最近在一場深度訪談中,不僅回顧了AI發展的關鍵時刻,還大膽預測了未來的方向。
他們揭秘了模型蒸餾、MoE架構的內幕,甚至討論瞭如何讓AI模型處理整個網際網路的資訊!
訪談內容十分豐富,看點十足。
低精度讓模型快三倍
「最近,我感覺基於通用CPU的機器擴充套件性不如以前了。」Jeff說。
他表示,製造工藝的改進現在需要三年時間,而不是以前的兩年。多核處理器等架構改進也沒有給我們帶來20到10年前那麼大的提升。
但是,同時我們看到了越來越多的專用計算裝置,比如機器學習加速器、TPU,以及最近的專注於機器學習的GPU,它們讓我們能夠在現代計算中獲得非常高的效能和良好的效率,這些計算與傳統的C++程式碼,比如執行Microsoft Office這類任務的計算大不相同。
可以說,演算法正在跟隨硬體的發展。Noam表示,現如今算術運算非常便宜,而資料傳輸的成本則相對還較高。
正是因為這一點,深度學習才得以迅速發展。「你可以透過矩陣乘法來構建深度學習,這實際上是N立方次的運算和N平方位元組的資料傳輸。」Noam說。

對此,Jeff表示認同。他說,「我認為,向硬體轉向的這一重要變化非常關鍵,因為在那之前,CPU和GPU並不特別適合深度學習。」
後來,谷歌開始打造TPU,這些TPU其實是低精度線性代數處理器,一旦有了這樣的硬體,就需要充分利用它。
就像拉里·佩奇曾說的:「我們的第二大成本是稅收,最大成本是機會成本。」在這種情況下,把這些算術單元填滿!可以讓算術運算的數量增加幾個數量級。
然後,接下來要改變的是什麼?演算法、資料流,等等。Jeff繼續說道,「哦,對了,算術運算的精度可以非常低,這樣你就可以在晶片上放更多的乘法單元。」
「我認為一個普遍的趨勢是,我們在量化或擁有更低精度模型方面變得越來越好。」Jeff說到。
從TPUv1開始,當時他們甚至不確定能否使用8位整數進行量化並進行模型推理。但有一些早期證據顯示這可能是可行的,於是他們就決定圍繞這一點構建整個晶片。
隨著時間的推移,大家已經能夠在訓練中使用更低精度了。而且推理的精度也降低了。現在人們使用INT4或者FP4。
「如果20年前你告訴一個超級計算浮點數專家,我們要使用FP4,他一定會覺得那太瘋狂了。」Jeff說,他們喜歡64位的浮點數。
Jeff說到,「一些人正在將模型量化到2位或1位,我認為這是一個明顯的趨勢。是的,量化確實有點煩人,但你的模型會快三倍,所以你得接受它。」
擴充套件神經網路確實有效
當Jeff被問到有沒有在研究某個領域時,突然有了想法,並且有種「天啊,簡直不敢相信這竟然成功了」的感覺時。Jeff回憶起在Brain團隊早期的時候。
那個時候,他們專注於「看看能否構建一些基礎設施,讓我們能夠訓練非常非常大的神經網路」。
當時,他們的資料中心沒有GPU,只有CPU。但是他們知道如何讓大量的CPU一起工作。所以構建了一個系統,能夠透過模型並行和資料並行的方式訓練相當大的神經網路。
「我們有一個針對 1000 萬個隨機選擇的 YouTube 幀進行無監督學習的系統。」Jeff表示,它採用了一種空間區域性表示的方法,因此它會基於嘗試從高層表示中重構事物來構建無監督表示。他們讓這個系統在2000臺計算機上執行,使用了16000個核心進行訓練。
不久之後,該模型實際上能夠在最高層構建一個表示,其中一個神經元會被貓的影像所激發。
「它從未被告知什麼是貓,但它在訓練資料中看到了足夠多的貓的正面面部檢視,因此這個神經元會對這些影像產生反應,而對其他東西則不太敏感。」Jeff說,類似的,你還會看到其他神經元對人臉、行人的背影等產生反應。
「這個過程非常酷,因為它是基於無監督學習原理,構建出這些非常高層次的表示。」
隨後,他們在監督學習的ImageNet 20000類別挑戰中獲得了非常好的結果,相對於之前的技術,提升了60%的效能,這在當時是非常不錯的。
這種神經網路可能比之前訓練過的神經網路大了50倍,並且得到了很好的結果。
所以這讓Jeff有了一種感覺,「嘿,實際上,擴充套件神經網路似乎是個不錯的主意,看來確實有效,我們應該繼續推動這一方向。」他說。
想辦法處理數萬億token
談到長上下文問題時,Jeff表示,「我們還沒有完全做到,但我確實看到了在未來可實現的目標。」
Jeff表示,他已經思考這個問題一段時間了。
你看到這些模型的一個特點是它們相當不錯,但它們有時會產生幻覺並且存在事實性問題。部分原因是你在數萬億的token上進行了訓練,並將所有這些都混合在數百億甚至數千億的引數中。
在上下文視窗中,也就是模型的輸入中,資訊是非常清晰明確的,因為我們在Transformer中有一個非常好的注意力機制。模型可以關注事物,並且它知道它正在處理的確切文字、影片的確切幀、音訊或其他任何內容。
目前,我們有能夠處理數百萬token上下文的模型,這已經相當多了。Jeff表示。「這相當於數百頁的 PDF、50 篇研究論文、數小時的影片、數十小時的音訊,或者這些內容的某種組合,這非常酷。」
但是,如果模型能夠處理數萬億的token,那就太好了。它能否關注整個網際網路併為你找到正確的內容?它能否為你處理所有個人資訊?
「我很希望有一個模型可以訪問我的所有電子郵件、所有文件和所有照片。當我要求它做某事時,它可以在我的許可下利用這些資訊來幫助解決我想讓它做的事情。」Jeff說。

但這將是一個巨大的計算挑戰,因為樸素的注意力演算法是二次方的。你幾乎無法在相當多的硬體上讓它處理數百萬的token,更不用說讓它直接處理數萬億的token了,這是不可能的。
因此,需要大量有趣的演算法近似來實現的:一種讓模型在概念上能夠處理更多、更多的token,數萬億token的方法。
也許可以將所有Google程式碼庫放入每個Google開發者的上下文中,將世界上所有的開原始碼放入任何開源開發者的上下文中。
那將是驚人的。
一百萬個「邪惡的」Jeff
訪談中,主持人提出了一個極具挑戰性和前瞻性的問題,將討論引向了AI安全性的深層領域:如果AI系統偏離了預設目標,轉而最佳化一些未知的、甚至可能有害的目標函式,將會產生怎樣的後果?
主持人進一步設想了一個場景:假設一個AI獲得了與Jeff或Noam相當、甚至超越他們的程式設計能力。
在這種情況下,如果該系統被惡意複製或自我複製,產生了數百萬個具有頂級程式設計水平的「副本」,那麼這種失控的局面將可能導致難以挽回的後果。
這一假設情景觸及了當前AI安全研究的核心關切——目目標對齊(Goal Alignment)問題。即如何確保AI系統的目標與人類的價值觀和預期目標保持一致,避免出現意外或有害的行為。
對此,業界存在兩種極端的觀點:災難論(Catastrophism),認為AI系統在各方面都將遠超人類,最終可能導致人類被AI壓制或取代。樂觀論(Optimism), 認為AI系統將帶來巨大的福祉,無需過分擔憂其潛在風險。
對此,Jeff表示,他的立場介於這兩種極端觀點之間。他雖然對AI的潛在風險保持警惕,但並未表現出極度的擔憂。
這種審慎樂觀的態度,反映了當前AI領域許多專家對AI安全問題的主流看法:既要重視潛在風險,積極開展安全研究,也要對AI的未來發展保持信心。
1000萬倍工程師
在訪談中,兩位專家深入探討了AI發展所面臨的關鍵挑戰與巨大機遇。
Jeff預測,隨著AI聊天介面等應用的普及,計算資源需求將面臨爆炸性增長。他指出:「目前可能只有10%到20%的計算機使用者瞭解並使用這類互動式介面,但隨著使用者認知和應用場景的拓展,未來使用量可能增加一到兩個數量級。」
這對底層基礎設施和算力提出了嚴峻挑戰。
AI技術的快速發展也伴隨著潛在風險。Jeff Dean強調:「我們需要警惕AI可能被用於生成虛假資訊、實施自動化網路攻擊等惡意行為。因此,在模型設計中必須儘可能內建防護和緩解措施,以確保AI的安全可控。」
Noam認為,AI領域並非零和博弈,其發展將帶來廣泛的社會效益。他樂觀地預測:「當前AI的發展態勢預示著未來在GDP、醫療健康、財富創造等多個領域將實現數個數量級的增長。」這表明AI有潛力成為推動社會進步的重要引擎。
接著,Jeff提出了一個引人深思的問題:如果每增加一倍的計算資源投入,就能使AI助手的能力提升5到10個點,那麼企業是否願意為實現「10倍工程師」、「100倍工程師」甚至「1000萬倍工程師」的生產力躍升而加大投入?
這一設問揭示了AI在提升生產力方面的巨大潛力,可能引發新一輪的技術革命和產業變革。
結語
Jeff Dean和Noam Shazeer的對話,讓我們看到了AI技術發展的無限可能。
從讓模型快三倍的低精度計算,到處理數萬億token的長上下文挑戰,再到對AI安全性的深刻思考,這場訪談為我們描繪了一個激動人心的未來。
正如Jeff所說,他並不完全擔心AI的「邪惡」版本,但我們仍需在技術發展的同時,保持對潛在風險的警惕。
參考資料:
https://www.youtube.com/watch?v=v0gjI__RyCY


