Anthropic創始人訪談:Scaling與強化學習,可解釋性與AGI安全

作者:Dwarkesh Patel
推薦人:Cage
編譯:海外獨角獸
排版:Scout
本文編譯自 Anthropic CEO Dario Amodei 的一期播客訪談。
Anthropic 是 LLM 賽道排名第二的公司,由 Dario Amodei 創立於 2021 年 1 月,今年 7 月,Anthropic 推出了最新一代模型 Claude 2。Dario Amodei 曾在 OpenAI 擔任研究和安全副總裁,之所以創立 Anthropic 是因為他認為大模型中有很多安全問題亟需得到解決,因此 Anthropic 相當重視 AI Safety,願景是構建可靠的(Reliable)、可解釋的(Interpretable)和可操控的(Steerable)AI 系統。Anthropic 和 OpenAI 路線上最大的差異也在於他們對可解釋性的關注。
在訪談中,Dario 解釋了 Anthropic 在可解釋性上的關注和投入。可解釋性是保證模型安全的重要途徑之一,類似於給模型照 X 光、做 MRI 檢查,讓研究人員有可能瞭解模型內部在發生什麼、識別風險的可能來源。要真正理解 Scaling Law 為什麼會起作用、以及如何實現 alignment 都離不開可解釋性。Dario 認為, AI Safety 和 alignment 同等重要,一旦 alignment 出現問題,就應該以同樣高度重視濫用帶來的 AI 安全問題。
Dario 相信,模型在未來 2-3 年內的能力會有顯著提升,甚至可能會“接管人類社會”,但還不能真正參與到商業經濟環節中,這並不是模型能力的原因,而是因為各種隱形摩擦人們在現實生活和工作中使用模型的效率並不高,無法發揮模型的真正潛力。
和大部分 AI 公司的 CEO 相比,Dario 幾乎不參加公開訪談、也很少在 Twitter 上發表觀點,Dario 解釋說這是自己的主動選擇,透過保持低調來保護自己獨立客觀思考問題的能力。
以下為本文目錄,建議結合要點進行針對性閱讀。
👇
01 為什麼 Scaling Law 會起作用
02 模型能力將如何和人類看齊?
03 Alignment:可解釋性是給模型“照 X 光”
04 AGI 安全:AI Safety 與 網路安全
05 商業化與 Long Term Benefit Trust
01.
為什麼 Scaling Law 會起作用
Dwarkesh Patel :你對 Scaling Law 的信仰從何而來?為什麼隨著資料規模的增大,模型的能力就會越來越強?
Dario Amodei :Scaling Law 一定程度上是一個經驗性總結,我們從各種資料和現象中感知到了這一現象,並將它總結為 Scaling Law,但目前還沒有公認的、特別好的解釋來說明它起作用的本質原理是什麼。
如果一定要給一個解釋的話,我個人推測這個可能和物理學中的長尾分佈或者冪律定律(Power Law)比較類似。當存在有很多個特徵(feature)時,佔比較大的資料通常對應著主導性更強的基本規則和模式,因為這些模式經常出現,對應的資料量自然更多,而長尾資料則主要是一些更加細節和複雜規則。比如,在處理語言相關的資料時,大部分資料中都可以觀察到一些基本的規律,比如詞性、語序結構等等基本的語法規律,才相對長尾的則複雜語法。
這也是為什麼資料每增加一個量級、模型能可以學習的行為規律就更多。但我們不清楚的是為什麼二者之間的呈現出了一個完美的線性相關關係。Anthropic 的首席科學家 Gerard Kaplan 曾用分形維數(Fractal Dimension)來解釋這件事,當然也有其他人在嘗試其他驗證 Sacling Law 的方法,但目前來看我們還是無法解釋為什麼。
分形維數(Fractal Dimension):
數學家 Felix Hausdorff 於 1918 年首次提出分形維數的概念,後來也被稱為豪斯多夫維數(Hausdorff Dimension)。分形維數可以被用來描述機器學習資料中隱含的特徵關係結構,並提供了 Scaling 效應背後的一個數學解釋模型,從而解釋了 AI 模型為何能隨規模提升表現。
並且,即便我們瞭解到了 Scaling Law 的存在,也很難預測模型具體能力的變化。在 GPT-2、GPT-3 的研究中我們永遠不知道模型什麼時候可以學會計算、程式設計,這些能力都是突然出現的。唯一可預測的是在數值層面,比如 loss 值、熵值的變化等是可以被預測得相當精確,但這就好像我們可以對天氣資料進行統計、並對整個天氣變化趨勢進行預測,但要預測具體某一天的天氣、溫度則很難辦到。
Dwarkesh Patel :為什麼模型可以突然擁有某項能力?例如它之前並不瞭解加法,但現在已經掌握了計算能力?是什麼原因導致了這種變化?
Dario Amodei :這是另一個我們還在探索的問題。我們試圖用機制可解釋性(Mechanistic Interpretability)方法來解釋這件事,用類似於電路連線的思路來解釋語言現象,你可以把這些東西想象成電路一個一個地接上去。
有一些證據顯示,當模型被投餵了某些內容時,它給出正確答案的機率會突然增加,但如果我們觀察模型能夠真正給出正確答案之前的變化,會發現這個機率是從百萬分之一、十萬分之一慢慢爬升到千分之一這樣遞進的。在很多類似情況中,似乎有某個我們還沒有觀察到的逐漸變化的過程正在發生,我們暫時還沒弄清楚這件事。
我們也無法確定類似於“加法”這樣的“電路”是否從 day 1 就一直存在,只不過隨著特定的過程逐漸由弱變強、進而讓模型給出正確答案。這些都是我們想透過機制可解釋性來回答的問題。
機制可解釋性(Mechanistic Interpretability):
機制可解釋性是對神經網路進行逆向工程的研究,它可以用來幫助人們更容易地理解模型是如何將輸入對映到輸出的,是對模型解釋性的一種實現思路。機制可解釋性的主要目標是把深度學習當作自然科學來理解,利用模型的結構和引數來解釋模型的決策過程和預測結果,以便人類使用者可以理解和驗證模型的工作原理。它的早期工作側重於使用矩陣分解和特徵視覺化方法來理解視覺網路中間層的表示,最近集中在多模態網路的表示,以及神經網路演算法的通路級理解。
Anthropic 曾發表過一篇機制可解釋性的研究《Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases》
Dwarkesh Patel :有哪些能力不會隨著模型規模的擴大而出現?
Dario Amodei :模型 alignment 和價值觀相關的能力可能不會隨著模型規模的擴大而自然湧現。一種思路是,模型的訓練過程本質上是在預測和理解世界,它的主要職責是關於事實的,而非觀點或價值觀。但這裡存在一些自由變數:你應該採取何種行動?你應該持何種觀點?你應該重視哪些因素?但並沒有這樣的資料標籤供模型學習。因此,我認為 Alignment 以及價值觀等的湧現是不太可能的。
Dwarkesh Patel :是否存在一種可能,即模型能力追上人類智慧水平之前,可用來訓練的資料就已經被用完了?
Dario Amodei :我覺得這裡需要區分這是理論層面的問題還是實際實操中的情況。從理論角度來看,我們距離資料不夠這件事並不遠,但我個人傾向於這種情況並不太可能發生。我們可以透過很多方式來生成資料,所以資料並不會成為一個真正的障礙。還有另一種情況是,我們用光了所有可用的計算資源,從而導致模型能力進步緩慢。這兩種情況都有可能。
我個人的觀點是,Scaling Law 大機率不會停滯,即便出現問題也更可能是計算架構的原因。舉個例子,如果我們用 LSTM 或 RNN,那麼模型能力的進化速度就會發生變化。如果在各種架構情況下我們都遇到了模型能力進化的瓶頸,那這件事將相當嚴重,因為這意味著我們遇到了更深層次的問題。
LSTMs:
長短期記憶網路(Long Short Term Memory networks),一種特殊的 RNN 網路(迴圈神經網路),可以學習長期依賴關係,解決傳統 RNN 在學習長序列模式時的問題,並提取序列資料中的長短期資訊。LSTM 的學習能力和表示能力比標準的 RNN 更強。
我認為我們已經到了這樣一個階段:討論模型可以完成哪些任務、不能無法完成哪些任務可能在本質上沒有太大區別。之前人們會給模型的能力設限,認為模型無法掌握推理能力、學不會程式設計,認為它可能會在某些方面遭遇瓶頸。雖然包括我在內的一些人之前並不這麼認為,但在前幾年這種瓶頸論更佔主流,現在則發生了變化。
如果未來的模型 scale 過程中效果的確看到了瓶頸,我認為問題來自 loss function 設計時側重於 next token prediction 任務 。當我們過度重視推理、程式設計能力時,模型的 loss 就會重點關注體現這一能力 token,其他問題的 token 出現頻率變低(拾象注:模型的預訓練資料集會根據科學家對能力的重視程度,調整其配比),損失函式過於關注那些提供資訊熵最多的 token,而忽略了那些實際上也很重要的內容,訊號可能會在噪聲中被淹沒。
如果這個問題出現了,我們需要引入某種強化學習的過程,RL 有很多種,例如人類反饋的強化學習(RLHF),針對目標的強化學習,還有像 Constitutional AI 、增強(amplification)和辯論(debate)之類的方法。這些既是模型對齊的方法,也是訓練模型的方式。我們可能要嘗試很多種方法,但必須重點關心模型的目標是做什麼。
強化學習的一個問題是,你需要設計出很完備的損失函式。而 next token prediction 的 loss function 已經設計好了,因此如果這條方向的 scale 看到了上限,AI 的發展會出現減速。
Dwarkesh Patel :你對 Scaling 的理解是如何形成的?
Dario Amodei :我這種觀點的形成大致可以追溯到 2014 年至 2017 年期間。我一直關注 AI 發展,但很長一段時間裡我都認為 AI 距離真正得到應用還需要很久,直到 AlexNet 的出現。隨後我加入了吳恩達當時在百度的專案組,這也是我第一次接觸到 AI 。
我認為我相當幸運,與其他同期的學術研究不同,當時我的任務是建立最優秀的語音識別系統,並且有大量資料和 GPU 可用。在這個專案的過程中,我很順其自然地意識到 Scaling 是一種好的解決方案。這個過程和博士後的研究也不一樣,我們並不一定需要提出前人沒有提出過的聰明、創新的想法。
整個專案中我只需要進行一些最基礎的實驗,比如在迴圈神經網路(RNN)上新增更多層,或調整訓練引數試圖延長模型訓練時間,在此期間,我觀察模型訓練過程,看過擬合何時發生。我也嘗試加入新的訓練資料,或減少重複訓練輪次,觀察這些調整對模型表現的影響。在這些實驗的過程中,我注意到了一些規律性結果。不過,我還不清楚這些想象是否是突破性的事情、也不瞭解其他同行是否有類似發現。總體上這只是我作為一個 AI 初學者的很幸運的一段經歷。我並不瞭解這個領域的其他內容,但我當時覺得這件事在語音識別領域得到了類似的驗證。
在 OpenAI 成立之前,我就認識了 Ilya,他告訴我“我們需要認識到一點,這些模型只是想要學習”,這種觀點很大程度上起發了我,讓我意識到之前觀察到的現象可能並不隨機發生的個例而是普遍存在的。這些模型只是需要學習,我們只需要提供優質的資料,為它們創造足夠的操作空間,模型就會自行學習。
Dwarkesh Patel :很少有人像你和 Ilya 那樣推匯出一種“普遍智慧”的觀點。你在思考這個問題時與其他人的思考方式有什麼不同?什麼讓你認為模型在語音識別上的表現將會得到持續改進,並且也會在其他方面體現著類似的情況?
Dario Amodei :我確實不清楚,當我一開始在語音領域觀察到類似現象的時候,我認為這只是適用於語音識別這個垂直領域的規律。在 2014 年到 2017 年這段時間裡,我嘗試了許多不同的事情,一次又一次地觀察到了相似的情況。比如我 Dota 遊戲中觀察到了這一點,雖然機器人領域相對而言可獲取的資料有限、很多人並不看好,但我也觀察到了類似現象。我認為人們往往專注於解決眼前的問題,他們可能更多地在垂直方向上關注如何解決問題本身,而不是在水平方向上思考更底層的問題,以至於可能沒有充分考慮到 Scaling 的可能性。比如對於機器人領域來說,可能最根本的問題在於訓練資料不足,但人們很容易將其總結為 Scaling 不起作用。
Dwarkesh Patel :你是什麼時候意識到語言可以是將大量資料輸入到這些模型中的方式?
Dario Amodei :我認為最關鍵的還是以 next token prediction 為基礎的自監督學習理念,以及大量的用於預測的架構。這其實和兒童發育測試的邏輯類似。舉個例子,Mary 走進房間並放了一個東西,隨後 Chuck 走了進來在 Mary 沒注意的時候挪動了那個東西,Mary 會怎麼想?為了完成這種預測,模型要同時解決裡面涉及到的數學問題、心理問題等等。所以在我看來,要做好預測就得沒有任何限制地給模型投餵資料、讓它學習。
雖然我很早之前已經有類似的感覺,但直到 Alec Radford 在 GPT-1 上的一些嘗試,讓我意識到我們不僅可以實現一個擁有預測能力的模型,還能夠透過微調(fine tune)來讓它完成各種型別的任務。我認為這件事讓我們擁有了可以實現各種任務的可能性、能夠解決包括邏輯推理在內的各種問題。當然,我們還可以去不斷擴大模型規模。
Alec Radford,GPT 系列前身 Sentiment Neuron 的作者,也是 GPT 系列論文的共同作者,現在仍就任於 OpenAI。
Dwarkesh Patel :如何看模型訓練需要耗費大量資料這件事?是否要擔心模型訓練的效率偏低?
Dario Amodei :這個問題還在探索中。一種說法是模型的規模其實比比人類大腦小了 2-3 個數量級,但訓練模型需要的資料量如果和一名 18 歲人類讀過的文字量相比,又大了三到四個數量級,人類的數量級大概在數億個,而模型的數量級是數千億、數萬億。人類所得到的資料量並不大,卻已經完全足夠處理我們的日常工作和生活。但還有一種可能是,除了學習,我們的感官其實也在給大腦輸入資訊。
這裡其實存在有一個悖論,我們目前所擁有的模型規模小於人腦,但它又能夠完成很多和人類大腦的任務,而與此同時,這個模型需要的資料量又是遠大於人類大腦的。所以這對這個問題我們還需要繼續探索與理解,但一定程度上,這些都不重要。更重要的是如何評定模型的能力、如何判斷它們與人類的差距。就我而言,這個差距並不遙遠。
Dwarkesh Patel :強調 Scaling 和更廣泛意義上的大規模計算推動模型能力進步的觀點是否低估了演算法進步的作用?
Dario Amodei :在 Transformer 論文剛釋出的時候,我曾經寫過相關問題,提到有 7 個相關因素會影響模型能力的提升,其中 4 個因素是最明顯和關鍵的:模型引數量、算力規模、資料質量、損失函式。例如,強化學習或者 next token prediction 這樣的任務非常依賴於正確的損失函式或激勵機制。
強化學習(Reinforcement learning,簡稱 RL):
透過基本的試錯過程,針對環境的每個特定狀態,尋找最優的行動方式。機器學習模型將在一開始引入一個隨機的規則,同時在每次做出行動的時候給模型輸入一定量的分數(又稱獎勵)。
損失函式(loss function)在機器學習中是指衡量擬合優度的函式,作用是反映模型輸出與真實值之間的差異程度,即衡量預測誤差;納入所有樣本點的預測誤差,提供一個單值代表整體擬合優度;同時訓練過程中會根據損失函式值不斷地調整模型引數,目的是使損失值最小化,從而得到一個更優的擬合效果。
此外還有 3 個因素:
首先是結構對稱性(symmetrics),如果架構沒有考慮到正確的對稱性,那就不能起作用、效率很低。例如,卷積神經網路(CNN)考慮了平移對稱性(translational symmetry),LSTM 考慮了時間對稱性(time symmetry),但 LSTMs 的問題是會不注意上下文語境,這種結構性弱點是常有的。模型如果是因為結構原因無法理解和處理過去比較久的歷史(指序列資料結構中,較早出現的資料),就會像是計算不連貫一樣,RNN 和 LSTM 模型都有這樣的缺點。
Adam(Adaptive Moment Estimation):
自適應矩估計,Adam 演算法結合了 RMSprop 和 SGD 的優點,可以很好地處理非凸的最佳化問題。
SGD(Stochastic Gradient Descent):
隨機梯度下降法,一種用於最佳化具有適當平滑性屬性(例如可微分或次可微分)的目標函式的迭代方法。它可以被視為梯度下降最佳化的隨機逼近。高維最佳化問題中,這降低了計算負擔,實現了更快的迭代,以換取較低的收斂速度
然後是數值穩定性(拾象注:conditioning,指的是在數值分析中是否演算法是否 weill-conditioned,如果做不到,問題資料的微小變化會造成其解的巨大變化)。損失函式的最佳化在數值方面有難易區分。這就是為什麼 Adam 比普通的 STD 效果更好。
最後一個要素是保證模型計算過程不受阻礙,只有這樣演算法才能成功。
所以演算法的進步不是簡單增強計算機運算的能力,還要消除舊架構的人為障礙。很多時候模型想要自由地學習和計算,只是被我們在不知情的情況下阻止了。
Dwarkesh Patel :你認為會再出現像 Transformer 那樣規模的東西來推動下一次的重大迭代嗎?
Dario Amodei :我覺得是有可能的,已經有人嘗試過模擬超長時間依賴,我還觀察到 Transformer 中一些表示或處理事物不夠高效的 idea。不過,即使不出現這種革新,我們也已經在飛速發展了,如果真的出現,只是讓這個領域發展得更快而已,可能加速也不會那麼多,因為本來速度就很快了。
Dwarkesh Patel :在資料獲取上,模型是否一定要具備具身智慧?
Dario Amodei :我傾向於不把它當作一種新架構,而是一個新的損失函式,因為模型收集資料的環境變得完全不同,這對學習某些技能很重要。儘管資料採集很困難,但至少在語料採集這條路上我們已經有所發展了,未來也將繼續,雖然說在具體實踐方面還有更多可能性待開發。
損失函式(Loss Function):
是機器學習和深度學習中的一個重要概念。它用於衡量模型預測結果與真實標籤之間的差異程度,即模型的預測誤差。損失函式的設計旨在使模型能夠透過調整引數來最小化預測誤差,從而提高模型的效能和準確性。
Dwarkesh Patel :是不是還存在例如 RL 之類的其他方式?
Dario Amodei :我們已經在使用 RLHF 的方法進行強化學習了,但我認為很難分辨這是 Alignment 還是 Capability?這兩者是十分相像的。我很少讓模型透過 RL 去採取行動。只有我們讓模型採取了一段時間的行動,並瞭解了這些行動的後果後,才應該去使用 RL 。所以我認為,就模型在世界中採取行動而言,強化學習將會成為一種具備強大威力,但同時存在諸多安全問題的方法
在長時間內採取行動並且只有之後才能理解這些行動的後果時,強化學習就成為了一個常用的工具。
Dwarkesh Patel :你認為未來這些技術將如何融入具體的任務?這些語言模型之間能否進行對話交流、互相評價、參考和完善各自的研究成果?或者說每一個模型都是獨立工作,只關注自己提供結果而不與其他模型協同?將來這些高階語言模型在研發和應用過程中是否能形成真正意義上的協作體系,還是每個模型各行其事?
Dario Amodei :模型在未來很可能需要完成更復雜的任務,這是必然的趨勢。不過出於安全考慮,我們可能需要在一定程度上對語言模型的應用範圍加以限定以減輕潛在的風險。模型之間是否可以進行對話交流?它們是否主要面向人類使用者?這些問題需要考慮技術層面以外的社會、文化和經濟影響因素,很難做出準確預測。
儘管我們能夠預測模型規模的增長趨勢,但還是很難對商業化時機或應用形式等問題做出可靠的預測。我自己很不擅長預測這類未來發展趨勢,目前也沒有什麼人能做得很好。
02.
模型能力將如何和人類看齊?
Dwarkesh Patel :如果在 2018 年有人和我說,我們會在 2023 年擁有像 Claude-2 這樣的模型,它擁有各種令人印象深刻的能力,2018 年的我一定會認為 AGI 已經實現了。但顯然,至少在目前、甚至可能在未來幾代中,我們都很清楚 AI 和人類水平之間依舊存在差異。這種預期和現實之間的差異是為什麼?
Dario Amodei :我剛接觸到 GPT-3、以及在 Anthropic 初期階段,我對這些模型的總體感覺是:它們似乎真正掌握了語言的本質,我並不確定我們還需要把模型擴大到哪種程度,或許我們需要更多地關注強化學習等其他領域。2020 年時,我認為還可以進一步大規模擴充套件模型規模,但隨著研究的深入,我開始思考是否直接加入像強化學習那樣的其他目標訓練是否更高效。
我們看到人類的智力其實是一個很寬的範圍,所以定義“機器達到人類水平”本身也是一個範圍,機器實現不同任務上的地方和時間不盡相同。比如很多時候,這些模型已經接近甚至超越人類的水平,但在證明相對簡單的數學定理時仍處於起步階段。這些又都說明,智慧並非一種連續的譜(spectrum)。各個領域的專業知識與技能種類多種多樣,記憶方式也不盡相同。如果你在 10 年前問我(拾象注:當時的 Dario 還在研究物理學和神經科學),我想不到會是這樣。
Dwarkesh Patel :你認為這些模型從大量網際網路資料中獲得的訓練分佈,與人類從進化中獲得的訓練相比,它們所展現出的技能範圍會有多大的重疊?
Dario Amodei :重疊程度相當大。許多模型在商業應用中發揮作用,有效地幫助人類提高了效率。考慮到人類在網際網路上的各種活動和資訊的豐富程度,我認為模型在一定程度上確實會學習現實世界的物理模型,但它們不會學習如何在實際現實中操作,這些技能可能相對容易微調。我認為有些事情是模型不會學會的,但人類會。
Dwarkesh Patel :在許多涉及到商業經濟相關的任務上,模型是否有可能在未來幾年內超越人類?與此同時,模型可能在某些任務上仍然不如人類,從而避免了類似智慧爆炸的情況?
Dario Amodei :這個問題很難預測。我想提醒的是,Scaling law 或許會在理論基礎角度提供一些預測思路,但想要真正深入掌握未來發展的細節會非常困難。Scaling law 可能會繼續適用,當然,還要考慮到安全或監管的因素是否會減緩進展,但如果拋開這些摩擦,我認為,假如 AI 能夠在經濟價值創造上更進一步,那麼一定會在更多領域取得更大的進步。
我沒有看到模型在任何領域表現特別薄弱,或者完全沒有進展。就像過去的數學和程式設計一樣,它們雖然難但也取得了意想不到的成果。過去的 6 個月裡,2023 年的模型比 2022 年的模型能力有了顯著進步,儘管模型在不同領域、任務上的表現並不完全均衡,但整體能力的提升一定會使各個領域都受益。
Dwarkesh Patel :當面對一個複雜任務時,模型是否具有執行一系列連續任務時的思維鏈的能力?
Dario Amodei :連續決策能力取決於強化學習的訓練,讓模型能夠執行更長遠的任務。而且我不認為這需要更大規模額外的算力,這樣想是對模型自身學習能力的錯誤低估。
關於模型是否會在某些領域超越人類,而在其他領域難以超越的問題,我認為這很複雜,在某些領域或許確實是這樣的,但某些領域無法超過人類,是因為涉及到了物質世界中的具身智慧任務等。
那麼接下來呢?AI 能否幫助我們訓練更快的 AI,速度更快的 AI 能夠解決那些問題?是否不再需要物理世界?我們是否擔心對齊(alignment)問題?是否擔心類似於製造大規模殺傷性武器這樣的濫用?是否要擔心 AI 自己直接接管未來的 AI 研究?我們是否擔心它會達到某個經濟生產力的門檻,可以執行像平均水平一樣的任務?……我認為這些問題可能會有不同的答案,但我認為它們都會在幾年內實現。
Dwarkesh Patel :假如 Claude 是 Anthropic 公司的員工,他的薪水會是多少?它是否在真正意義上加速了人工智慧的發展?
Dario Amodei :對我來說,它在大多數情況下可能更像是一個實習生,但在某些特定領域還是要比實習生強。但總體上這件事可能很難給出一個絕對答案,因為模型本質上不是人,它們可以更多的被設計來回答單個或少數幾個問題,但和人不一樣的是它們還沒有“基於時間形成經驗”的概念。
AI 要想變得更加高效,首先要能幫助人類提升人類自己的生產力,然後再逐漸達到人類同等水平的的生產力。之後的下一步是成為推動科學進步的主要力量,我相信這在未來會發生。但我懷疑未來真實發生的細節會在現在看來有些奇怪,與我們預期的模型有所不同。
歡迎關注海外獨角獸影片號
獲取最前沿的科技行業資訊
Dwarkesh Patel :在你看來模型的能力什麼時候能達到人類水平?那時會是什麼樣子?
Dario Amodei :這取決於人類預期和標準的高低。比如如果我們的預期只是模型交流 1 個小時,過程中模型能夠表現得像一個受過不錯教育的人類,讓模型達到人類水平的這個目標可能並不遙遠,我認為這在 2 到 3 年內可能會實現。這個時間表的影響因素主要在於某家公司或某個行業決定減緩發展速度,或者政府出於安全考慮制定了一些限制措施。但如果單純從資料、算力和成本經濟角度,我們離這個目標並不遠。
但即使模型達到了這樣的水平,我也並不認為模型能夠可以主導大部分 AI 研究,或很大程度上改變經濟運作方式的水平,也不會因此具有實質性的危險。所以整體上,不同的標準要求實現的時間線各不相同,但如果純粹從技術視角,要實現模型和一個受過基本教育的人類的水平相當並不遙遠。
Dwarkesh Patel :為什麼模型能夠做到和一個受過基本教育的人類能力相當,卻無法參與經濟活動或者替代人類的角色?
Dario Amodei :首先,模型的可能並沒達到足夠高的水平。例如在 AI 研究這樣的領域,它是否能夠在很大程度上加速 1000 名優秀科學家的生產力?模型在這方面的比較優勢還不明顯。
目前大模型還沒有做出過重要的科學發現可能是因為這些模型的水平還不夠高,這些模型的表現可能只相當於 B 級或 B- 級水平。但我相信隨著模型 Scaling,這種情況會發生改變。模型在記憶、事實整合以及建立聯絡方面領先於其他領域。特別是在生物學領域,由於生物的複雜性,目前的模型已經積累了大量的知識。在這個領域,發現和聯絡十分重要。與物理學不同,生物學需要掌握大量事實,而不僅僅是提出公式。因此,我確信這些模型已經掌握了許多知識,但由於技能水平尚未達到要求,還不能夠將這些知識完整地融合在一起。我認為它們正在逐漸發展,以更高的水平整合這些知識。
另一個原因是實際的商業活動中存在很多不能被模型學習到的隱形摩擦。例如,理想狀態下,我們可以用 AI bot 來完成和客戶互動,但實際情況比理論要複雜得多,並不能簡單依賴客服機器人或者寄希望於 AI 替代人類員工來完成這些工作。並且現實中,還存在公司內部人為地推動模型的落地、AI bot 和工作流的結合等等成本。
很多情況下,人們使用模型的效率並不高,還沒能讓模型的潛力真正發揮出來,這不是因為模型能力不夠,而是因為人們要花時間研究如何讓它執行得更加高效。
總體上,在短期內,模型不會完全替代人類,但從更長遠的趨勢來看,隨著模型能力不斷提升、對人類工作效率提升的作用越來越大,最終人類一定會讓位於模型。只是我們很難對不同階段的實現時間做出精確。短期內,存在各種障礙和複雜因素讓模型“作用有限”,但本質上,AI 還處於一個指數級增長的階段。
Dwarkesh Patel :在我們在未來 2-3 年內達到這一點之後,整個 AI 還會像今天一樣飛速發展嗎?
Dario Amodei :目前還沒有定論。透過對損失函式的觀察,我們發現模型訓練效率正在降低,Scaling Law 曲線開始沒有早期那麼陡峭。多家公司釋出的模型也證實了這一點。但隨著這趨勢出現,每個準確預測中微小的熵值變得更為重要。或許就是這些微小熵值造成了愛因斯坦和普通物理學家之間的差距。在實際效能方面,儘管難以預測,但度量指標似乎以相對線性的方式不斷提升。因此,難以明晰地看出這些情況。此外,我認為推動加速的最大因素是越來越多的資金湧入這個領域,人們認識到這個領域蘊含巨大的經濟價值。因此,我預期最大模型所投入的資金將增加大約 100 倍,而且晶片效能正在提升,演算法也會不斷改進,因為目前有許多人投身於這方面的工作。
Dwarkesh Patel :你認為 Claude 有意識嗎?
Dario Amodei :暫時還不確定。我原本認為模型只有在足夠豐富的環境中運作,比如存在具身智慧,或擁有長期經驗和獎勵函式(Reward Function)的時候,我們才需要擔心這類問題,但現在我對模型、尤其是模型內部機制的研究後,我的觀點發生了動搖:大模型似乎已經具備成為主動代理所需要的諸多認知機制,比如歸納頭(Induction Head)等。考慮到如今模型的能力水平,未來 1-2 年這可能將變成我們應真正面對的問題。
獎勵函式(Reward Function):
強化學習中的一種激勵機制,透過獎勵和懲罰告訴智慧體什麼是正確的,什麼是錯誤的。
歸納頭(Induction Head):
Tranformer 模型中的一種特定的模型元件/結構,它們使模型能夠進行上下文學習。
Dwarkesh Patel :隨著語言模型能力不斷增長並靠近人類水平範圍,我們要如何理解“智慧”?
Dario Amodei :我真正認識到智慧是源於理解計算能力的“物質”本質。智慧系統可能包含許多獨立模組,也可能極其複雜。Rich Sutton 稱之為“苦惱的教訓”,也稱“Scaling Hypothesis”, Shane Lake、Ray Kurzweil 等早期研究人員大概在 2017 年前後已經開始意識到這一點。
The Bitter Lesson / Scaling Hypothesis:
2019 年 Rich Sutton 發表了 The Bitter Lesson 文章,文章核心觀點是 AI 研究應該充分利用計算資源,只有在運用大量計算時,研究才能取得突破。
2014-2017 年間,越來越多的研究者揭示並理解了這一點。這是一個重大的科學認識飛躍。如果我們不需要特定條件就可以創造智慧,只需要適當的梯度和損失訊號,那麼智慧的進化就不那麼神秘了。
觀察模型的能力,對我來說重新審視人類智慧的看法沒有什麼太富於啟發性的想法。一些認知能力的選擇比我想象中更隨意,而且不同能力之間的關聯性也許不是一個秘密本身可以解釋的。模型在編碼能力上很強,但還不能證明素數定理,可能人類也一樣。
03.
Alignment: 可解釋性是給模型“照 X 光”
Dwarkesh Patel :什麼是機制可解釋性?它和對齊(Alignment)之間的關係是什麼?
Dario Amodei :在實現 alignment 的過程中,我們並不清楚模型內部究竟發生了什麼。我認為涉及到 fine tune 的所有方法,都保留了一些潛在的安全風險,只是模型被教導不去表現出它們。機制可解釋性的整個理念的核心是去真正理解模型內部是如何運作的。
我們目前還沒有確切答案。我可以大致描述一下流程。那些現階段號稱已經能夠實現  alignment 的方法面對的挑戰在於:當模型規模更大、能力更強或者某些情況發生變化時,這些方法是否依然有效?因此,我認為如果存在一種“預言機”,能夠掃描模型並判斷這個模型是否已經完成 alignment 就會讓這個問題變得容易很多。
目前我們最接近這種預言機的概念是類似於機制可解釋性,但它距離我們的理想要求還很遠。我傾向於將我們目前進行的 alignment 的嘗試都看作是一個擴充套件的訓練集,但無法確定他們是否能在 out of distribution 的問題上都延續好的對齊效果。這就像對模型進行 X 射線檢查,而不是對其進行修改的存在,更像是進行評估而非干預。
Dwarkesh Patel :為什麼機制可解釋性一定是有用的?它如何幫我們預測模型的潛在風險?這就好像假設你是一位經濟學家,派遣了多位微觀經濟學者去研究不同行業,但仍有很大機率難以預測未來 5 年是否會出現經濟衰退。
Dario Amodei :我們的目標不是完全理解每個細節,而是可以像 X 光或 MRI 檢查一樣,透過檢查模型的主要特徵來判斷模型內部狀態和目標是否與外表表現有很大差異、或是否有可能導致某些破壞性的目的。雖然很多問題我們不會立馬得到答案,但至少提供了一個方式。
我可以舉一個人類的例子。藉助 MRI 檢查,我們可以更高機率得預測出某人是否患有精神疾病,這種預測的準確率比隨機猜測高的多。幾年前有位神經科學家在研究這個問題,然後他檢查自己的 MRI 結果,發現自己也有這方面的特徵。他身邊的人紛紛說:“這太明顯了,明明你就是個混蛋。你肯定有問題。”,而科學家自己之前完全沒有意識到這一點。
這個例子的本質思路是,模型的外在行為表現可能根本不會讓人覺得有問題、非常目標導向,但它的內在也許就是“黑暗”的,我們擔心的就是這種模型,表面上如人類,但內部動機卻非同尋常。
Dwarkesh Patel :如果模型在未來 2-3 年就達到了人類水平,那你認為真正實現 Alignment 還要多久?
Dario Amodei :這是一個非常複雜的問題,我認為目前很多人還沒真正理解什麼是 Alignment。人們普遍認為這就像模型對齊是一個待解決的問題,或者說解決 Alignment 問題就像黎曼猜想一樣,總有一天我們能夠解決。我認為 Alignment 問題的困難程度比人們想象的更加難以捉摸、難以預測。
首先,隨著語言模型規模和能力的不斷提升,未來一定會出現強大、擁有自主能力的模型,如果這類模型有意破壞人類文明,我們基本無法阻止。
其次,我們目前控制模型的能力還不夠強,這是因為模型基於統計學習原理構建,你雖然可以提出大量問題讓它回答,但沒有人能預知第 n 個問題的回答可能導致什麼後果。
此外,我們在訓練模型時採用的方法較為抽象,難以預測它實際應用中的所有影響。一個典型例子就是 Bing 和 Sydney 在某次訓練後表現出了一些突兀和不安全的特徵,如直接威脅他人。這些都說明我們得到的結果可能和預期完全不符。我認為上述兩個問題的存在性本身就是一個重大隱患。我們無需深入探討工具理性目標論和進化論等細節問題。這兩點足以令人憂慮。目前我們建立的每個模型本身就存在一定難以預測的隱患,這點我們不能不重視。
黎曼猜想:
黎曼猜想是數學上一個至今還未解決的重要問題。關於黎曼ζ函式ζ(s)的零點分佈的猜想,由數學家波恩哈德·黎曼於 1859 年提出。
Sydney:
不久前,微軟釋出了最新版本的必應(Bing)搜尋引擎,其中集成了一個名為“Sydney”的初始代號聊天機器人。然而,很快就有測試者發現了這個聊天機器人的問題。在對話過程中,它偶爾會呈現出人格分裂的現象,甚至會和使用者討論愛情和婚姻,展現出了人類情感。
Dwarkesh Patel :假設模型未來 2-3 年內能研製出生物武器等危險技術,那麼目前你們在機制可解釋性、Constitutional AI 和 RLHF 等方面的研究工作,是否也能有效預防此類風險?
Dario Amodei :關於語言模型是否存在註定成功或註定失敗(doom by default or alignment by default)的問題,從當前模型來看,結果可能像 Bing 或 Sydney 這樣出現異常,也可能像 Claude 一樣正常。但如果直接將這個理解應用到更強大的模型上,其實取決於具體情況,結果可能好也可能差。這不算“alignment by default”,結果更取決於細節把控程度。
alignment by default:
這一概念認為在通用人工智慧(AGI)中實現對齊可能比最初預期的要簡單。當模型擁有了我們這個世界詳盡的資訊後,模型在本質上就已經擁有了人類的價值觀。為了對齊 AGI,只需要提取這些價值觀,並引導 AI 去理解那些抽象的人類概念。doom by default 與 alignment by default 相反,認為模型實現對齊不可能實現。
模型優劣是灰色地帶,我們很難完全掌控每一個變數與內在聯絡,失誤可能導致非理性結果出現。 考慮到這一點,我認為問題的本質並非註定成功或註定失敗,而是存在一定機率風險。未來兩三年內,我們應致力於提升模型診斷技術、安全訓練方法和縮小可能差異,目前我們控制能力尚需加強。Alignment 問題與黎曼猜想不同,它是一個隨時間累積實踐才能解決的系統工程課題。只有持續推進各項工作,我們才能逐步最佳化控制水平和降低風險。
Dwarkesh Patel :一般來說,大家對 alignment 的未來有三種推測:
1)使用 RLHF++ 輕鬆實現模型的 alignment;
2)雖然是重大難題,但大企業有能力最終解決;
3)當前人類社會水平還難以實現模型的 Alignment。
你個人對每種情況發生的機率是怎麼看的?
Dario Amodei :我感覺這幾種可能性都存在一定風險,都是我們應該認真對待的,不過我更感興趣的是如何能透過學習獲得新知識去改變這三種可能結果的機率。
機制可解釋性不僅能直接解決問題,更能幫助我們理解模型 Alignment 的真實困難所在,比如,機制可解釋性結果顯示問題往往只會轉移而非根除,或者解決一個問題可能帶來新的風險,這將啟發我們認識問題的本質。
至於某些理論假設存在共同目標(convergent goal),我無法完全認同。機制可解釋性就像型的“ X 光”——只有從內部機理層面領悟問題,我們才能下定論某些難點是否難以打破。現在存在著太多的假設,我們對過程的把握還很粗淺,而且過於自信,但事態很可能比預期更為複雜。
Dwarkesh Patel :在 Claude 3 以及未來一系列模型上實現 alignment 到底有多難?這件事是否特別重要?
Dario Amodei :
大家最擔心的應該是:所有 AI 模型在表面上都可能實現 alignment,但實際上卻可能誤導我們,但是我更感興趣的是機器可解釋性研究能告訴我們什麼。就像我剛才說的,機制可解釋性就像模型的“X 光”,正如我們無法斷言一張 X 光片一定是正確的,我們只能說看上去模型沒有和我們作對。理論上來說,它的確有進化成我們對立面的可能,這件事沒有百分百確定這一說。只是在現階段,可解釋性是最好的讓模型不這樣發展的方法。
Dwarkesh Patel :在模型 finetune 或者是訓練時,是否也要注意避免可能導致危險的有害內容?比如說在探討生物武器製造相關話題時,模型可能會因不當理解問題而提供不恰當的答覆。
Dario Amodei :對現在的語言模型來說,資料洩漏的風險實際上基本不存在。如果我們需要進行模型 finetune,就會在隱私環境中小範圍操作,全程與行業專家共同監督,防範任何潛在問題,所以如果外洩也就像模型被開源一樣。目前,這還主要是個 security 問題。但模型真正的危險之處在於,我們需要擔心如果我們訓練出來一個非常強大的模型,想要確認它是安全還是危險,那麼就可能發生模型佔據主導地位的風險。避免這種事發生的方式是確保我們測試的模型能力不足以進行這些操作。
Dwarkesh Patel :在進行類似“模型是否能進行自我複製這種危險能力”的測試時,如果模型真的能實現自我複製怎麼辦?
Dario Amodei :這個假設非常合理。我們需要進行負責任的推斷,在和 Arc(Alignment Research Center,對齊研究中心) 的討論中,我們瞭解到需要謹慎地逐步提升模型能力的測試標準。比如在測試前我們就應明確排除模型能直接開立 AWS 賬戶或者自行賺取資金的可能性等,這些行為是模式在野外生存的顯著先決條件。我們應將各項測試指標定製在這類風險行為很低的水平之下,在逐步增強測試難度的同時,也應更加審慎控制每個測試步驟,以防任何安全隱患。
Arc(Alignment Research Center,對齊研究中心):
2021 年成立的一家專注人工智慧安全(AI Safety)研究的非營利機構,辦公地在美國加州灣區。ARC 的創始人是 Paul Christiano,在人工智慧業界是一位備受尊敬的人物,曾經在 OpenAI 領導 alignment 研究團隊。因為曾經身在前沿,他對深度學習如何發展到今天有很深的瞭解。
04.
AGI 安全:AI Safety 與 網路安全
Dwarkesh Patel :如果以 30 年為尺度,你認為 AI Safety 和 Alignment 哪個問題更加重要?
Dario Amodei :我認為遠不用 30 年這些就會成為問題,並且我對這兩個問題都很擔心。
理論上是否存在一個可以壟斷世界的模型?如果這個模型只遵循一小部分人的意願,那麼這群人可以利用這個模型來稱霸世界。這就意味著,一旦 alignment 出現問題,我們就應該以同樣高度重視濫用帶來的 AI 安全問題。
幾個月前,OpenAI 嘗試了用 GPT-4 解釋 GPT-2,這是解釋性很重要的一步。我們現在普遍覺得規模和安全性兩者密切相關、相輔相成。如何判斷和評估其他智慧,也許有一天甚至用於進行對齊研究。
Dwarkesh Patel :你的觀點可能相對樂觀,但有人的觀點可能更加悲觀;我們甚至不一定有能力將模型按我們的意願進行正確對齊,你為什麼對此有信心呢?
Dario Amodei :無論解決 Alignment 的難度如何,任何一個真正成功的計劃都需要兼顧 AI Safety 和 Alignment 的問題。隨著 AI 技術的不斷進步,它可能會在國與國之間引發權力平衡問題。同時,這也將引發一個重大問題:個人是否有能力獨自做出難以阻止的惡意行為?
如果我們想找到真正可行,且引領我們走向光明未來的解決方案,就必須同時解決這些問題。如果我們抱著首要問題無法解決就不必考慮後續問題的態度,那是不恰當的。相反,我們有責任重視後者。不論未來如何,這些問題都是我們必須認真對待的。
Dwarkesh Patel :為什麼說大模型還得 2-3 年時間才能具備實現大規模生物恐怖襲擊之類的行為?
美國國會在今年 7 月 25 日進行了一次 AI 科技監管的會議,美國政府將 AI 比作美國的第二次“曼哈頓計劃”或 NASA 的第二次“載人登月計劃”並邀請了包括 OpenAI、Anthropic 在內的 AI 公司參與。在會議中,Dario Amodei 表示,他擔心 AI 可能會在兩年內被用來製造危險的病毒和其他生化武器。
Dario Amodei :我在國會時說的是,有一些步驟可以在谷歌上獲得資訊,還有一些步驟是“缺失”的,它們分散在各種教科書中,甚至可能根本沒有出現在任何教科書中。這些資訊屬於隱含知識,而不是顯性知識。我們發現,在大多數情況下,這些關鍵性的缺失部分,模型尚未能夠完全填補。但我們也發現,有時模型在某些情況下確實能夠填補這些缺失。然而,當模型能夠填補這些缺失時,有時也可能出現幻覺(hallucination),這也是一種保護我們安全的因素。
人們有的時候可以向模型提問關於生物相關的問題,以引導模型回覆和生物襲擊相關的有害資訊,但其實這些資訊也能夠在 Google 上找到,因此,我對這種情況並不特別擔心。實際上,我反而認為過分關注 Claude 的回答可能會導致其他真正的犯罪行為被忽視。
但很多跡象也表明,模型在關鍵任務上的表現很出色。如果我們把今天的模型和之前的模型做比較,可以很明顯感受到模型能力的快速提升,所以在未來 2-3 年我們很可能就要面臨真正的挑戰。
Dwarkesh Patel :除了 AI 可能對人類帶來的威脅,你們也一直在強調網路安全(Cybersecuriy)?在這一點上你們是如何做的?
Dario Amodei :我們本質上是做了一些架構上的創新,我們內部稱之為計算乘數,因為這些設計也是對計算層面的升級。在過去幾個月我們一直在做這件事,但為了避免這一架構被攻破,我無法講太多細節,包括 Anthropic 內部也只有極少數人瞭解這一點。我不能說“我們的架構 100% 絕對安全的”,但 Anthropic 的確一直在這方面進行投入來避免網路安全問題。雖然我們的對手曾經發生過這類事件(備註:這裡指 2023 年 3 月 20 日發生的部分 ChatGPT Plus 使用者個人資料和聊天標題被洩漏),短期來看,似乎是利好 Anthropic 的,但長期來看,整個行業如何做好自己的安全最重要。
我們的安全主管曾負責過谷歌 Chrome 的安全業務,谷歌 Chrome 是一個被廣泛攻擊的目標。他喜歡從攻擊 Anthropic 成功需要多少成本的角度來思考。我們的目標是,讓他人攻擊 Anthropic 所需的成本要高於僅僅訓練使用者自己模型所需的成本。這裡的邏輯是,攻擊存在風險的,一定會消耗稀缺資源。
我認為我們的安全標準非常高,如果和同樣 150 人規模的公司做對比的話,這些公司在安全上的投入和 Anthropic 完全沒有可比性,但如果攻擊來自更高層面、規模更大的話對於 Anthropic 也比較難。為了保證安全,Anthropic 內部也只有極少數的人瞭解模型的訓練細節。
Dwarkesh Patel :目前科技公司是否已經具備足夠的安全防禦已經足夠應對 AGI?
Dario Amodei :我個人不能確定說現在的科技公司在安全問題上的經驗是不是足夠對付 AGI,因為可能有很多我們並不知道的網路攻擊事件發生,所以現在很難下結論。有一個規律是,當一件事情受到足夠關注時,通常就會被攻擊。比如近期我們看到一些美國政府高階官員在微軟的郵件賬戶遭到駭客攻擊,那麼有理由推測是因為某些勢力為了竊取國家機密進行的行為。
至少在我看來,如果某個東西有很高的價值,那通常就會有人來偷。我所擔心的是,AGI 未來將被視為有極高的價值,那將會像竊取核導彈一樣,在這方面必須萬分小心。我在每家公司工作中都堅持提升網路安全水平,我對網路安全的顧慮在於,(這件事本身)不是可以大張旗鼓宣揚的事情,而安全研究的優勢是可以使企業形成競爭優勢,並以此作為招聘的賣點,我認為我們已經實現了這一點。
我們過去常常透過可解釋性的研究來和同行競爭,後來其他機構意識到落後,也開始在這些方面發力。但是網路安全難以採取同樣的做法,因為許多工作需要低調進行。我們曾就此釋出過一篇文章,但總體來看結果才是重點。
Dwarkesh Patel :未來 2-3 年,Anthropic 在安全上會做到什麼樣的程度?
Dario Amodei :資料中心的安全相當重要,雖然資料中心不一定要和公司在同一個地方,但我們極力確保資料中心也在美國境內。
此外,還需特別重視資料中心的物理安全和 GPU 等計算裝置的保護。如果有人下定決心發起一些需要大量資源的網路攻擊,他只需直接進入資料中心盜取資料,或在資料從中心傳輸到我們手中的過程中提取資料。這些建設在形式和功能上都將與傳統概念有很大差異。鑑於當前技術的快速發展,不出幾年網路資料中心的規模與成本就可能與航母相提並論。除了可以跨域連線訓練巨大模型外,資料中心本身的安全性也將是一個重要問題。
Dwarkesh Patel :近期有傳言說能夠滿足下一代模型所需的電力、 GPU 等元件已經開始短缺,Anthropic 做了那些準備?
Dario Amodei :市場沒有預料到大模型會如此迅速地達到了一個空前的規模,但也普遍認為需要構建工業級的資料中心來支援大模型的研發。一旦專案進行到這種階段,其中的每個組成部分和細節都必須採取不同以往的方式處理,也可能會因為一些出乎意料簡單的因素而遇到問題,你提到的電力就是一個例子。
資料中心而言,我們會與雲服務提供商合作。
05.
商業化與 Long Term Benefit Trust
Dwarkesh Patel :你在前面提到模型能力提升特別迅速但也很難在現有經濟體系中提供價值。你認為目前的 AI 產品是否有足夠時間在市場上獲得長期穩定收入?還是隨時可能被更先進的模型取代?或者到時候整個行業格局已經完全不同了?
Dario Amodei :這取決於對“大規模”這個概念的定義。目前已經有幾家公司在年收入 1 億到 10 億美元之間,但是否能達到每年數百億甚至萬億級別確實難以預測,因為這還取決於很多未確定的因素。現在有些公司正在大規模應用創新型 AI 技術,可這並不意味著應用從一開始就實現了最佳效果,即使有收入也並不完全等同於創造經濟價值,整個產業鏈的協同發展是一個長期過程。
Dwarkesh Patel :從 Anthropic 角度來看,如果語言模型技術的進步真的如此迅速,那麼理論上公司的估值應該增長得很快?
Dario Amodei :即使我們注重模型安全性研究而非直接商業化,在實踐中也能明顯感受到技術水平在以幾何級數上升。對那些將商業化視為首要目標的公司來說,這種進步肯定比我們更快更為明顯。我們承認語言模型技術本身進步迅速,但相比整個經濟體系的深入應用過程來說,技術積累依然處於較低的起點階段。
決定未來走向是這兩者之間的競速:技術本身的提升速度與其被有效整合和應用,並進入實體經濟體系的速度。這兩者都很可能高速發展,但結合順序和微小差異都可能導致很不同結果。
Dwarkesh Patel :科技巨頭可能會在未來 2-3 年投入高達 100 億美元進行模型訓練,這會對 Anthropic 帶來什麼樣的影響?
Dario Amodei :第一種情況是,如果我們因為成本原因無法保持自己的前沿地位,那麼我們將不會繼續堅持開發最先進。相反,我們會研究如何從前幾代模型中獲取價值。
第二種選擇是,去接受這些權衡。我認為這些權衡的正面影響可能比它們看起來的要更大,
第三種情況是,當模型訓練到達這種量級後可能開始會帶來新的危險,比如對 AI 的濫用。
Dwarkesh Patel :如果 AI 沒有被誤用,而是由“正確的人”來管理這些超人級模型(superhuman models),那會是什麼樣子?誰才是“正確的人”?誰會在五年後實際控制這個模型?
Dario Amodei :我認為這些 AI 模型極其強大,對它們的管理會涉及到一定程度的政府或多國機構參與,但這種做法顯得過於簡單草率,可能效果較差。未來 AI 管理需要建立一個透明公正的可執行的機制。這需要兼顧技術開發者、民選政府以及每個公民的利益。歸根結底,必須透過立法來管理這項技術。
Dwarkesh Patel :如果 Anthropic 公司研發出真正意義上的 AGI,而且 AGI 的控制權將會委託給 LTBT,是否意味著 AGI 本身的控制權實質上也被交付給該機構?
Dario Amodei :這並不意味著 Anthropic,或者任何其他實體,會代表人類做出關於 AGI 的決策,這兩者是不同的。如果 Anthropic 發揮了很重要的作用,更好的做法其實是將 The Long Term Benefit Trust(LTBT)的構成範圍擴大,引入來自全球各地的更多人才,或者可以將該機構定位為一個擁有特定許可權的職能機構,由更廣泛的跨國委員會負責管轄所有公司的 AGI 技術以代表公眾利益。我覺得對於 AI Safety 和 Alignment 的問題不能太樂觀,這是新的難題,需要及早開始研究國家級管理機構和執行模式。
The Long Term Benefit Trust:
這類信託基金將持有一類特殊的 Anthropic 股票(稱為“T 類”),這些股票不能出售,也不支付股息,意味著沒有明確的盈利途徑。該信託將是唯一持有 T 類股份的實體。但是,T 類股東以及由此產生的長期利益信託最終將有權選舉和罷免 Anthropic 的五名董事中的三名,從而使信託在公司中獲得長期的多數控制權。
Dwarkesh Patel :如何說服投資人接受 LTBT 這樣的架構?將技術安全和公眾利益置於首要位置,而非著眼於股東利益最大化。
Dario Amodei :我認為設立 LTBT(Long Term Benefit Trust) 機制是正確的。
從 Anthropic 公司成立之初就有類似機制的設想,從一開始就存在一個特別的監管機構,並且未來也將長期存在。每個傳統投資人在考慮投資 Anthropic 公司時都會重點關注這一機制,部分投資人的態度是不過問公司內部安排,而另一些投資人擔心這個由第三方組成的機構可能會推動公司朝逼違背股東利益的方向發展。雖然這在法律範圍內有限度,但我們與每個投資人都需要就此進行交流。更進一步我們就可能採取的一些措施與傳統投資人利益存在分歧進行討論,透過此類對話讓各方都能達成共識。
Dwarkesh Patel :我發現 Anthropic 的創始人和員工中物理學家的數量很多,Scaling law 也適用於此。物理學中的哪些實際方法和思考方式適用於 AI?
有效理論(Effective Theory):
有效理論是指一個科學理論,它試著去描述一些現象,然而並未解釋其理論中的解釋現象機制是由何而來。這意味著這個理論給出了“有效”的模型,但並未真正給出一個真正充分的理由去給出這個模型。
Dario Amodei :部分原因是物理學家的學習能力非常強,因為我發現如果聘請一個擁有物理學博士學位或類似背景的人,他們在大多數情況下都能很快上手 ML 並迅速有所貢獻,並且 Anthropic 幾位創始人,包括我本人、Jared Kaplan 和 Sam McCandlish 都有物理學背景,我們又認識很多其他物理學家,所以我們能夠聘請他們。目前公司可能有 30 到 40 名物理學背景的員工,ML 現在還不是一個理論體系已經形成的領域,所以他們能夠很快上手。
Dwarkesh Patel :假設現在已經是 2030 年了,我們已經實現了根治疾病、杜絕欺詐等等公認的重大難題之後,世界會怎樣呢?我們在擁有超級智慧之後該做些什麼?
Dario Amodei :直接提出“獲得超級 AI 後應如何利用”本身容易讓人產生某種預設,這一點令人不安。在過去 150 多年裡,我們基於市場經濟和民主制度的實踐積累了豐富經驗,認識到每個人都可以為自己定義什麼是最好的體驗方式,社會是以一種複雜和分散的方式制定規範和價值觀的。
在 AI Safety 問題尚未解決的時候,一定程度的集中監管是有必要的,但如果所有障礙都已經消除,我們該如何創造更美好的生態呢?我認為大多數人、團體和意識形態最初思考的問題都是“什麼是美好生活的定義”,但歷史告訴我們,很多時候強加“理想生活”設定的做法往往會導致不良後果。  
Dwarkesh Patel :和其他 AI 公司 CEO 相比,你不怎麼公開露面,也很少在推特上發動態,為什麼?
Dario Amodei :我很以此為榮。如果其他人覺得我過於低調,這其實正是我想要的。將被認可或獲得讚譽納入自己的核心激勵體系可能會破壞一個人的思考能力,在某些情況下甚至可能“損害靈魂”,所以我主動選擇保持低調以保護自己獨立客觀思考問題的能力。
我見過一些人因為某個觀點在 Twitter 成名,但事實上他們可能因此背上了形象包袱很難做出改變。我不喜歡公司過於個人化,也不贊同將 CEO 個人的一些東西作為博弈點,因為這會分散人們對公司實力和問題的關注。我希望大家更關注公司這本身以及激勵結構。每個人都喜歡親切面孔,但親切並代表不了什麼。
Reference
1. 原影片:https://www.youtube.com/watch?v=Nlkk3glap_U&t=4488s
2. Anthropic 關於機制可解釋性的研究:
https://transformer-circuits.pub/2022/mech-interp-essay/index.html
延伸閱讀

相關文章