Z Talk 是真格分享認知的欄目。
三個月前,為 AI 模型提供資料標註的 Scale AI 完成了新一輪由 Accel 領投的近 10 億美元融資,估值飆升至 138 億美元。這家擁有 OpenAI、谷歌、Meta 等眾多 AI 巨頭客戶的獨角獸公司,創始人是一位 1997 年出生的華裔少年。2016 年,還在 MIT 讀大學的 Alexandr Wang 瞄準了 AI 模型領域仍屬於空白的三大支柱之一——資料,輟學創辦 Scale AI,並在三年之內躋身獨角獸。這個在他口中「夏天隨便玩玩的事」,迅速成長為了全球 AI 模型的「資料工廠」。
在近期 Alex Wang 的一次深度對談中,他發表了自己對於模型效能瓶頸、獲取資料途徑的看法,以及 Scale AI 組織建設上的管理經驗。
真格基金積極關注前沿科技創新動向,未來我們將持續帶來全球頂尖創業者認知與深度思想內容,敬請關注。本次內容來自 20VC 播客,以下是編譯全文。

核心內容
-
基礎模型收益遞減與資料瓶頸
-
Scale AI 的公關與人才招募經驗– 為什麼「最好的公關就是沒有公關」?– 為什麼每個創始人在今天都應該擁有自己直接的傳播渠道?– 為什麼最有價值的員工,反而不是在公司最火爆時選擇加入的員工?
-
與 Alex Wang 的快問快答– Alex 聽到的關於 AI 的最大誤解是什麼?– 十年後 Scale AI 會是什麼樣子?Scale AI 會上市嗎?– Alex 從未被問到,但覺得應該被問到的問題是什麼?
– 為什麼資料是當今模型效能的最大瓶頸,而非算力?
– 如何克服資料瓶頸?有哪些當前尚未使用的資料可以被捕獲?
– 面臨資料安全挑戰,我們是否會在未來看到大公司迴歸本地部署?
– 為什麼專有的、差異化的資料將成為企業的護城河?
01
資料是當今模型效能的最大瓶頸
Harry Stebbings:Alex,很高興能和你面對面交談。非常感謝你今天的到來。
Alex Wang:很高興來到這裡。
Harry Stebbings:我們跳過那些你已經講過很多遍的創業故事,直接切入正題。當我們談論今天的模型表現時,你認為現在我們是不是到了一個隨著算力提升,效能表現的提升卻在遞減的階段?
Alex Wang:這很有趣。尤其是在當下,OpenAI 自 2022 年秋天開始就推出了 GPT-4。從那時開始,我們到現在還沒有看到一個新的基礎模型或比 GPT-4 更驚人的新模型,我們沒有看到 GPT-4.5、GPT-5,或者有其他實驗室推出比 GPT-4 好得多的模型,儘管算力投入增加了非常之多。
自從 ChatGPT 推出以來,你可以看到 NVIDIA 的收入圖表,它在 GPT-4 推出後直線上升。NVIDIA 的資料中心收入從每季度約 50 億美元猛增到現在每季度超過 200 億美元。所以,在相同的時間內,已經有數百億美元用於高階 NVIDIA GPU 的支出。GPT-4 是在 NVIDIA 上花費激增之前推出的,在這一時間段內,我們還沒有看到自 GPT-4 以來的重大突破。
總體來說,我們看到算力投資現在呈指數級增長。但是我們作為一個社群和行業,還在等待下一個偉大的模型。
Harry Stebbings:所以你認為我們已經達到了效能的高點,在平臺期的停滯中等待嗎?你覺得這隻會持續幾個月,還是像自動駕駛一樣?我們看到自動駕駛的效能停滯了好幾年,直到最近才又有了突破。
Alex Wang:AI 模型有三個組成部分:算力、資料和演算法。
AI 的歷史是這三個支柱一起發展而建立起來的。你需要大量的計算能力,也需要像 Transformer 或 RLHF 這樣的演算法進步,或者未來的演算法進步。你還需要資料這一支柱來支援它。我認為我們最近看到的效能停滯可以用遇到資料瓶頸來解釋。
GPT-4 是一個基本上訓練了整個網際網路並使用了大量計算能力的模型。我認為過去幾年行業所做的很多事情是大幅度提升計算,但沒有同時建立其他兩個支柱。所以我們需要更多的演算法改進,但重點是我們需要確保有更多的資料來支援這些改進。
Harry Stebbings:你提到的資料上的瓶頸是什麼意思?我們如何克服?
Alex Wang:簡單來說,我們已經用盡了所有容易獲取的資料,包括網際網路上的所有資料和常見的爬蟲資料。
Harry Stebbings:所以容易獲取的資料是指社交媒體上的內容,任何不收費的內容,以及任何容易且免費爬取的內容。
Alex Wang:容易且免費爬取的內容、透過下載獲取的內容,總之就是任何已經記錄下來並且能夠從開放網際網路上簡單獲取的內容。之後,AI 的很多改進都來自於預訓練的進步。這基本上就是訓練這些模型,讓它們非常擅長模仿網際網路內容。現在,這些模型在模仿網際網路內容方面做得非常好,甚至超過了人類。
但是,當我們去想象 AGI 或強大的 AI 系統時,我們想要的不僅僅是模仿網際網路內容。我們需要的是能夠執行任務、解決難題、與人類合作應對日常問題的 AI 系統,但我們無法僅透過網際網路資料來實現這樣的想象,並且我們已經幾乎用盡了網際網路上的資料。
Harry Stebbings:為什麼我們無法僅透過網際網路資料來實現這樣的 AI 系統?當我們讓有效的 AI agent 或軟體完成工作,而不是僅僅銷售工具時,為什麼現有的資料無法讓 AI 完成從工具到工作的過渡?
Alex Wang:簡單的答案是,當人類在做更復雜的任務時,他們經歷了很多思考過程,但這些並沒有寫在網際網路上。比如,一個銀行的反欺詐分析師(fraud analyst)在分析可疑交易時,需要分析各種不同的資料片段,並運用推理和人類智慧來做出決定,比如看了一些資料然後基於此推斷出了某些結論。但這個過程並沒有寫在網際網路上供模型爬取。可以說,今天推動經濟的所有推理和思考都沒有寫在網際網路上,所以如果你只是利用網際網路資料訓練模型,它是無法從這些資料中學習出來的。
Harry Stebbings:那麼我們要如何編碼和捕獲那些尚未被編碼的資料呢?比如你之前提到的欺詐分析師的思考過程、分析以及內部會議中的討論,這些資料都沒有被轉化為結構化的資料,在任何資料集中。我們如何捕獲這些資料來進行後續工作呢?
Alex Wang:我認為,我們現在需要的是前沿資料(frontier data)。我們需要擁有豐富的前沿資料來突破現有的資料稀缺、面臨資料瓶頸的限制。這種前沿資料包括複雜的推理鏈、討論、模型代理鏈、工具使用等關鍵元件,這些資料都需要被封裝到前沿資料中,以提升模型的能力。
02
GPT-4 的資料量級為 1PB
而摩根大通的專有資料集有 150 PB
Harry Stebbings:我們如何捕獲這些資料呢?
Alex Wang:主要有三個途徑。首先,很多企業內部都擁有大量的專有資料,但由於種種原因,這些資料都沒有上傳到網際網路上。摩根大通的專有內部資料集是 150PB,而 GPT-4 是在一個不到 1PB 的網際網路資料集上訓練的。大型企業內部存在的資料量絕對是天文數字。
因此,一種獲取途徑是挖掘所有這些現有的企業資料,併發掘其中所有的優質資訊。這些資料量非常巨大,我們可以挖掘這些現有的企業資料,獲取其中的價值。
其次,雖然這些資料是專有的,但我們可以將其定製交付給需要的客戶。最後,我們需要透過一系列的過程來提煉和使用這些資料,以解決企業面臨的實際問題。
Harry Stebbings:但他們永遠不會將其開源,對吧?這些都是專有的。
Alex Wang:沒錯。這隻能是每個企業經歷這樣一個過程,比如我的企業有一系列非常重要的問題,然後我需要挖掘我所有現有的資料並提煉它們,以用於 AI 系統來解決企業自己的問題。
Harry Stebbings:一開始我們提到了收益遞減的問題,前幾天我和一位重要的 CTO 交談過,他們認為真正的突破在於我們是否能真正解決「推理」這一技術問題。你怎麼看待我們解決推理問題的能力,以及資料在幫助我們應對這個問題方面的影響?
Alex Wang:我認為,這些模型在被大量資料訓練的基礎上非常擅長推理。然而,人類智慧和機器智慧存在很大的差異。人類具有非常通用的智慧形式,能夠適應環境、自我調整、瞭解周遭發生了什麼,而今天沒有任何 AI 系統能夠做到,我們必須意識到這是一個限制。
這意味著,對於我們希望這些模型表現良好的任何情況,我們都需要有該情況或該場景的資料,我們需要為模型提供足夠的資料來支援其在各種情境下的推理能力。實際上,如果模型擁有足夠的資料,它們將能夠在各種情境下表現出色。
所以,解決推理差距的問題可能有兩種方法,一是建立某種通用的推理能力,一旦建成將會是一個巨大的突破;二是從資料角度讓每一個場景下都有足夠的資料來支援模型的訓練,你只需要在所有這些場景中用資料淹沒它們,就會得到推理能力很好的模型。
Harry Stebbings:當我們看到像摩根大通、高盛或任何大型企業都掌握著龐大資料時,我們怎樣才能從資料稀缺的環境過渡到資料豐富的環境呢?這些資料由於其專有性質,並不會輕易流向廣義的模型,而這些模型原本可以幫助世界、人類或實現任何突破性的進展。我們怎樣才能實現從資料稀缺到資料富足的轉變?是透過創造合成數據嗎?我們該如何思考這個問題?
Alex Wang:是的,我認為你的觀點很對,我們需要產生新的資料。為了從 GPT-4 發展到 GPT-10,我們需要找到新的前沿資料的生產方式。以晶片為例,我們需要建造更多的晶圓廠,提高解析度、製造出奈米級的元件。談及計算能力的提升,我們很自然地會想到增加生產資料,但我認為在資料上我們沒有想到要增加生產資料,我認為需要改變這種觀念。
生產資料的過程其實是一種混合的人工合成過程。我們需要演算法來完成大部分繁重的資料合成工作,但同時也需要人類專家的輸入和指導,以便在 AI 系統遇到問題或者遇到特殊情況時提供幫助。
自動駕駛的規模化就很好地說明了這一點,很多時候都是依賴安全駕駛員的。在車裡配備安全駕駛員,當汽車出現問題時,安全駕駛員可以接管控制,AI 系統也需要這樣的設定。我們需要 AI 模型來生成大量資料,同時也需要人類在必要時接管並調整模型,以確保資料的質量。
Harry Stebbings:這種人在當今的組織結構中會是什麼樣的?我們是否為這些 AI 的「拯救者」創造了新的角色?
Alex Wang:是的,我們可以稱他們為「AI 訓練師」(AI trainers)或「AI 貢獻者」(AI contributors)。我很想說,向 AI 貢獻資料的工作實際上是人類可以擁有的最具影響力的工作之一。比如說,我是一名數學家。我可以選擇獨自研究純數學,這是我生活的一條軌跡,但我也可以選擇利用我所有的技能、才能和智慧來幫助 AI 模型變得更聰明。
比如說,我可以讓 GPT-4 在數學方面變得更聰明一些。如果我把這一點改進應用到 GPT-4 的每一次使用中,考慮到所有將使用 GPT-4 的數學學生、公司和開發者,那將產生巨大的影響。因此,作為人類專家,你有能力透過生產資料來幫助改進這些模型,從而對整個社會產生影響。
我們看到的是,對於科學家、數學家、醫生以及世界上的所有人類專家來說,這是一個非常令人興奮的提議,他們可以把自己的能力、智慧、訓練等所有這些都傳輸到一個模型中,而這個模型將對整個社會產生影響。
Harry Stebbings:人們經常說,資料治理中最大的挑戰實際上就是資料的結構和清晰度。那麼該如何看待資料的結構?比如說,雖然我不知道具體情況,但我推測摩根大通 150PB 的資料並沒有完美地結構化,並能讓許多模型能夠高效地攝取。我們應該如何看待這個巨大的資料集的結構化問題和挑戰?
Alex Wang:我認為這是一個需要兩方面並行努力的情況。一方面是挖掘現有資料,這無論如何都會是一次性完成的工作。從挖掘所有現有資料中,你將獲得一次性的收益,這可能是非常有意義的。
Harry Stebbings:你認為在五年內,每個人都會內部挖掘他們最大的資料來源嗎?
Alex Wang:我不認為每個人都會,但最先進的公司肯定會。然後我們將到達一個仍然需要改進模型的地步,最終這一切都歸結為資料生產。你需要什麼樣生產資料來服務你下一步的資料生產,就像你在晶片領域的前瞻性生產一樣。
Harry Stebbings:另一種形式呢?
Alex Wang:另一個是推動資料生產。資料探勘與推動資料生產是資料來源的核心方向。從更廣泛的角度來看,我認為很多 AI 進步的瓶頸在根本上更多是由於資料,隨著 NVIDIA 繼續製造價值數千億美元的晶片,如果我們能夠在獲得越來越多晶片的同時,按比例生產相應數量的資料。如果我們能夠同時生產這兩者,那麼我們將獲得超越想象的更厲害的模型能力。
Harry Stebbings:所以當我們考慮增加資料的供應時,我們實際上可以採取什麼方法呢?我想到的是 Limitless 的 Dan Siroker,他基本上透過這個新的硬體裝置,可以記錄你說的和做的每一件事,並且它會生成你自己的個人 AI,因為它擁有你一天中所說的所有內容。在我心中,這是一種新的資料建立形式。你如何看待增加資料的供應?
Alex Wang:可能主要有兩個方面。一方面是像 Limitless 這樣的努力,這基本上是更多的縱向資料收集,收集世界上自然發生的更多事情。另一方面在工作場所,可能會有某種對類似「正在使用什麼應用程式」的持續資料收集,使用應用程式的順序是什麼,把一個東西從哪裡複製到另一個地方。
Harry Stebbings:你有很多這樣的 RPA 和許多 UiPath 流程來完成這種任務,我很習慣於這種方式。
Alex Wang:是的。這是流程挖掘,SaaS 中的一個術語,基本上就像是對現有企業流程的持續收集。然後是消費者的角度,有點像你所提到的,對你自己生活的縱向視角的收集,比如戴一個 Meta Ray-Ban。然後就是必須致力於讓人類專家與模型合作來產生前沿資料。
我所提到的兩種途徑,無論是企業流程挖掘,還是消費者資料收集,這些都將產生有價值的資料集,但它們不會產生實際推動模型前進的資料。
因為要推動模型提升,你需要非常複雜的資料,這就是你需要代理行為、複雜推理鏈的地方,這就是你需要高階程式碼資料或可能的高階物理、生物或化學資料的地方,這些才是真正需要推動模型邊界的東西。
我認為這是一個需要全球基礎設施級別的努力,我們需要使之發生。就像我認為我們需要考慮如何讓世界上的專家與模型合作,幫助產生將成為世界上最好的科學家的 AI 系統,或者成為世界上最好的程式碼員或數學家。
03
專有的、差異化的資料
將會成為企業的「護城河」
Harry Stebbings:當我們考慮到模型的商品化,我們該如何思考對這些資料來源的專有訪問權呢?以前有人對我說過 OpenAI 的模型並不一定更好,他們只是能更好地訪問資料,他們購買了更多的資料等等,資料是他們過去表現更好的主要原因。但我們會看到一個模型獲得其他模型沒有的資料訪問權嗎?我們該如何從模型的角度思考對資料的公平公正的訪問?
Alex Wang:我認為你的觀點很對,如果你考慮一下這些不同的模型提供商之間的競爭領域,我認為資料實際上是出現真正持久競爭優勢的主要支柱。
因此,如果考慮他們在大型語言模型(LLM)競爭中的護城河在哪裡,我認為資料是少數幾個可以產生可持續壁壘的領域之一。因為演算法是 IP,但總會在某個時候被整個行業瞭解;你可以擁有比別人更多的計算資源,但別人只需花更多的錢就可以購買同樣的計算資源。而資料是僅有的可以真正產生長期可持續競爭優勢的領域。
Harry Stebbings:我同意,當你檢視 OpenAI 的一些協議時,他們顯然與《金融時報》合作並獲得了《金融時報》歷史資料庫的訪問權,我認為他們實際上與 Axel Springer 也進行了不少合作。這是許多其他模型無法獲得的訪問權,這讓他們在任何相關查詢中都能獲得更優質的內容。
Alex Wang:沒錯。我認為這是開始將資料視為護城河的一種思維方式。《金融時報》、Axel Springer 是第一個跡象,但在未來,這些實驗室會考慮很多問題,比如,我要用什麼資料來與競爭對手區分開來?我將如何生產這些資料?以及這會創造什麼長期持久的優勢?
我們一直在談論圍繞模型商品化的資料,實際上我預計,我們將看到公司開始制定資料戰略,從而隨著時間的推移在市場上創造更多的差異化。
現在在舊金山,研究人員和大公司的 CEO 們吹噓他們有多少 GPU,他們對 AI 的重視程度的最大指標就是他們擁有多少 GPU。
但我認為在未來,他們會吹噓自己能夠訪問哪些資料,生產了多少資料,以及對不同資料來源的獨特權利。我認為這實際上將成為未來競爭的主要領域。
Harry Stebbings:鑑於資料戰略是一個可能在不同方面取得勝利和競爭的潛在因素,你是否認為隨著時間的推移我們很難看到這些模型的商品化?
Alex Wang:未來有兩種可能。一種是,即使資料戰略很快也成為商品化的東西,不同的實驗室也會互相抄襲,或者最終都朝著同一個方向發展。
Harry Stebbings:完全同意,特別是與許多內容生產商合作,他們不會與一個模型簽訂獨家協議,而與其他模型不籤。
Alex Wang:是的,不同的實驗室需要制定戰略來生產他們獨特的資料集。比如說,Anthropic 正專注於很多企業用例,也許他們需要制定一個數據戰略使他們能夠獲得極大差異化的新資料訪問權,以支援這些企業用例;或者也許 OpenAI 與 ChatGPT 需要制定一個獨特的資料戰略,讓他們能夠利用他們擁有這麼多使用者和這麼大影響力的事實。未來,各個實驗室將需要依靠他們獲得專有和差異化的資料的能力。
Harry Stebbings:你認為我們會看到迴歸本地部署的趨勢嗎?當我們想到摩根大通 150PB 的資料時,我不知道他們是否會願意把所有最敏感的資料都扔到雲端。我們會看到大型企業在本地部署和在本地工作的模型嗎?
Alex Wang:這是一個非常有趣的問題。當我們與這些大型企業和企業內的領導者交談時,他們會很快意識到,他們的企業資料可能是他們在 AI 世界中唯一的競爭差異化因素。他們會非常謹慎,如果他們達成一項交易,而他們的所有資料不知何故被模型開發者獲取,或者以某種方式共享,那麼他們可能會葬送掉企業的整個未來。
實際上,我認為無論是開源模型、Llama 模型、Mistral 模型還是其他模型,都存在非常大的機會。這些模型可以在本地執行,企業可以獲取並根據自己的資料進行定製,因而它永遠不需要回到模型開發者或雲端等任何地方,我認為這裡有巨大的未被滿足的需求。這實際上是大多數認真對待的企業將要走向的方向:我需要確保我的資料不會以任何方式被用來提高我的競爭對手的能力。
04
未來的定價方式將基於使用量
Harry Stebbings:我認為在未來五年內,AI 服務實際上將比 AI 模型創造更多的收入。我們實際上看到 Accenture 的生成式 AI 收入為 24 億美元,而 OpenAI 的收入顯然為 20 億美元。你怎麼看待這個問題,Scale AI 如今與一些大型企業合作,對大型企業來說,AI 的學習和接納曲線是一個挑戰。在我們擴大 AI 教育曲線的過程中,你認為提供這部分服務是否會成為公司未來幾年的核心業務?
Alex Wang:首先,人工智慧肯定會帶來很多價值,但價值獲取在哪裡是一個關鍵問題。安迪·格羅夫的《高產出管理》中有幾章是關於英特爾的,一開始我們認為它是最大的價值獲取的地方,但後來我們意識到,價值將在堆疊的其他部分,不斷遷移。我大約在十年前讀過它,我當時覺得這很奇怪,而現在在人工智慧領域,你再次看到了這一點,因為它是如此新穎、新生,堆疊中確切價值的產生在不斷變化。
我認為模型本身存在很多競爭,我不知道模型本身到底有多少價值,但我對模型之上和模型之下的所有內容都很有信心,那將會很有價值。對於基礎設施,NVIDIA 是今天建立在 AI 基礎上的最大公司,他們是市值全球 Top 的公司。NVIDIA 是在模型之下的公司,而在模型之上,所有這些應用程式和服務都將建立在它的基礎上。
Harry Stebbings:有一個問題是,我們現在確實有像 Notion AI、Box 一樣的公司,但你看到他們的增長數字了嗎?Salesforce 等的增長現在都只是個位數。這些功能的商品化確實將為我們帶來更好的產品,但我不確定是否能透過提高價格來從中獲得收益,你怎麼看待這個問題?
Alex Wang:是的,我們對這個問題的看法來源於一篇在軟體領域廣為流傳的文章。我認為這是一個故意引起爭論的觀點。
Harry Stebbings:對於那些沒有讀過這篇文章的人,你能概括一下它的核心觀點嗎?
Alex Wang:文章作了一個非常巧妙的比較,他將今天的軟體公司與社交媒體興起前的傳統媒體公司進行了比較。在媒體的舊時代有很多了不起的、高階的媒體公司,裡面有專家生產非常有差異化的內容,但隨後被社交媒體和網際網路廣泛顛覆,因為內容分發成本突然大幅下降。媒體消費的世界變成了一個非常廣泛和多樣化的集合體,你會消費任何你覺得有趣的人制作的內容,這更像是按需消費,而不是大型媒體生產者的封閉花園。
這基本上與即將發生在軟體領域的情況相似,現在的企業生活在一個由少數軟體提供商組成的封閉花園中。現在隨著生成式 AI 和所有這些其他趨勢的發展,他們將擁有這些不同的應用程式和特定解決方案的集合體,以及通往各種軟體提供商集合體的門戶,我們將從當前較小數量的封閉花園 SaaS 應用程式的世界轉向更加分散的宇宙。
Harry Stebbings:你同意這個觀點嗎?
Alex Wang:這是故意在引起爭論,但我認可其中的一點,我確實認為企業和整個世界都將要求更高水平的定製。第一家朝這個方向發展的科技公司是 Palantir。他們長期以來一直名聲不好,因為每個人都認為 Palantir 只是一家諮詢公司,但 Palantir 的認為自己要做的是進入企業,準確瞭解他們的問題是什麼並幫助他們構建完美的應用程式,將他們的所有資料連線起來。如果能做到這一點,那麼我們構建的東西將比任何其他軟體提供商能夠提供的產品更有價值。
顯然,他們在生成式 AI 和所有將使其更加可行的工具出現之前就已經這麼做了。我確實認為這是一個世界發展的趨勢,尤其是現在軟體生產成本和軟體建立成本大幅下降,我們將走向一個世界,越來越多企業使用的軟體將針對特定的問題進行定製和專門構建。
Harry Stebbings:這對大企業的工程團隊的組織意味著什麼?他們規模會縮小嗎?他們會專注於不同的事情嗎?只是擁有世界上最好的 prompter 團隊嗎?這對工程團隊組織架構的改變有什麼影響?
Alex Wang:是的,我認為軟體工程總體上將發生巨大變化。開發人員今天花費大量時間做的很多事情,隨著模型在編碼方面變得越來越好,他們將來不需要再花時間了。但他們所做的工作中有很大一部分是不可替代的。
隨著時間的推移,我認為尤其有價值的是,我客戶的問題是什麼?或我需要解決的問題是什麼?然後將這些問題轉化為工程問題,接著由 AI 工程師來解決。
Harry Stebbings:大家都說我們將看到軟體領域按使用產品或服務的使用者數量定價(per seat pricing)的終結,你認為在下一波軟體中,我們會在多大程度上看到 per seat pricing 的終結?特別是從資料的角度來看,你可能會看到一個更基於使用量的定價模型,你認為這真的會取代 per seat pricing 嗎?
Alex Wang:Per seat pricing 在未來沒有意義的原因是,在當今的企業中大部分的生產工作都是由員工完成的。但在未來,你可以想象越來越多的工作將由 AI agent 或 AI 模型完成,那麼 per seat pricing 就真的沒有意義了。
作為軟體提供商、解決方案提供商,你希望確保你捕捉到了你提供給人們的價值,以及你的 agent 或 AI 系統產生的價值。這將使世界的定價方式從感知定價轉向基於使用量的定價。
05
10 年後,
基礎模型將更加是一場巨人的對決
Harry Stebbings:我最擔心的一件事是監管條款抑制創新,比如來自消費者資料保護法和對資料訪問的不必要監管。你認為我的擔憂有道理嗎?你如何看待資料訪問的監管問題?
Alex Wang:這是一個非常重要的問題,我們在歐盟看到的確實是對資料非常嚴格的監管方法。我個人認為,更寬鬆的資料監管與自由民主並不矛盾,更自由的資料訪問條款與自由民主是非常相容的。社會需要找出正確的平衡,並找到解決這個問題的方法。
但我認為這是一個非常重要的問題,因為美國在確保不減緩晶片的生產方面已經付出了巨大的努力,包括監管層面的。我們需要對資料採取類似的視角,從政策角度來看,無論是在美國還是在英國,我們需要考慮如何確保國家不會在未來的資料生產中束縛自己的手腳。
Harry Stebbings:那麼支援資料的監管立場會是什麼樣子?
Alex Wang:首先,我認為有一些大型資料集不會給特定參與者帶來專有優勢,這些資料集需要被集中起來,並向整個行業開放。
舉些簡單的例子,比如說航空航天領域的安全資料,這顯然是個熱門話題。但是為了推動整個行業的進步,航空航天領域的安全資料應該被集中彙總。或者我之前提到的金融服務中的欺詐和合規問題,這些資料也應該被彙總起來,以建立更強大的能力。所以我認為,在整個工業領域中,應該有一定程度的資料彙總,以推動整個行業的進步。
而且我認為,在許多面向消費者的領域,我們需要解決許多現有的限制以確保他們不會阻礙 AI 的進步。
舉例來說,醫療保健領域的 HIPAA 法案(健康保險流通與責任法案)以及所有的個人身份資訊(PII)和其他限制目前或多或少會阻止患者資料被用於訓練人工智慧模型。
但我認為,作為文明社會我們確實希望從所有現有的醫療資料中學習如何治癒人類疾病。因此我們需要找出解決方案,比如,我們要如何明確匿名化條款或者找出一種明確的方式,讓我們能夠利用現有的患者資料來改善未來的健康狀態。
Harry Stebbings:你認為 10 年後基礎模型層面會是怎樣的局面?誰是獨立的,誰被收購了?
Alex Wang:我們所看到的基礎模型競爭的核心是成本,現在成本非常高昂。這些模型的費用已經從數億美元增加到數十億美元,甚至可能達到數百億美元。我認為在 10 年後,它們的成本可能會達到數百億甚至數千億美元。
沒有多少實體擁有那麼多自由支配的資本來投資這些 AI 模型。所以,隨著時間的推移,AI 工作,特別是基礎模型工作,將逐漸圍繞國家或大型科技公司展開,這些將是唯一可能資助或負擔這些大規模 AI 專案的實體。
到那時將更加是一場巨人之間的對決。
Harry Stebbings:我們會看到所有小型玩家被大型雲服務提供商收購,比如谷歌、亞馬遜、NVIDIA 等,並被它們整合到現有的解決方案中嗎?
Alex Wang:我認為一些合作關係的發展會很有趣,比如 OpenAI 與微軟、Anthropic 與亞馬遜的合作關係。而這些合作關係在長期會如何發展是這個技術時代最有趣的問題之一。
06
「最好的 PR 就是沒有 PR」
Harry Stebbings:你曾提過一個精彩的關於公關 PR 的觀點:「最好的 PR 就是沒有 PR。」這是什麼意思?
Alex Wang:從本質上講,傳統新聞業並不特別有利於建設一個偉大的公司。
具體來說,很多傳統新聞都是以點選量為導向的。所以,傳統的新聞引擎會在你上升的時候把你捧起來,以此創造點選量,然後在你下降的過程中把你撕下來,再次產生點選量。
這與像 20VC 這樣的直接渠道形成鮮明對比,透過直接的渠道,創始人和公司能完整傳達他們的資訊並解釋他們正在做什麼。
Harry Stebbings:但從另一個角度來說,我不在乎點選量,雖然這麼說對傳統媒體有點不公平。是的,我們有贊助商,不過即使沒有,我們仍然會做這個節目。我不做聳人聽聞的標題,我不會為了吸引眼球而誇大其詞,因為我不是僅僅為了最佳化點選量。
Alex Wang:沒錯,你是為了真正向聽眾教育和解釋正在發生的事情。
Harry Stebbings:不過這似乎有點不公平。你能想象如果有人說:「嘿,我要做 Scale AI,但我不在乎我們是否虧錢。」你會說:「我怎麼能競爭過他呢?」
Alex Wang:是的。但我確實覺得比起面對媒體,在國會作證時受到的待遇更公正。這聽起來很荒謬,但我認為我們正處於很多傳統媒體不正常的狀態中,這個系統本身由於這種非常點選量導向而非真正教育的方法,幾乎沒有辦法對公司做到完全公正。
因此當務之急是公司自身要透過直接渠道例如播客等正確講述他們的故事,在這些渠道中,他們的資訊不會被篡改。
Harry Stebbings:我完全同意,這就是為什麼今天的建立一個品牌比以往任何時候都更重要,因為如果你不擁有自己的分發渠道,它就會被扭曲。這改變了你的策略嗎?
Alex Wang:是的。關於如何直接傳遞資訊、什麼是傳遞和解釋我們正在做的事情最純粹的方式,我們也思考了很多。
我們現在的對談就是一個很好的例子,你問我一個問題,我會準確地回答你我所相信的,這將傳達給你的聽眾和觀眾,我認為這是傳遞資訊的最純粹形式之一。
Harry Stebbings:人們常犯的一個大錯誤是,他們試圖為公司建立直接渠道,但大眾不關注公司規模,他們關注的是 Alex Wang。用人格來建立粉絲群體比用公司來建立粉絲群體要容易得多。
Alex Wang:是的,我認為很少有公司能做到這一點。OpenAI 就是其中之一,我認為 OpenAI 作為一個實體和品牌有很多意義。
Harry Stebbings:確實如此,但 Sam Altman 與 OpenAI 在社交媒體上受關注度上,前者受到的關注度明顯更高,人們現在比以往任何時候都更熱衷於崇拜個人魅力。
這種崇拜不僅限於科技界,比如梅西、《芭比》電影中的瑪格特·羅比,個人在組織或運動中的明星化推動了一切。
Alex Wang:我認為這反映了人類深層次的需求。我們作為人類,天生就有很多機制來理解個體,我們有能力理解個體,但很難理解一個組織。
Harry Stebbings:那麼創始人應該關心傳統公關嗎?他們應該在乎在傳統媒體上的曝光嗎?
Alex Wang:我認為不應該。我們現在正處於一個創始人不必過於關注傳統公關的時代,他們應該思考自己能提出什麼有趣的觀點,以及以何種最純粹的方式傳達這些觀點。
Harry Stebbings:你覺得媒體在什麼時候試圖不公正地詆譭你?
Alex Wang:幾乎可以說,我們經歷過迅速的崛起,2019 年我們成為了獨角獸公司。在那之後的幾年裡,一切似乎都順風順水。然而從 2022 年開始,整個媒體敘事開始轉向拆解科技公司。
這在某種程度上是公平的,許多科技公司獲得了非常高的估值,科技界充滿了興奮,但隨後市場崩盤。從 2022 年開始,特別是對我們而言,媒體的基調完全轉變了,媒體開始指向像我們這樣的公司或許多同行所犯的錯誤,而不是試圖保持平衡的視角。
07
「Scale AI 800 人,
我仍會審批每一位新員工的錄用」
Harry Stebbings:關於透過激勵驅動結果,之前你說過一句話:「為什麼招到真正關心工作和公司人比聽起來要難?」這是什麼意思?你在招聘時是如何考慮這一點的?
Alex Wang:這聽起來很簡單,但如果你僱傭的是這樣的人,他們真的會非常關心自己的工作成果、工作質量,真的非常關心組織,確保公司有影響力。這意味著他們會願意對每一個細節都精益求精。如果遇到困難或障礙,他們會不惜一切努力克服。
這就是創業公司的工作原理。這些小團隊中的每個人都比大公司裡的普通員工更關心工作,關心程度可能是普通員工的十倍甚至百倍,因此你最終會解決比大公司更多的問題。
Harry Stebbings:你們公司目前有多少人?
Alex Wang:我們大約有 800 人。
Harry Stebbings:800 人。你們現在已經發展到了一個相當大規模的公司。就好比球隊只招 A+ 或 A 級別的運動員,只招聘頂尖的、一流的人才確實更難了,因為一流人才本身就是稀缺的。你們能擁有 800 名 A 級別的球員嗎?
Alex Wang:我認為答案是肯定的。
我們在內部經常討論的如何組建一個真正的小而精的團隊,只招聘頂尖中的頂尖。這涉及到招聘流程,對於公司的目前階段來說,我仍然會親自審批每一位新員工的錄用。我會直接面試或檢視面試反饋,瞭解我們錄用的每一個人,以確保我們保持極高的標準。
Harry Stebbings:在招聘新員工時,你有多大的可能性會反對團隊的推薦?
Alex Wang:
平均 25%到 30%,這個比例相當高。通常是因為新上任的招聘經理可能需要校準招人標準,或者是因為各種特殊情況。
但對我來說,我是公司的創始人,我見過所有人的加入,也見過哪些人成功,哪些人失敗。我幾乎像是一個演算法,已經開發出了最精細的資料集,來理解什麼樣的人讓 Scale 能夠成功、理解頂尖和優秀的區別。
作為創始人,我的職責是確保我們作為一個組織,能夠充分利用過去八年在組織中學到的所有知識和經驗,並將它們傳承下去。
Harry Stebbings:你在管理或領導方面犯過的最大錯誤是什麼?比如我的一個錯誤是,我認為人們會因為恐懼或自由而行動。當你招聘某人時,有些人會因為「你必須表現出色」而行動,而另一些人則是因為「我相信你,我尊重你,做你能做到的最好」。你必須識別出每個人屬於哪個陣營,然後希望,如果他們的技能到位,他們就能發揮出最好的水平。我希望我在創業之初就知道這一點,但我沒有,我只是試圖讓每個人都因為恐懼而行動。有哪些你希望當初就知道的事情,以及你犯過什麼錯誤?
Alex Wang:最大的一個錯誤實際上是在 2020 – 2021 年那段時間,我認為公司的超高速增長意味著團隊也必須超高速增長。在那幾年裡,我們像許多科技公司一樣,團隊規模每年都在翻倍或三倍增長。2020 年,我們有大約 150 人。到 2022 年底,我們已經超過了 700 人。這是瘋狂的招聘,團隊超高速增長。但我發現,當你如此快速招聘時,就不可能做到我們剛才討論的保持高標準和團隊內部的卓越。
Harry Stebbings:你是否即刻地看到了這個標準在降低?
Alex Wang:這有點微妙。你招聘了這麼多人之後,可能會在接下來的一年或六個月後注意到這一點。你會慢慢注意到,組織中的一些挑戰,過去能夠輕鬆應對和解決的問題,現在卻逐漸固化,我們無法繞開它們。
所以你會注意到,從 2022 年底我們 700 人到現在的 800 人,團隊規模基本保持不變。但公司的收入卻大幅增長。
Harry Stebbings:有趣的是,公司會有品牌轉折點。它們會走紅,會遇冷,然後又會再次走紅。你明白我的意思嗎?
Alex Wang:明白。
Harry Stebbings:從外界看來,感覺 Scale AI 又火了。
Alex Wang:這確實是一件很有趣的事情,我也問過 Patrick Collison(Stripe CEO)這個問題。Stripe 是一家了不起的公司,在其生命週期的大部分時間裡,我認為它一直是矽谷的標誌性公司之一。
我問他是否認為作為標誌性的公司對他們整體的招聘都有好處。他提出了一個有趣的觀點:Stripe 所招聘到的最優秀的人才,是那些無論 Stripe 是否熱門,都會加入 Stripe 的人才。這些人才往往不走尋常路,但他們卻是 Stripe 能夠招聘到的最佳人選。而很多因為 Stripe 是矽谷最熱門公司而加入的人,出於各種原因,並不一定是最有價值的員工。
普遍的觀點和敘事是,你想成為最熱門的公司,以吸引最優秀的人才,從而實現超高速增長,進而持續成長。但我認為這往往非常困難。更重要的是如何建立一個能夠自我維持的人才生態系統,這個系統能夠保持很高的標準,始終尋求最優秀的人才,而且無論公司是否熱門,都能獨立運作。因為正如你所說,你會有熱門的時候,也會有不熱門的時候,熱門與不熱門是交替出現的。你需要這個人才生態系統能夠自我維持,獨立於公司的熱度,以推動公司做到最好。
Harry Stebbings:我認為這也取決於職能。很多市場向職能傾向於聚集在一起,如果一個品牌炙手可熱,最棒的銷售團隊會被吸引而來,你能集中一批出色的銷售人員,特別是當你擴大地域範圍時。
我想到了 OpenAI 在倫敦的進入市場(Go-to-market)團隊。他們非常出色,是倫敦最好的團隊之一。這是因為他們有一個了不起的品牌。你明白我的意思嗎?所以這取決於你離核心有多近,以及你處於哪個職能領域。
Alex Wang:是的,我同意。但如果你看看 OpenAI 的核心技術開發,其中很多仍然是由那些在 OpenAI 成為最熱門公司之前就加入的人推動的。
另一家經歷過這種情況的公司是 Airbnb,由布萊恩·切斯基(Brian Chesky)領導。他在疫情後公開表示,他突然意識到必須重建整個公司。他大幅縮減了團隊規模,加大了對人才密度的投入,然後組建了保持小規模的團隊。我認為他們現在甚至已經成為整個科技行業人均盈利能力最強或最強的公司之一。因為他意識到,他不需要繼續擴大團隊規模就能實現財務收益和產出。
08
快問快答
Harry Stebbings:我想快速進行幾個問答。我會說一個簡短的陳述,請你給我你的即時想法。
Alex Wang:好的,我們開始吧。
Harry Stebbings:在過去 12 個月裡,你對什麼事情的看法改變最大?
Alex Wang:我認為是關於我們一直在討論的超高速增長的話題。主要是將團隊的超高速增長與公司的超高速增長分開,並在質量和卓越上重額投入。
Harry Stebbings:你最常聽到的關於 AI 的最大誤解是什麼?
Alex Wang:我認為在今天最大的誤解是:我們與 AGI 之間只有計算能力的問題。我認為我們需要資料來達到那個水平。
Harry Stebbings:如果你可以擁有世界上任何一位目前不在你董事會上的董事,你會選擇誰作為你的下一位董事會成員?
Alex Wang:雖然這不太實際,但我認為薩提亞·納德拉(Satya Nadella)是現代最傑出的商業戰略家之一。他在微軟所取得的成就令人震驚,我認為任何董事會能擁有他都是非常幸運的。
Harry Stebbings:你從未被問過或很少被問到的,但你覺得應該被問到的問題是什麼?
Alex Wang:我對於 AI 的看法在不同時代是如何變化的?
我之所以提到這一點,是因為我在 2016 年創立了這家公司。公司的前三年完全專注於自動駕駛和自動駕駛汽車。然後在 2019 年,我們實際上開始研究生成式 AI,開始與 OpenAI 合作開發 GPT-2。
因此,我們是少數幾家見證了 AI 技術多個時代、見證了自動駕駛汽車首次繁榮與蕭條週期的 AI 公司之一。我認為一個有趣的問題是,在這個連續的過程中什麼是相同的,什麼是不同的?
Harry Stebbings:你的看法是如何變化的?你現在最興奮的是什麼?
Alex Wang:我很興奮,但我認為也有謹慎的理由。
在自動駕駛汽車領域、自動駕駛熱潮中發生的一件事是,許多承諾脫離了技術現實。因此,許多知名的自動駕駛汽車公司和知名組織都在做出更大膽的承諾,以便籌集資金。這些承諾起初並沒有完全脫離現實,但隨著時間的推移,它們越來越脫離技術現實。這導致了非常痛苦的低谷,承諾沒有兌現。因此,整個行業似乎都在分崩離析。
但實際上,現在我們有 Waymo 在舊金山駕駛、完美的 L4 級自動駕駛汽車在行駛、特斯拉的自動駕駛輔助功能也非常出色。如果我們在這一路上有更適度的承諾,我認為現在我們會對自動駕駛汽車感到驚歎,而不是經歷這次巨大的起伏,現在可能又處於上升趨勢。
這是我對生成式 AI 的一大擔憂,我希望不會這樣,但同樣的事情可能會再次發生,即我們開始對這項技術做出巨大的承諾,但這些承諾脫離了技術現實,就會產生一種差距,這種差距必然會導致後遺症。
Harry Stebbings:十年後 Scale AI 會是什麼樣子?
Alex Wang:我希望我們還在做類似現在做的事情,繼續作為 AI 的資料鑄造廠,為 AI 的進步提供資料支援。
Harry Stebbings:你想上市嗎?
Alex Wang:當然想。我也一直在思考如何解決那些永不過時的問題。
Harry Stebbings:你想成為一家上市公司的 CEO 嗎?如果你是 Stripe 的話,我不知道你為什麼想這麼做。
Alex Wang:成為上市公司確實有明確的好處。但我認為 Stripe 是一家了不起的公司,因為他們可以有非常好的盈利,並且可以在不上市的情況下實現所有核心財務目標。
Harry Stebbings:Alex,很高興你能參加這個節目。非常感謝。

編譯|Stone
編輯|Wendi
推薦閱讀

