草莓模型即將釋出,如何參與新一輪AI上漲週期?|AGIX投什麼

01.
LLM 是 Mag 7 之間的生存競賽
Patrick: 你之前在 X 上發表過一個觀點,認為 GenAI 可能會是 Mag7 公司之間第一次真正的關係到公司生存的“戰爭”,可以展開聊聊這一點嗎?

💡

The Magnificent Seven 的概念出自一部經典的美國西部片,《豪勇七蛟龍》,於 1960 年 10 月 23 日上映。電影根據日本導演黑澤明的經典作品《七武士》(Seven Samurai)改編而成,將故事背景設定在了美國的墨西哥邊境,七個美國槍手被僱傭來保護一個被強盜頭目加維拉(Calvera)控制的村莊。
Gavin Baker: 我認為 Mag7 的公司每個都有自己專攻的業務領域,但他們確實在雲計算領域出現了一些交集,比如說 Google、Amazon 和 Microsoft 都有自己的雲計算板塊。
雲計算整體上是一個相對穩定的寡頭壟斷市場。Google 在 2014、2015 年左右選擇了透過降價來參與雲計算的競爭,Amazon 也緊隨其後,這種價格戰實際上在很大程度上限制了 Amazon 的營收增長,也讓市場開始擔心雲計算變得 commodity。這件事在當時的討論度非常高,不過現在回過頭看這些擔憂其實非常荒謬。
我其實認為目前 Mag7 公司之間處於這樣一個階段:Microsoft、Google 和 Amazon 三家之間其實就雲計算的定價達成了某種一致,與此同時,這幾家公司之間也希望在其他方面作出一些差異化:
Amazon 有電商,
Google 有搜尋,
Meta 有廣告,並且 Meta 的廣告和 Google 的搜尋廣告相比,位於流量漏斗的上游,
Apple 很明顯掌控了終端、作業系統和應用商店,可能面臨來自 Android 的一些競爭。
Netflix 在做流媒體,雖然和 Google 存在一些競爭,但它們的市場定位相對獨立。
Microsoft 除了雲服務外,還有提高生產力的大規模企業軟體業務。
但現在他們進入了一個新階段,隨著 GenAI 和 LLM 這些通用的技術出現,這些大公司發現各自站到了同一賽道上,而他們在 GenAI 上的競爭可以說是關係到生存。
Mark Zuckerberg、Satya 和 Pichai 分別都表示過他們在 GenAI 上的投入是不考慮 ROI 的。這幾個人要麼是公司創始人、要麼是內部決策者,這些人已經非常相信自己正處在一場數字化造神的競爭中。無論哪家公司先獲得成功,其價值都能達到數十萬億甚至數百萬億,而輸掉這場競賽對公司而言是致命的,這就是他們的信念。Larry Page 就曾多次在 Google 內部表示,寧願破產也不願輸掉這場比賽。
真正做決策的人並不關注 GenAI 上的 ROI,因為他們堅信 scaling law 會起作用,模型的效能會更高,推理能力也會更強。所以他們會一直加大 AI 投入,直到模型的進展放緩,這是 scaling law 失效的唯一證據。
從 GPT-4 釋出到現在,其實 NVIDIA 一直還沒有新一代 GPU 問世,這件事相當關鍵,因為接下來模型能力的飛躍和硬體升級十分相關,Blackwell 的延期也會影響到模型迭代。要建立一個成千上萬個 GPU 構成的一個一致性的訓練叢集(Coherent training system)相當難,所謂 coherent,是指叢集中的 GPU 互相之間能夠直接通訊。技術層面,這些 GPU 共用了一個記憶體。目前世界上最大的訓練叢集是 3.2 萬個 GPU,但因為效率原因,單次最多也只能呼叫 1.5 萬 – 1.6 萬張 H100。

💡

Coherent memory system 源於 CPU 系統裡有這個概念,這裡被挪用到 GPU 叢集上。Coherent meomory 的特點是:
• 當處理器讀取某個記憶體位置時,它會得到最近寫入該位置的值,從而確保資料的時效性和一致性
• 對同一記憶體位置的寫操作是按順序進行的,所有處理器看到的寫入順序是一致的,這避免了不同處理器之間對資料更新順序的混淆;
如果一個處理器先寫入後讀取同一位置,且期間沒有其他寫操作,那麼讀取的值就是之前寫入的值,從而保證了單個處理器操作的連貫性和可預測性。
xAI 的計劃是搭建一個 10 萬卡叢集,我覺得 Elon Musk 在物理工程專案上有他獨特的思考,外界已經透過 SpaceX、Tesla 和 Neuralink 看到了這一點。
我認為 Elon Musk 是從第一性原理出發去重新設計了 xAI 位於孟菲斯的資料中心。這個資料中心的架構和其他資料中心很不一樣,也因此,即使 Nvidia、Broadcom 目前還沒推出下一代互聯技術,xAI 也能實現足夠的 GPU 密度、構建一個 10 萬卡叢集來進行訓練。這也意味著,第一個 GPT-4.5 的模型可能會在未來 6 到 9 個月內出現,有了 Blackwell,有了下一代互聯技術之後,叢集規模可能可以擴張到 30 萬張 GPU。到那時我們甚至可能會看到 GPT-5、5.5 甚至 6。
一旦 GenAI 能夠達到 ASI 水平,我們可能會去想,既然 AI 能夠創造出比人類更優質的內容,內容的價值又何在?現在你甚至可以看到把《星際迷航》和《星球大戰》混合在一起生成的內容,那麼 Netflix 的價值會發生什麼變化?我們要意識到搜尋功能很可能會被 agents 取代。
Tiger Global 的管理合夥人 Chase Coleman 分享過一個很有意思的資料:2022 年的 ChatGPT 之於 AI 就如同 1994 年 Netscape Navigator 之於網際網路。
在 Netscape Navigator 誕生後 2 年內成立的公司市值在今天佔全球網際網路市值的不到 1%,當時沒有人能預見到之後還有哪些公司會成立,實際上,今天很多偉大的公司都是之後的 5、6 年間才成立的。我們現在仍處於 AI 相當早期的階段, scaling law 依然有效,所以要對技術的進步保持謙遜的態度。 
Scaling Law 被顛覆的唯一一種可能性是:新一代 GPU 帶來 3 到 5 倍的效能提升,網路技術更好,可以將 3 到 5 倍的 GPU 連線在一起,如果某一天算力提升 10 倍,但模型質量卻沒有顯著改進,那麼 scaling law 就不再適用,這對整個資料中心基礎設施來說將是一場災難。但 AI 領域的人目前都相信 scaling law 會持續有效。
02.
硬體投資:關注模型訓練的效率公式
Patrick O'Shaughnessy:你在 25 年前就進入到半導體領域了,今天很多人都在討論模型,但對硬體的關注可能還不夠充分,你是怎麼看硬體領域的?
Gavin Baker:硬體的確很重要。我在 Nvidia 和 Tesla 剛上市的時候就在關注這兩家公司了,從 2000 年開始覆蓋 Nvidia,今天我在這兩家公司上也有很多倉位。Elon Musk 和 Jensen Huang 是我見過的最好的兩個 CEO,AMD 的 Lisa Su 可能緊隨其後。Lisa Su 剛接手 AMD 的時候,AMD 的負債率接近 5 倍,比 Intel 落後了 4 年的水平,據說當時只有 20 天的現金儲備。現在 AMD 已經全面超越 Intel 了。Santaya 也很厲害,他接管微軟的時候雖然微軟的收入和利潤都很不錯,但運營地並不好。整體上,我的確在硬體領域投入了相當長的時間。
那麼我們目前所處的情況又是什麼樣的?首先,你在播客中也提到過很多次,科技投資是很重要的,過去三四十年來科技板塊表現一直很好,有一個原因就是軟體的邊際成本為 0 ,公司的毛利率和經常性收入極高。AI 則恰恰相反,AI 的邊際成本非常高,因為 scaling laws 就意味著想要提高質量,唯一的辦法就是加大投入。
這也是 scaling law 想要強調的,如果我們相信 scaling law,就會知道 AI 的邊際成本很高。基於各種各樣的原因,這些邊際成本下降得非常快,但對於最前沿的模型嘗試,尤其是在訓練和推理方面,成本仍然非常高,不過推理的成本比訓練要低得多。推理和訓練是兩個完全不同的領域。
邊際成本高對於模型公司來說,也意味著,如果要取得成功,infra、訓練效率和模型效能都是很關鍵的因素。
我們現階段可以使用 MFU(Model FLOPS Utilization,模型 Flops 利用率 ) 這個指標來衡量模型訓練效率,MFU 指的是在模型訓練中,實際能夠利用的 Flops 佔理論層面的百分比,目前一般在 35% 到 45% 之間。
很多公司之前都公佈過自己的 MFU,但隨著競爭的加劇,大家不再公佈這一數字,但 GPT-3、Google LaMDA 和 Nvidia Megatron 的論文都提到過自己的 MFU,基本在 20% 多到 30% 多這個區間。Google 的 MFU 最高。
更高的 MFU 意味著在資金投入相同,同等級的 GPU 儲備、電力消耗下,可以更快地訓出模型。如果某個模型公司的 MFU 是 50%,對手的是 40%,在同等算力的情況下,它訓模型的速度能夠比對手快 45% 。
除了更快訓出模型,MFU 更高也意味著模型公司可以透過拉長訓練時間來提升模型質量,或者嘗試各種方式來降低模型訓練成本,現在大家嘗試的比較多的方式是量化(quantization)。簡單來說,在MFU 更高、量化技術更好的前提下,如果模型質量能提高 25%,就意味著推理成本能降低近 50%。也就是說,如果模型公司能夠通量化把模型成本降低一個等級,這將會是很大的優勢。
所以如果要有一個指標來評估 AI labs 的水平,MFU 會是一個不錯的選擇。因為今天單從模型能力上看的話,市場上已經有 5 個 GPT-4 水平的模型了,OpenAI、Google、Anthropic、xAI 和 Meta。Mistral 相對靠後一些,但 Mistral 也很厲害,因為它們的模型在引數量很小的情況下,依然能在所有評估中取得很好的結果。
我認為今天來看,模型確實已經 commodities 了,但如果 scaling law 還能繼續,GPT-7、GPT-8 的訓練成本還要更高,要花費 5000 億美金來訓練,那就還沒有 commodities。
MFU 之所以重要是因為它能夠幫我們在這麼多都訓出了 GPT-4 水平的模型公司之間找出差異化和各自的優勢。
但我覺得有一個比 MFU 更好的測評標準,既是對 MFU 的補充,也把我們標準更細化了 。我們可以把它看作一個統一的 AI 效率方程,把 MFU 拆成兩個方面。一是 MAMF,也就是最大可達矩陣乘法 FLOPS(Maximum Achievable Matmul FLOPS),它衡量的是軟體效率,這就聊到了 CUDA。

💡

PUE:電源使用效率(power utilization efficiency),指計算機資料中心使用能源的效率,是計算機資料中心總電源消耗量與 IT 裝置電源消耗量之比。
電力消耗是有成本的,電力也是大型叢集中越來越重要的因素。在美國,當前大概只有個別地方能夠可靠地給單體資料中心提供多達 1 吉瓦的核電。美國平均每千瓦時的電費大概是 0.08 美元,但是這三個地方的電價大概是普通電價的 10 倍。所以電力成本和 PUE 也就變得相當重要。
並且,當我們圍繞 SFU 做最佳化的時候,可能會提高 PUE。所以我估計很多 AI labs 都會在這兩者之間不斷地做周密計算、算成本、做 trade-off。比方說,如果在互聯上花了 2 倍的費用,SFU 的確能大幅提高,但 PUE 也會隨之上漲,這樣一來就不划算了。
綜合每一個環節的計算後,我們最終想要得到的,不僅僅只是每秒的 ExaFLOPS,更重要的是每美元 CapEx、每瓦電的 ExaFLOPS,我上面提到的方程能把這些都涵蓋進去。
不同的人對於計算架構要怎麼設計有不同的思路,而資料集的架構在設計決策中相當重要。在構建 10 萬卡叢集方面,有些公司每美元 CapEx、每瓦電的 ExaFLOPS 角度有絕對優勢,未來這就是 AI labs 之間的差距,這個差距決定了 GPT-7 或 GPT-8 的成本是 1 萬億美元還是 5000 億美元,決定了再下一代的成本是 2000 億美元還是 4000 億美元。

💡

ExaFLOPS: 衡量超級計算機效能的單位,表示該計算機每秒可以至少進行 10^18 (百億億)次浮點運算。根據 NVIDIA 官方資訊,NVIDIA 為了更好的發揮 Blackwell 架構的效能,設計了一個集成了 CPU 和 GPU 的超級晶片組(NVIDIA GB200 Grace Blackwell Superchip),該晶片組搭載了兩個 NVIDIA B200 Tensor Core GPU 和一個 NVIDIA Grace CPU,並透過 NVLink 晶片間互聯技術連線在一起。而集成了 36 個 Grace Blackwell Superchip 的計算系統 NVIDIA GB200 NVL72,可以實現 1.4ExaFLOPS 的 AI 計算效能。
推理也一樣,不僅影響 serve 模型的成本,還直接影響使用者體驗,比如每秒能處理多少 token,Google 的搜尋使用者體驗就非常依賴這個指標。不過推理基本上取決於記憶體頻寬和片上記憶體,所以計算起來要簡單一些。
Patrick O'Shaughnessy:Vaclav Smil 之前提過一個關於能源的觀點,他把能源定義為 primer movers,比如化石燃料、風能等等都可以算是 primer movers,每一種新的 primer mover 從發現到高效利用都要經歷一個漫長的時期。舉個例子,蒸汽機時代,我們可能只能開發了煤炭能源的 10%-15%,但今天我們對煤炭的能源利用率已經達到了 98%。所以看起來 GPU 也會經歷類似的過程。

💡

Vaclav Smil:加拿大學者,主要研究方向包括能源、環境、食品生產、技術創新以及公共政策,涵蓋了從能源轉型到全球發展等廣泛主題,被認為是能源和環境領域最具影響力的學者之一。代表作是 Energy and Civilization: A History ,是比爾•蓋茨 2017 年度書單圖書。
Gavin Baker:能源利用的本質是透過不同的能源轉化機制把太陽能轉化為可用能源。對於 AI 來說,就是把太陽能轉化為算力。能源的來源可以是字面意義上的陽光,也就是太陽能,也可以是人造的能源,比如核能。而化石燃料實際上是儲存起來的太陽能。但不論採用何種供能手段,這本質上是一個把能源轉化為算力的效率問題,以及人們需要為這個轉化比率所支付的成本。
03.
模型的資料挑戰
Patrick O'Shaughnessy:你在一開始提到了模型競賽,除了硬體,資料、應用層也有很多問題值得討論。比如關於資料,今天很多人會假設接下來會有越來越多的資料可以用來訓練新一代模型 GPT-5 甚至 6、7 ,圍繞未來有哪些資料可以用、這些資料如何獲得,以及合成數據能否帶來更好的模型等問題有很多討論。你怎麼看待模型的資料挑戰?
Gavin Baker : 資料不夠用這件事是 LLM 發展過程中的一個 bear case,大概 9 個月之前有很多人都在討論這件事,但我認為這個問題今天其實已經得到了解決, Claude 3.5 Sonnet 論文中暗示了這一點,Nvidia Nemotron 講得要更直接,看起來它們已經解決了資料不夠用的問題。

💡

Nvidia Nemotron-4 340B:英偉達在今年 6 月釋出的最新的開源模型,該系列模型包括三個主要版本:Nemotron-4-340B-Base、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward。它包括基礎模型 Base、指令模型 Instruct 和獎勵模型 Reward。其中,指令模型的訓練是在 98%的合成數據上完成的,而 Nemotron-4-340B-Instruct 也可以被用來幫助開發者生成合成訓練資料,並藉助 Nemotron-4 340B 獎勵模型來篩選出高質量的響應。
與此同時,我也認為,因為各種各樣的原因其實還沒有人能夠真正認識到模型的本質,為什麼我們能訓練出 GPT-4 這樣強大的模型?為什麼 scaling law 會有效?等等問題。雖然在 LLM 領域有各種各樣的理論,並且因為這些理論我們對模型的理解正在逐步加深,但還是沒人完全做到這一點。
比如 Kevin Scott (注:Mircrosoft CTO)最近在一次播客中提到 “我們已經能夠看到一些 GPT-5 早期的 checkpoints,scaling law 仍然在持續的發揮作用。” 我覺得從很多層面上來說,scaling law 仍然能夠發揮作用對我們來說就是目前最好的跡象。
但另一方面,在和 xAI 做對比時,我覺得 OpenAI 正在面臨的是 xAI 的出現以及 Blackwell 的延期釋出這兩個問題。Blackwell 的延期意味著,如果要透過 Balckwell 架構建立 10 萬卡叢集,那麼 xAI 很大程度上會有一年左右的優勢,這件事對於 OpenAI 和其他 AI labs 來說都是很現實的挑戰。因為目前大家都在瘋狂地努力擴建自己的 10 萬卡叢集,但他們缺少一個像 Elon 那樣的人來設計一個數據中心,或者從第一性原理出發去重新設計資料中心。資料中心結構過去只是錦上添花,但現在變成了一個關係到生死存亡的因素。
我認為合成數據按目前看確實有效果,而這樣就會帶來另一個問題,也就是究竟什麼決定了模型的價值?為什麼 Meta 願意毫無保留的開源自己的模型?也許我們最終會發現所有模型公司都會開源自己的模型,xAI 也開源了 Grok-1,但這些很有可能是因為模型本身並不具備價值。
因為如果我們按照我之前提過的這個方程式推演,也就是假設大家所面臨的 scaling law 的限制相同,在每瓦特的 CapEx 相同的情況下,誰能夠提供比競爭對手多 100%到 200%的 ExaFLOPS,誰就可能訓練出質量遠超對手的模型。這種情況下就沒有人會願意開源自己的大模型去丟掉自己的競爭優勢。
最終模型之間的競爭來自模型分發和獨特的資料。
Google 有 YouTube,以及其它各種各樣的資料來源,比如 Google Maps 等等,因為 Google 擁有的資料足夠多,所以他們不會那麼關注合成數據。
xAI 有 X 的資料,這是其他人不具備的優勢,因為 X 持有 xAI 25%的股份。隨著時間的推移,我覺得 xAI 將成為一個貫穿 Elon Musk 所有公司的生態系統。我們也可以談談 AI 和機器人技術,我覺得這是我們有生之年可能會經歷的最大的顛覆,二者的結合可能會出現一種近乎於 Digital God 的超擬合實體。
除非有公司在 MAMF、SFU、checkpoint 的頻率以及 PUE 幾個因素上建立複合型優勢,使他們在每瓦特每 CapEx 上的 ExaFLOPS 跟其他競爭對手拉開顯著差距,否則所有的模型最終都有可能收斂到大致相同的智慧水平。
以我對 Google 和 Meta 的瞭解,即使有其他競爭對手的模型智慧水平遠高於自己,並且開發效率上也更領先,他們仍然會願意透過燒錢來解決問題。儘管鉅額的開發成本最終會影響公司的股價,但同樣的情況下,如果競爭對手只花費了三千億美元,像 Google 或者 Meta 這樣的巨頭也願意花費一萬億美元。
我們需要注意的是,如果 AI 的投入需求越來越龐大,那麼 Mag7 完全有可能透過取消回購、停止分紅,並且發行新股來繼續籌集資金投資到 AI 上。從很多維度上來看,AI 的投入會變得很誇張,但最終,也許這些 AI 所具備的“智慧”將會趨近於我們稱之為“智商”的東西。
誰擁有最獨特、最即時的世界資料。獨特的資料來源,再加上每次透過問答對模型給予的反饋,就使得模型水平能夠進一步的提高。所以誰能把獨特的資料和網際網路規模的資料分發結合起來,誰就能夠在競爭中勝出。
而目前僅有少數幾家公司擁有這種能力——xAI、Google、微軟,OpenAI 在微軟的幫助下也可以做到這一點,Amazon 和 Anthropic 估計也有路徑可以實現,當然還有 Meta,Apple 則是一個很大的未知數。
說到這裡,我們就必須要探討一個非常關鍵的問題,就是推理具體是在哪裡發生的?
歷史上計算一致呈現出一箇中心和去中心化的週期趨勢,我們當下正處於一個集中的雲計算週期的尾聲,在這個週期中,計算基本是在雲端、大型資料中心來完成的,因為這樣效率更高,比如對於模型訓練來說,一定是在 CSP 來進行的。我認為人們低估了一件事是,因為我們可以把資料中心建在任何地方,所以不用過度擔心 AI 算力需求帶來的電力需求的激增,可能最終這些巨型資料中心會被建立在頁岩氣田中,配設發電廠,我們可以在遠離人類活動的能源開發區建設巨型資料中心。
計算從中心化到去中心化的週期性變化本質上取決於在哪裡能夠以最低的算力成本獲得最高的算力效率。這是我們前面提到的那個模型訓練效率方程的一個衍生。我確實覺得學會去思考 AI 模型效率方程裡面的各種變數變化,這件事對於 AI labs 和投資人來說都非常重要。

💡

即控制 Scaling 這個變數的情況下,在一個單位的資本支出/能耗比上,誰的 ExaFLOPS 更多。
如果能把 SFU 提升 20%,則取決於矽片在毫米級別上的差異。即便只是把矽片加多幾毫米甚至更好,就有機會把 SFU 提升 20% 的話,還是很值得投入成本的,因為這種毫米級別的差異就是形成巨大競爭優勢的制勝法門。
所以我們可以回看整個 AI 鏈路,找到每平方米矽片對應的成本效益最高的區域,那裡就是真正的最佳化機會。無論是軟體層面的 AI Infra,還是硬體層面的資料中心,還是半導體這一層,都存在這種最佳化機會。而我個人觀點是未來會有更多的推理發生在移動終端。
這顯然就是 Apple 的策略,也是他們在目前的競爭格局下處於一個非常有利的地位的原因之一。
其餘的幾家 Meg 7 公司都陷入了一種囚徒困境。考慮到計算成本如此高昂,如果有機會也許其它幾家公司會非常願意達成一些共識,比如大家也許會一致同意在 2026 年之前都不建立 Blackwell 叢集,從而實現一種納什均衡,但在 LLM 競賽下這顯然不可能實現,因為目前的競爭格局已經是一個白熱化的階段,所以囚徒困境確實存在,但 Apple 顯然不在其中。

💡

納什均衡(Nash Equilibrium):美國數學家John Nash提出的博弈論策略組合,又稱“非合作博弈均衡”。在一個兩人或兩人以上的完全資訊靜態博弈(即博弈參與方無法互相知曉另一方的決策)中,沒有任何一方可以透過自己單方的策略選擇而實現收益的增加。典型案例為囚徒困境:假設兩個為理性經濟人的囚犯因為共同犯罪而被捕且彼此無法交流,警方給出都坦白(關押一段時間)、都不坦白(不關押)、一方坦白一方不坦白(坦白的釋放但不坦白的關很久)三種判罰政策,兩個理性經濟人會同時選擇坦白而被關押一段時間,因為這雖然不是最優解,但在無法控制對方選擇的情形下,坦白是最有利的解,此時即為一種納什均衡狀態。
04.
為什麼 Apple 沒有陷入 LLM 囚徒困境?
Apple 的商業化能力與 Google 在搜尋這個模式上的商業化能力不分伯仲,因為 Apple 在 iOS 上具備分發模式上的壟斷地位,iOS 就像收費站一樣。谷歌可以透過 Android 實現的事情,Apple 都可以透過 Apple Intelligence 實現。
所以我們的手機上會執行一個小型模型,用於回答簡單的問題,我們可以想象它的模型能力大約接近人類智商 100 這個水平,而這個模型已經可以處理相對複雜的知識。可能會同時存在兩個模型,這兩個模型之間可以相互檢查。然後會有大量的推理在移動終端上實現。
如果推理過程發生在移動終端,那麼我認為我們將很有可能看到超級手機的出現,因為對於消費者而言,如果能夠像訪問記憶體一樣透過移動裝置進行 AI 推理,那麼消費者會很願意為此付費,這是一種相當好的使用者體驗。
現階段 iPhone 的銷售定價主要基於裝置記憶體大小,而未來人們可能更關注裝置本身搭載的 DRAM 數量,因為 DRAM 的數量決定了使用者可以本地化執行的模型的引數水平,而這又進一步決定了自己擁有的本地模型的智慧水平。本地部署的模型可以透過隱私安全的方式訪問你的所有資料,而本地模型如果無法處理某些請求,它可以選擇透過雲端來執行某個任務。
互聯領域有一個原則叫作“route when you can, switch when you must”,但到了推理,我覺得這件事可能會變成,“local when you can,cloud when you must”。如果能夠本地裝置能支援推理,但使用者就會傾向於一致這樣做,因為本地推理是免費的,雲端因為涉及到 GPU 的算力消耗會帶來一定費用。所以,雖然雲端推理可能要更加高效,但本地推理確是實實在在的沒有成本的。
對於使用者來說,如果能有一部 3000 美元的 iPhone,它的 DRAM是 1000 美元 iPhone 的四倍,可能還有更多儲存空間,這樣本地模型就可以進行 RAG。並且這個本地化的模型是我使用者自己的專屬模型,使用者可以自由選擇它用哪種聲音和自己對話,模型足夠了解使用者,甚至可以是朋友、助手,在模型能力不斷進化的過程中它只會支援和服務特定的使用者。
我認為這些本地化的模型可以最終呈現這樣的定製化效果——也一定會有一種方法能夠在更早期的時候對這些模型即時地根據個人情況進行針對化的訓練,儘管要實現這一點還有許多需要突破的難題。這個模型會是一個非常貼近我本人的模型,它瞭解我,熟悉我的需求。如果未來人們能夠在移動終端上擁有一個助手,那麼屆時那個助手就會是我所描述的這樣。
如果一個人擁有一部超級手機,而這個超級手機上搭載的 AI 智慧水平差不多相當於人類 115-120 的智商,而另一個人的 AI 助手智慧水平只有 100 ,作為人類而言,前者相比後者就擁有更顯著的優勢。而這種趨勢會不斷擴張,因為我認為 Apple 最終有辦法把這個模式商業化。
Apple 肯定會透過某個移動裝置來把這種定製化的功能商業化。當本地模型能力不夠解決某些任務時,他們像所有 AI 應用公司一樣透過無線網路把資料傳送到雲端,而使用者則基於他們的付費能力和付費意願訪問到一個對應水平的模型。
Apple 還會向 B 端收費,如果其他 AI 應用公司希望獲得 Apple AI 分發中獲得更高的優先順序,那就需要支付更加高昂的費用,所有 AI 應用公司都逃不過這個定律,就好比 Google 過去一直向蘋果支付流量成本,以保證 Google 可以成為 iOS 使用者的預設搜尋引擎。
使用者作為普通人而言,能夠在本地擁有一個更加智慧的模型並且一直使用它,Apple 有辦法讓這件事變的非常簡單。他們可能會給出這樣一種方案,也就是使用者可以自行選擇使用超級雲端智慧還是普通雲端智慧。使用者可能需要為超級雲端智慧支付每月 60 美元的費用,也可能更多或者更少,但是不論如何,願意支付更多費用的一方會比沒有支付更多費用的使用者獲得一個智慧水平更高的本地智慧。
長此以往,付費能力更強的人會花費更多的費用,比如每個月一千甚至一萬美元去獲得“超高階智慧”也就是更強大的雲端智慧的服務,而這個時候普通雲端智慧可能只需要每月 20 美元的費用。作為一個人類,我因為支付了更高的對價,從而獲得了更智慧的模型,並且因此在與其他人類的競爭當中建立了巨大的優勢,這聽上去可能有些反烏托邦,但這種趨勢確實也是不可避免的。
我們也可以從這裡快速總結出一些投資結論:
當 MAMF 已經達到 90%時,那可能已經不是一個很好的進場時機;
但如果 SFU 目前只提升到 30%,那這就是一個非常好的投資時點;
PUE 目前的水平是 1.8%,理論上還能夠降到 1.3%,所以現在投 PUE 應該也是一個比較好的時機。
對於投資人來說,肯定是更希望投資到今天效率還比較低的地方。
05.
糾結 AI ROI 是無意義的
Patrick O'Shaughnessy :我們前面一直在聊 Mag 7,如果你是早期投資人,主要關注 A、B 輪階段的公司,考慮到 GPT 的不斷進化,你認為今天在 AI 的早期投資中需要關注哪些重要特質?
Gavin Baker: 我覺得首先還是要看大家關注的核心問題在什麼地方。像我主要關注的就是什麼樣的公司能夠解決我一直提到的這個方程式裡的關鍵問題。因為我覺得這才是技術瓶頸,也是公司最能獲得成功的環節。
在科技領域,每一次投資如果能踩準技術瓶頸的解決辦法,都會帶來好的投資回報,而我認為目前的投資機會就分佈在 SFU、checkpoint 技術(關係到模型的可靠性)和 PUE。所以我目前還是主要把資金分佈在這幾個領域內。
我覺得應用層的投資真的非常困難。當然也有一些人在應用層的投資上做的非常出色,比如你之前訪談過的 Sarah Guo,我覺得她在應用層的投資上很有一套,但是對我來說,讓我現在去投應用層的話那就真的比較困難。我覺得任何非常看好應用層這個賽道的人都必須要記住 Chase Coleman 提到的那個 1%。
所以我覺得對於應用層的投資還是要保持一個相對保守的態度,不過也可能是我對 AI Infra 更有把握一些,因為我更專注在這個方向上。
我們看了很多家應用層的公司,但目前只有一個應用層的公司我比較有興趣。不過也可能是因為我太在意 Chase Coleman 的那個 1%的統計結果,對於應用層確實也非常謹慎,所以估計也會錯過很多應用層的機會。畢竟在網際網路早期除了 Yahoo!、Lycos 之外也是有很多好公司的。我對應用層的一些看法主要是從 Benchmark 的合夥人 Eric Vishria 那裡聽來的,我覺得他有很多不錯的認知,我也很認同。
這裡又不得不提另一個人們一直爭論的問題,就是 AI 的 ROI,回報率是可以透過計算得出的,但很多人混淆了 CapEx 和 OpEx,這是非常不恰當的。
Meta 之前股價下跌了將近 80%,有部分原因是因為公司在 Metaverse 上的過度投入,但另一個原因是因為 Apple IDFA 對廣告精準投放的限制。今天 Meta 目前的股價已經又漲了 5 倍並且收入增長也在重新加速,之所以是“重新”加速,是因為他們在 AI 上投入了大量的資金來解決投放精準度的問題。
所以我們完全可以說,單看 Meta 股價上的目前的回報就可以證明所有這些 AI 上的投入和部署是值得的。Meta 目前的這個用 AI 解決投放精準度的系統被稱為“Meta Advantage”, 但這只是 Meta AI 投資中的一部分。僅就 Meta 作為廣告平臺,為廣告主進行定位的這個工具而言,同樣的,Google 也有類似的“Performance Max”系統。AI 已經能夠參與廣告創意的最佳化和分發, 因此也能給像 Google、Meta 這樣的公司帶來更強的競爭力。
所以既然我們已經看到了AI 呈現出了這麼出色的 ROI ,就沒有什麼好爭論的。除了 ROI 之外,其實還有一個指標叫做 ROCI(已投資本的回報),這些公司全部都是上市公司,財務資料都公開可查,我們可以看到這些公司增加 AI 上的資本支出以來,ROIC 全部上升了,所以今天再去聊 ROI 的爭議是沒有意義的。
如果有人仍舊要去質疑 AI 投入的 ROI 持懷疑態度,那最直接的反問就是,為什麼我們反而看到這些大公司的 ROIC 是在上升的?即,CapEx 在增加的同時,淨利潤增長的反而更多?之所以會出現 ROIC 的提升,是因為這些公司正在做的就是人們希望 AI 可以實現的事情,讓 GPU 的計算時長來代替人力的勞動時間。這就是 ROIC 上升的原因,而且 GPU 非常高效。等到這些在 AI 上投資了大量資金的公司的 ROIC 下降了以後,討論把成本都投入 AI 的回報率才有意義。
回到應用層的問題, Vishria 的一些觀點我覺得很好。
我們今天已經有很多指標評估 SaaS 公司業績表現的指標。比如,第一年,公司需要達到 100 萬美元年營收才符合行業認可的增長標準,到了第二年結束,公司需要擁有 500 萬的年營收,到第三年底,目標就應該設定在 1000 萬美元左右。
如果一個公司能夠在維持合理的 burn rate 下實現超過標準的增長,那麼公司的業務規模就可以沿著這個趨勢繼續增長,並逐步成為一家成功的 SaaS 公司。這也是 SaaS 公司的估值倍數變得如此膨脹的原因之一,因為這是一個非常標準的量化標準。當一個公司在第三年就達到 1500 萬美元的營收,人們可能立馬就覺得它到第 8 年可以實現 10 億美元的營收。
這件事帶來了 2 個結果:首先,SaaS 領域估值倍數不合理地膨脹;其次,整個行業被過度融資,導致每個垂直領域的競爭變得異常激烈,這種情況下原本的增長曲線也不再成立。這也是為什麼如果有人進行了大量的 SaaS 投資,特別是在 2021 年,那他現在大機率就會陷入困境的原因。
緊接著,AI 出現了,AI 從根本上改變了應用軟體的正規化,因為軟體的本來作用就是提高人類的效率。AI 目前正在不斷提高人們的效率,但對於 AI 來說它不需要做太複雜的 wrapper 就可以讓人們認識到這一點。
引用 Benchmark 的 Vishria 的觀點來說,最終如果 AI 真的能替代人類,但 SaaS 公司仍然在按人頭的邏輯給軟體定價,那麼當用戶數量下滑的時候就會出現問題。
現階段的這些軟體和 SaaS 公司應該都非常清楚這一點,他們原本有著非常明確的發展路徑,但現在基本上在每個垂直場景都有很多家 AI-first 的團隊在做,原有的 SaaS 公司必須要面對這一輪的 AI 應用公司的競爭,來爭奪 IT 預算、甚至接下來是關於人力的預算。
而今天這些新的 AI 應用還僅僅只是一些構建在 GPT 或者其他大模型上的輕量級應用,也就是 LLM wrapper。對我來說,比較有意思的點是觀察這些 AI-first 公司中有誰可以把使用者一開始的這種覺得 AI 產品很有魔力的使用者體驗變成競爭壁壘,尤其是考慮到底層模型的迭代速度正在加劇。
Vishria 還提了一個很有意思的觀點,他認為今天這些 AI 公司已經完全碾壓了傳統 SaaS 公司的增長曲線,在關於 AI ROI 的文章中也有過統計,有相當多的公司都能夠在 9 個月內實現營收從 0 到 3000 萬美元的增長。儘管 AI 的邊際成本很高,但相比於軟體公司來說,AI 的現金流效率也更高。
這件事可能是如何找到一個好的銷售模式的問題。比如,也許可以透過一種非常簡便的整合(integration)來實現,同時又圍繞這個 integration 形成了自己的競爭優勢。再比如,為小型企業建立簡單的 RAG 解決方案可能也是一個競爭的思路,但關鍵是這些基於 LLM 的上層應用究竟要怎麼做到差異化?
僅僅進行微調是不行的,尤其是過度的微調,這會導致產品完全依賴於某一代模型。產品的開發者還需要思考如何創造一個複合的 AI 系統使得產品可以用盡可能低的成本處理每一次的使用者請求,同時開發者也需要思考如何從小模型開始,最終將它訓練成一個大模型。
在 AI 應用的差異化上,有很多可以投入的地方,每個角度都很重要。我覺得到了應用層這個層面,有很多的產品類別都具有想象空間。AI 應用公司的數量正在實現井噴式的增長,業績表現也都超過傳統 SaaS 的評估曲線,所以我目前實際上很難判斷這些公司的長期競爭力究竟如何。其中一些公司可能圍繞某個維度逐步建立自己的競爭優勢,但可能有更多的公司無法創造競爭壁壘。所以這是我覺得投資應用層的時候最困難的地方,也是我對待應用層一直非常審慎的原因。
通用電氣的 Jack Welch 曾經提出過的一個概念叫  Scutwork,對於很多白領來說,有一類工作是必須要做好但是又很困難、很折磨人的工作,我覺得這些很輕量級的 LLM 應用其實都可以用來取代很多這類工作。
一開始我們可以把這種應用和人類結合起來,比如 Neal Asher 創造的科幻世界裡,有一種叫“haiman”的東西,也就是一種人類-AI 結合體,它是透過類似 Neuralink 神經介面技術的技術將人類與計算機伺服器相連,而這個伺服器又由一個外骨骼結構支援——一種可以穿戴走動的機器人外骨骼結構。在完全由 AI 取代人類之前,我們未來會進入一個類似融合國際象棋的人類-AI 協作過渡期,智商 100 的人可以表現出智商 120 的水平,然後可能可以達到 130 的水平,然後智商 130 的人會表現的像是智商 160 一樣。然後最終,只要 scaling law 一直持續下去,雖然也是個大工程吧,某些領域會只剩下 AI 來工作。
06.
Tesla:機器人浪潮的直接受益者
Patrick:我們接下來可以聊一下和機器人有關的話題。今年 4 月份我和一位投資人在一、二級市場都有投資佈局的投資人交流時,他提到,今天市場可能嚴重低估了未來 5 年內機器人、以及機器人和其他新興技術結合帶來的潛力。我很好奇你怎麼看這件事?因為就短期來看,機器人領域似乎存在很多泡沫。比如通用人形機器人領域很多公司獲得了很誇張的融資,但我們可能並不清楚它最終能做成什麼。
Gavin Baker:我也認同這個觀點,並且在我看來,和我們剛才討論的大規模的白領工作自動化相比,機器人可能會在短期內形成更大規模的顛覆。但真正會對世界產生重大影響的第一個機器人,很可能是接入了 AI 的 Tesla。
基於公開的接管率(miles per disengagement)資料來看,Tesla 的接管率表現很一致,這也意味著,即便我們在火星上也建立了一座城市,那裡的交通狀況、街道等等和我們日常生活中的完全不同,Tesla 也能在那個環境中表現出和其他城市相同的接管率。但對於 Waymo 來說,接管率資料是很受地理位置限制的,我們目前其實主要是還是在城區、天氣比較好的時候使用 Waymo。
如果看另類資料、不同版本 FSD 的接管率就會更明顯。當 FSD 升級到 12.3、再到 12.5 的過程中,進度速度相當明顯。 我認為 FSD 12.5 就像 GPT-3。
Tesla FSD 的提升也存在一個 scaling law,並且這些跳變式的改進用到的算力只是 Tesla 的奧斯汀超級工廠資料中心的計算的很小一部分。但是如果考慮到 FSD Beta 12.5 在 AI 硬體上的表現,再想想它訓練時使用的微小計算量,以及Tesla 在奧斯汀的超級計算機叢集的規模,我認為我們會很快從 FSD Beta 12.5 跳到類似 GPT-4 的水平。
Tesla 給自己奧斯汀的資料中心也申請了很多非常創新的專利,比如涉及到他們正在進行的資料中心冷卻技術。作為一個投資人,有時我希望他們不要申請這麼多專利。
目前可能只有 Tesla 擁有基於行駛里程的視覺訓練資料集,我們可以辯論它是比 Waymo 的第二大訓練資料集大100倍、1000倍還是10000倍。在我看來,在自動駕駛領域,這就像是特斯拉擁有 YouTube ,而其他人在嘗試使用 Yahoo 的資料,顯然特斯拉更有優勢。
當然,可能未來情況也有變化,所以不能隨便下結論。比如可能會出現演算法突破,從而減少訓練中資料集規模的重要性,在這個過程中,Waymo 肯定也會嘗試用大量資金獲取資料參與這場競爭,Waymo 的方案是雷射雷達。我不認為結果已經註定。未來沒有什麼是確定的。
Jim Fan 曾經和 Elon Musk 有過一次關於 LLM 如何改進 FSD 的討論中,Elon Musk 的回覆是,現階段只有合成數據和真實世界的影片資料是可以無限擴充套件的。
Tesla FSD 最大的競爭風險可能來自於,合成影片資料是否可以像合成文字資料一樣被使用?我們都很清楚合成文字資料有用,但不知道合成影片資料是否有效。另外一個顯示挑戰來自於監管,雖然 AI 能幫我們降低車禍率,但監管對於 AI 導致的交通事故的容錯空間要比人為事故小很多。
但 Jim Fan 要更加樂觀,他認為 LLM 可以幫助 FSD 進步,因為經過真實世界資料訓練的系統能夠知道一名優秀的人類司機怎麼做,但如果遇到資料集之外的新情況,系統可能就不知道如何應對了,而這就是 LLM 可以發揮作用的地方。
所以如果在每輛 Tesla 上都部署一個本地的小型 LLM,這個模型就有足夠的推理能力來解鎖  FSD 更近一步的能力提升。當然,Waymo 等其他自動駕駛公司也可以做這件事,但他們沒有 Tesla 的視覺系統和所有專有資料集。
我認為在接下來的 12 到 18 個月內,甚至可能 6 個月內,這件事就會成為現實,如果 Tesla 做到這一點也會打消今天對 FSD 的所有質疑。
同樣的情況也適用於人形機器人。Google 在 RT-1 這個專案上展現出了這一點。機器人的進步和 LLM 也結合在了一起。這個機器人具有理解事物本質和應對方法的世界模型,這讓一切變得容易得多。我們不需要單獨訓練人形機器人如何拾起網球、籃球和足球,以及它們之間的區別,因為它可以自主推理。這也是為什麼我認為將 LLM 和人形機器人結合會給世界帶來重要變化的原因,很多藍領工作可能會變得可有可無。我認為整個社會機制完全沒有為即將到來的變革做好準備。
人形機器人一定是未來,而不是那些圍繞特定任務開發的機器人,原因很簡單,雖然垂直場景機器人可能在特定任務上比人形機器人更出色,但人形機器人可以完成任何人類能做的任務,我們今天生活的世界是圍繞人類行為所最佳化的,而且人形機器人在製造方面存在巨大的規模效率。
人形機器人之於機器人領域,就像 GPT 之於 AI,GPT 是一種通用型 AI,而人形機器人將成為通用型機器人。正因為如此,它們將被大規模製造,從而獲得成本優勢,然後物理世界將開始為它們進行最佳化。非人形機器人創業公司可能會像 MySpace、Lycos 或者 CMG,但它們中沒有一個會成為 Google。
就像 GPT 讓 Meta、Google、Microsoft 這些已有的公司受益一樣,人形機器人領域也會有類似情況,因為這些大公司有資料、算力和足夠的資金。我認為電池設計、制動器、電機環節、擁有大規模資料集的製造商會在人形機器人的競爭中更有優勢。所以我很看好 Tesla 的 AI 機器人 Octopus。
通用機器人市場很大,也會有很多家公司一起競爭,但我覺得可能這裡最後會只有 2-3 家,Tesla,Waymo 以及某個基於開源發展起來的團隊。
排版:Fia
延伸閱讀

相關文章