


出品:拾象投研團隊
排版:Scout

Prediction 1
2024 年上半年是 LLM 軍備競賽關鍵賽點,格局形成後很難再改變
如果以 GPT-4 作為門檻,首輪模型競賽已經決出了前三名:OpenAI 、Anthropic 和 Google Gemini,接下來半年誰還能推出等齊 GPT-4 能力模型值得期待,我們認為還有另外 3 家公司具備這個潛力:Character.AI、X.ai 和 Bytedance。
雖然 Llama 2 和 Mistral-7B 極大地增強了社群對於開源模型的信心,但開源模型要在 2024 年內追到 GPT-4 還面臨著很多挑戰。我們推測,頭部開源模型的能力會長期保持著與最好模型半代到一代的差距,但同時,也需要強調的是,開源模型的使命並不是最智慧的模型,而是幫助模型能力 commoditize,在成熟的 use case 上讓企業能夠大規模地自定義使用。
• 明年上半年是大模型最後的決賽視窗:
我們預計,Anthropic 會在 2024 Q1 釋出 Claude-3,OpenAI 會發布 GPT-4.5,2024 年 Q2 ,Google 也可能準備好了 Gemini 2.0 ,這也意味著在 2024 年上半年,模型平均能力又會被抬升一個臺階。因此,雖然今天我們說“追趕上 GPT-4 是第一梯隊”,但如果到明年 6 月後再推出等齊 GPT-4 能力的模型就已經無法進入第一梯隊了。模型競賽相當殘酷,類似晶片或 SpaceX,因為領先的模型能力又強又便宜,後面的玩家會很難存活,但因“陣營”抗衡又不會贏家通吃,最後格局很可能只剩 2-3 家。
• 模型公司的融資和估值幾乎全由科技巨頭定價和主導,沒有大腿很難存活:
模型公司更像 Research lab,模型的商業模式還不清晰。因此估值體系也很模糊,ChatGPT 的爆紅是超出預期的,是有一定必然性的偶然,很難從產品的使用者增長視角去進行分析,大模型公司獨立 IPO 也很難,被收購的機率是更高的。
Microsoft –> OpenAI
Amazon/Google/Salesforce –> Anthropic
Tesla –> xAI
Google –> Character.AI
NVidia/Microsoft –> Inflection
• Scaling Law 是目前提升模型智慧能力的唯一路徑:
在 Scaling Law 下,每一代模型擴大 n 倍的引數量,m 倍的資料量,近似 m * n 數倍的實驗訓練資源。但 scaling law 本身還沒有一個理論支撐,而是大量實驗和試錯的經驗總結帶來的 conviction,因此也很難準確判斷下一代模型能力湧現如何、什麼時候 Scaling Law 就不奏效了。就像人類對大腦的理解也很有限,更像是“探索發現”而非“發明創造”。
• Post-training pipeline 是 OpenAI 最關鍵的 secret sauce:
優秀的網際網路公司往往都有著優秀的 Infra,是他們想要實現紮實的 pre-training Infra 是一個相對明確的工程問題。但要追上 OpenAI 最大的難度在於他們是否能有成熟的 post-training pipeline 去最高效地 align LLM 激發出底座模型的能力,是用 RL 還是 DPO?如何獲得最優質的 RLHF 資料?等等這些問題都是每家公司在實踐的。
• 推理能力仍是目前 LLM 持續進步和落地的核心,產品是支線:
Model capability 只有一個北極星:即推理能力。對產品應用最重要的依次是成本、可靠性、多模態,隨著以上問題漸漸解決,AI-native 產品才更有可能落地,雖然 ChatGPT、Character.AI 是現象級的 AI-native 應用,但考慮到這些團隊仍舊是以 foundation model 研究為核心,團隊接下來的重心不一定在產品和應用角度的突破上,所以產品側一定是創業團隊的機會。
Prediction 2
資料短缺問題成為模型 bottleneck,合成數據是關鍵解法
2024 年很多模型會在資料環節遭遇瓶頸。
Transformer 結構對各類任務都有著很高的包容度,從文字、圖片到蛋白質結構。但它有一個關鍵問題:對資料量的要求大,只有 data-intensive 的任務才能得到充分的學習。假如每代模型引數擴大一倍,相對應地,data 也需要近似線性擴大一倍來保持 Chinchilla Optimal,但公開資料不夠用已經成為共識,如何提升 Synthetic Data 多樣性和質量是確保模型訓練中很關鍵。
我們傾向於認為,Scaling Law 大機率不會停滯,即便出現問題也更可能是計算架構的原因。舉個例子,如果我們用 LSTM 或 RNN,那麼模型能力的進化速度就會發生變化。如果在各種架構情況下我們都遇到了模型能力進化的瓶頸,那這件事將相當嚴重,因為這意味著我們遇到了更深層次的問題。
資料合成的實現方法目前還是一個開放問題。因為簡單的用 GPT-4 生成資料會帶有模型自身的缺陷,AI 學習的只是自己本身掌握的知識。因此目前有兩條可能可行的技術路線,一類是用數學/程式碼可以進行嚴格驗證的形式語言,讓模型生成的資料能夠得到自動化地驗證,並不斷變得更準確;另一類是透過 RL 強化學習演算法,可以 self-play 反覆試錯學習的方法,透過 AI feedback 為主 human feedback 為輔的方式進行糾偏和迭代。在這件事上 OpenAI 和 Anthropic 走在了前沿,但距離做到接近無限的資料生成還很遠。
Prediction 3
2024 年會迎來端側 LLM hype,會有開源模型團隊被硬體廠商收購
端側小模型已經可以實現很多初階任務,例如 text completion、 text summarization 等,這些任務對智慧能力的要求沒那麼高,卻能滿足很多日常的需求。從模型競爭角度,來自大模型的“向下覆蓋”是小模型最大的挑戰,比如 OpenAI 順手 train 小尺寸模型只是時間和優先順序問題,但小模型真正的價值在於端側。
ChatGPT、Character.AI 等超級應用喚醒了大眾對於智慧的渴望,但目前這些智慧功能的呼叫入口十分單一,和手機、PC、智慧手錶等已經被大規模普及的智慧硬體之間的融合還不流暢,AI Pin 之所以受到市場期待也在於它提出的“隨時呼叫最強模型”概念,但我們認為,在所謂“AI-native 硬體”誕生之前,把 LLM 和現有終端融合更具有落地可能性,不過這裡的現實挑戰是,如果直接將大模型嵌入到硬體中,從晶片、成本以及資料隱私安全形度都存在挑戰,而這恰好是端側小模型的優勢。
今年年底 Google 推出的 Gemini 系列模型中的 Nano 就是圍繞 on-device 需求設計的,Gemini Nano 除了會被嵌入 Pixel 8 Pro 外,也開放給 Android 開發者,開發者可以以 AICore 的形式,在手機系統中呼叫 Gemini 的能力,用在自己的 App 中嘗試 AI 功能。

我們預計 2024 年會迎來端側小模型的 hype,手機、PC、車甚至車等硬體廠商都有極大動力收購開源小模型,這其中以手機廠商最為激進。
首先,LLM 是不斷拉長的換機週期帶來新變數,透過觀察 2023 年國內手機廠商在新品宣傳上的側重點已經能夠部分驗證這一點。此外,我們預計在 2024 年手機記憶體容量也會迎來驟升,為端側小模型的落地提供基礎前提。Intel 和高通新一代筆記本 CPU 正初步嘗試類 Apple Silicon 的架構,不僅將記憶體和處理單元進行一體化封裝,還加入了效能強勁的 NPU(神經網路處理單元),預計 Mac 將面臨愈發激烈的桌面 PC 端競爭。
Prediction 4
多模態成為 LLM 在 2024 年的
主流敘事
OpenAI 釋出的 GPT-4V 相比 GPT-4 加上了影像和語音的輸入能力,已經擁有多模態理解能力,Google 在 2023 年 12 月推出的 Gemini 也擁有多模態理解能力,並且是從頭開始訓的,Anthropic 預計在 2024 Q1 釋出的 Claude 3 也將會是一個多模態模型。短期內,圖片、影片、3D、音訊等多模態的生成和理解是兩條賽道,站在終局視角,隨著智慧能力的提升,理解和生成能力一定是一體的,單一模態模型更像是一種中間過渡態。
• 影像生成:今天的文生圖效果和質量和一年前相比提升相當明顯,但從 prompt following 角度還有很長的進化空間,這項能力也意味著模型在未來是否能真正理解並完成一些多模態任務。


• 影片生成:影片生成當前可能處於 GPT-2 時期,核心玩家仍在技術路線上進行探索,已初步發現 scaling law 跡象,但暫時沒有團隊有很強的 conviction 堅定選擇一條路線或一個方向進行大規模投入。因此行業當前仍非常依賴頂級研究團隊。
• 3D生成:可能是距離技術臨界點更遠的一條賽道,目前 3D 生成的主流技術路徑大致可以分為(1) text-to-2D,再透過 NeRF 或 Diffusion 模型完成 2D-to-3D,或直接透過 2D 素材完成 3D 建模;以及(2)直接 text-to-3D,該路徑直接使用 3D 資料進行訓練,從訓練到微調到推理都基於 3D 資料。其中,路徑(1)更為常見,因為相比於 3D 資料,2D 資料更多、更豐富,可生成的 3D 內容也更豐富多樣。但我們看到越來越多研究員正在由路徑(1)轉向路徑(2),路徑(2)有可能成為 3D 生成未來最重要的方向。
Prediction 5
影片生成會在 2024 年迎來
“ChatGPT 時刻”
2023 年下半年,Pika1.0 、Stable Difussion Video、Google VideoPoet 的相繼誕生讓影片生成的競賽氛圍變得緊張,2024 年,影片生成領域已經會經歷影像生成在 2023 年的過程,可能最快到今年年底,我們能夠接近影片生成領域的“ChatGPT 時刻”。
當前影片生成技術路線大致可以分為兩類:一類是基於擴散模型(Diffusion-based),一類基於語言模型(Language Model-based)。目前,大部分研究員都在 Diffusion 領域進行探索,這個技術路線佔據絕對的主導地位。但 Transformer-based 的路線更容易擴充套件,兩條技術路線的研究工作之間的界限正在變得越來越模糊。
我們預計明年將有更多玩家加入影片生成領域的競爭,不僅僅是單純聚焦影片領域的玩家,還包括此前從其他模態起步的公司,如 LLM、文生圖、文生 3D 等玩家,競爭將非常激烈。大規模的人才和資源投入也有望將影片生成賽道盡快推向 “ChatGPT 時刻”。
Prediction 6
新摩爾定律會解鎖更多新應用的可能性,LLM-Native App 會在未來 6-12 個月迎來大規模爆發
2023 年初整個市場就在期待“未來 6-12 個月”應用會大爆發,但實際情況是每 6 個月過去,大家仍然在重複這一預測,將時間點不斷後移 ,背後重要的原因仍是新摩爾定律,一方面模型的能力和成本還需要繼續提升,另一方面 LLM 時代的產品經理們還需要讓自己能夠跟不斷進步的底層模型搭檔好。投資人很可能也需要有這麼個預期:今天看起來 Native 的產品很可能 6 個月之後就不再是了。
也正因為新摩爾定律的存在:模型訓練成本每 18 個月除以 4,模型推理成本每 18 個月除以 10,模型能力每 1-2 年提升一代,過程中會逐步解鎖新應用。我們目前能看到的應用機會都是 Known-Unkown,而 24 年將會出現許多我們今天無法設想的 Unkown-Unkown。
• LLM 產品的資料飛輪和網路效應能否成真將揭曉:
我們目前的感受是 ChatGPT 並沒有像搜尋和推薦一樣具備很強的資料飛輪效應。如果 Meta/Tiktok/Google 甚至創業公司在產品側突破,更高效率的資料飛輪,是有機會拿走更大勝利果實的。如果沒有玩家能做出來,那 ChatGPT 還將維持自己的統治地位。
• 新時代產品天才畫像會更加清晰:
移動時代做過億級 DAU 產品的產品經理可能並不會自動變成 LLM 時代的好產品經理。我們在今年看到過一些“大膽”的產品用人 – Harvey 的 CPO Gordon Moodie 是在 Wachtell 律所做了將近 20 年的律師,職業生涯此前還沒在科技公司工作過。用 LLM 做場景和行業改造,誰能做好?24 年我們會看到一些初步答案。
• “改良版 Character.ai”玩家將收斂:
2023 年市場上有差不多幾百家公司都想做 Character AI 方向,但目前進展都很一般,原因是什麼?大家嚴重低估了 Character.AI 模型的能力,絕大多數 copycat 的引數量和最佳化能力比 Character 相差一個數量級。甚至連 Character.ai 是不是個好故事都不一定。Character CEO Noam 今年用產品故事融資,被矽谷投資人挑戰這個產品看不清未來空間多大,現在 Noam 又轉回了大模型走向 AGI 的 story,但走 AGI 這條路前面競爭又很激烈,如果你是 Noam 你會怎麼選?這個戰場裡的中庸玩家會很煎熬,可能兩條路都走不通。
Prediction 7
2024 年,億級 ARR 產品將批量出現,更多公司 5% 以上的收入貢獻將來自 AI
在 23 年,我們看到 LLM-Native App 在一些具體的場景和垂直行業已經冒頭,Harvey、Captions、HeyGen、Notion AI 等新產品都能取得千萬美元級的 ARR,算是逐步驗證了 LLM 的行業改造的邏輯,2024 年非常值得期待的是這些已經擁有 LLM-PMF 的產品可以批次晉升到億級 ARR,PLG 之後,它們的收入增長過程可能為業界帶來新的 Go-To-Market 最佳實踐。
AI 也為 Big-Techs 帶來了積極收益:AI 佔 Azure 的收入已經超過 2%,Datadog 有 2.5% 的 ARR 來自 GenAI 客戶……我們預測,隨著 2024 年模型能力的提升以及更多 AI-naive 產品/ feature 釋出,到 2024 年這一比例還會繼續上升,將有更多公司將有 5% 以上的 ARR 來自 AI 相關的新功能、新產品和客戶。
Prediction 8
2024 是佈局 Data Center 的重要時機,算力、Cooling 以及互聯等環節均存在機遇
Scaling law 的影響同樣體現在硬體端,2024 年模型的卡點在資料,到 2025 年 bottleneck 則在於 Power,因此,2024 年是佈局硬體的最佳時機。
• 硬體側競爭加劇:
明年 NVIDIA 將在推理側重點宣傳 Grace 架構的吞吐量優勢,也就是產品定位重心更向高階市場走,旨在緩解下一代模型超大引數量和 MoE 帶來的高延遲問題。這是為了應對來自雲計算廠商自研晶片和 AMD 的競爭,因為相比較而言,H100/H200 在推理場景下價效比一般。高階推理市場裡,AMD 是 NVIDIA 的唯一對手,初創公司裡只有 Tenstorrent 有類似的技術規劃,但不能形成有效競爭。為了有效爭奪市場份額,NVIDIA GPU 和 Google TPU 還會壓縮旗艦晶片的迭代週期,從 2 年縮短為 1 年。
• 電源短缺問題加劇:
這一問題主要由 NV 的新產品功率提升和 GPU 市場份額增長引起,進而導致資料中心整體的變壓器面臨更新換代壓力。NV 計劃於 2025 年推出的 X100 GPU 將功率從 700W 提升至 1000W。同時,同期釋出的 CX8 和 Quantum3 也預計將需要更高的功率,這是因為它們尚未採用 CPO 技術。鑑於 GPU 在資料中心的市場份額正迅速增長,大規模的技術更新換代將對原本主要滿足 CPU 需求的電源供應鏈構成挑戰,從而導致電源短缺。
• Networking 創新:
首先,博通和 NVIDIA Mellanox 正將 CPO 整合到其旗艦 Switch 上,博通的旗艦機型將在 24 年大規模鋪開,憑藉 CPO 縮小 RoCE 和 Infiniband 的延遲效能差距,並在速率和能耗表現上領先 NV 1-2 年。此外,架構將從 Fat-tree 逐步轉向 Dragonfly。我們將會在 2024 年看到一些小叢集的嘗試,但大範圍的變更還需要更久的實驗。Fat-Tree 架構最大能支援 15 萬張 GPU 互聯,足以支撐 GPT-5 甚至 GPT-6 的訓練,但如果需要進一步 Scaling,則需要探索 Dragonfly 和 Torus 架構,目前谷歌已在 Torus 架構上有兩代 TPU 的積累,NVIDIA 則在探索 Dragonfly。
Prediction 9
圍繞 LLM 將發生一起具有影響力的
網路安全事故
儘管大家都在強調 AI Safety,但是基礎的圍繞 LLM 的網路安全還有很大的補足空間。微軟一直強調自己雲平臺的安全性,但是在 23 年也出了幾起大的資料洩露事故:
Log4j 事件是雲安全的終極元年,鑑於 GenAI 的一切都發生地更快,24 年可能就將出現同等影響力的安全事故。
Prediction 10
具身智慧還需 1-2 年才能真正迎來突破
和 LLM 一起到來的是機器人領域關於 Embodied AI(具身智慧)的預期:
• 2023 年 3 月 Google 釋出視覺-語言模型 PaLM-E 之後受到廣泛關注;
• 2023 年 7 月 Google 釋出視覺-語言-動作模型 RT-2 後關注度達到高點;
• Tesla 也分別在 2023 年 5 月、9 月、12 月釋出其人形機器人 Optimus 的最新進展。
無論在軟體層面還是硬體層面,大家都看到了通用人形機器人的可能性,也期待 AGI 在機器人領域的突破,但客觀現實是,因為涉及到軟硬體一體,通用機器人是比 LLM 更復雜的系統性工程,真正實現需要更多耐心,在年末,我們也明顯感受到市場對於 Embodied AI 逐步恢復冷靜。
2024 年還會有更多的 AI researcher 轉向 Embodied AI 領域的研究,操控(Manipulation) 會是階段性的研究重點,更具體來說,雙臂和靈巧手會成為未來 1-2 年很重要的研究方向,而該領域一定也會因為研究力量的湧入在技術層面上帶來新的突破。不過,仍舊需要強調的是,從實驗室到工業界是通用機器人在 AI 能力突破之外更大的挑戰,硬體實現、成本、以及透過大規模生產到真正普及應用等環節都是比演算法軟體環節更大的挑戰。

關於2024、關於 AI 還有哪些值得關注?我們很好奇大家對未來的預測與想象,也想聽到你們關於「海外獨角獸」 2024 的期待。歡迎在評論區與我們互動、留下聲音。
截至本週日晚點贊最多的 5 條,我們將送出海外獨角獸年度精選集一份。

延伸閱讀
🦄️
關鍵詞
能力
大模型
GPT-4
公司
領域