速遞|馬斯克:未來每個人都會有一臺人形機器人,明年順利特斯拉將量產10萬臺Optimus,AI模型訓練資料已經耗盡

1 9 日,馬斯克在旗下社交平臺 X 上與全球營銷服務公司 Stagwell 董事長&CEO Mark Penn 展開了一次對談。
馬斯克提到,DOGE(政府效率部)將努力削減 2 萬億美元的聯邦支出,但他表示他們可能無法實現這一目標,此外他們的對話還涉及 AI 進展、火星殖民和人形機器人等一系列話題。
關於人形機器人,馬斯克表示,未來,幾乎每個人都會擁有一臺甚至更多的人形機器人。如果 Optimus 今年一切進展順利,2026 年產量將增加 10 倍到 5~10 萬臺,2027 年 Optimus 產量將再增加 10 倍。
關於 AI 進展,馬斯克表示:“我們現在已經基本耗盡了人類知識的累計總和……在 AI 訓練中……實際上,這種情況去年就已經發生了”。
馬斯克與其他 AI 專家一致認為,用於訓練 AI 模型的真實世界資料已經所剩無幾,這個觀點也呼應了 OpenAI 前首席科學家 Ilya Sutskever 在去年 12 月舉行的機器學習大會 NeurIPS 上提出的觀點。
Ilya 當時指出,AI 行業已達到所謂的“資料峰值”,他預測資料不足將迫使行業轉向新的模型開發方式。馬斯克認為,合成數據——即由 AI 模型自行生成的資料——將是未來的發展方向。
他還說:“補充真實世界資料的唯一方法是透過合成數據,讓 AI 自己建立(訓練資料),透過合成數據…… AI 將以某種方式自我評分,並透過這個自我學習的過程。
據 Gartner 估計,到 2024 年,用於 AI 和分析專案的資料中有 60% 將是合成生成的,包括微軟、Meta、OpenAI 和 Anthropic 在內的一些科技巨頭,已經開始使用合成數據來訓練其旗艦 AI 模型。
微軟的 Phi-4 模型在週三早些時候開源,訓練過程中結合了合成數據和真實世界資料,谷歌的 Gemma 模型也採用了類似方法。
此外,Anthropic 使用了一些合成數據開發了其效能最強的系統之一 Claude 3.5 Sonnet,而 Meta 則利用 AI 生成資料對其最新的 Llama 系列模型進行了微調。
使用合成數據進行訓練還有其他優勢,例如成本節省。AI 初創公司 Writer 曾提到,其幾乎完全基於合成數據開發的 Palmyra X 004 模型研發成本僅為 70 萬美元,而一個規模相當的 OpenAI 模型研發成本估計約為 460 萬美元。
但合成數據也存在一些缺點。一些研究表明,合成數據可能導致模型“崩塌”,即模型輸出的“創造性”降低,偏見增加,從而嚴重影響功能性。
由於模型本身生成合成資料,如果用於訓練這些模型的資料存在偏見和侷限性,其輸出結果也會受到類似影響。
與此同時,黑石集團也在近日向一家 AI 資料儲存解決方案公司 DNN 投資了 3 億美元,估值達到 50 億美元,其產品主要用於大規模的 AI 基礎設施,包括馬斯克旗下 xAI 正在打造的超級計算機 Colossus 也是 DNN 的客戶之一。
DNN 最初管理資料是為了幫助政府機構和研究組織進行計算,包括藥物開發和美國國家航空航天局任務的複雜模擬,隨著越來越多的公司尋求使用 AI,其客戶群也發生了變化。
DDN CEO Alex Bouzari 表示,DDN 的平臺可幫助企業提高 AI 的成本效益,DDN 還計劃利用黑石的投資大幅擴大其商業客戶群。
黑石此前投資了多個支援 AI 生態的專案,例如資料中心運營商(QTS、AirTrunk)和 AI 晶片企業(CoreWeave),投資 DDN 是對其 AI 投資組合的戰略性補充。
✦ 精選內容 ✦

相關文章