Meta抄襲DeepSeek大翻車?矽谷大佬爆料亮點滿滿,AI軍備燒錢真相震碎矽谷

文章轉載於新智元
誰會首先到達ASI(超級智慧)?OpenAI
大佬斬釘截鐵的回答,讓主持人驚呆了幾秒。
  • GPT-4.5到底哪裡出了問題?
  • 小扎瘋狂挖人,砸出1000萬美金年薪,值得嗎?
  • 蘋果在AI競賽中已經徹底落後,接下來他們打算做什麼自救?
就在剛剛,AI大V Matthew Berman放出對Dylan Patel長達1小時的訪談,後者爆出不少猛料。
Patel是SemiAnalysis創始人兼CEO。SemiAnalysis的大名,在業內是如雷貫耳,每出一篇關於AI和半導體的重磅分析,都會被業內人士競相轉載,擁有極高的行業影響力。
而Patel本人,對AI領域的認知更是達到了無與倫比的深度和廣度。
在訪談中,Patel表示,如今很多全球頂尖AI公司內部,已經是亂成一鍋粥了!
看完這個訪談,許多網友表示,資訊密度實在太大,全程高能,太值得一聽了。
Meta、OpenAI、蘋果、英偉達、xAI、微軟,這些大科技公司在矽谷的混亂局面中,誰將主宰下一個浮沉?
讓我們來看看大佬的犀利分析和預言。
1
Meta瘋狂掙扎,小扎作困獸之鬥
借鑑DeepSeek,結果翻車了?
首先,兩人討論的是最近鬧出了天價挖人風波的Meta。
Llama 4釋出已經有一陣子了,當時大家的期待值非常高,但它卻並沒有改變世界,隨後,Behemoth模型又被推遲了。
而在Patel看來,Behemoth恐怕永遠不會發布了。同樣命運的還有Maverick和Scout。這些模型的一些訓練方式和決策,後來被證明是行不通的。
本來在釋出時,有個模型感覺還行,但後來在阿里和DeepSeek發的新模型前,一下子就顯得遜色了。
而另一個模型,客觀上來講就是很差勁。Patel表示,我敢打賭,那個模型就是為了應對DeepSeek而趕工出來的。

他們借鑑了DeepSeek的MoE架構,但搞砸了,如果仔細去看,這個模型甚至不會把Token傳送到某些專家模組,可以說訓練基本就是白費了!
最終結果,就是一堆專家在那裡無所事事,顯然訓練出了問題。
詭異的是,Meta明明擁有全球最頂尖的人才,也不缺算力,怎麼就搞砸了?
這一點,他們應該向OpenAI學習。
奧特曼負責搞定所有資源,Greg Brockman和Mark Chen等人則是技術領袖,總之,要有一個懂技術、能做決斷、能選對方向的領導。
否則,後果就是這些頂尖研究員會把時間浪費在錯誤的路線上。
事實上,[品味」非常重要,判斷什麼值得研究、什麼不值得,這本身就是一種藝術。
一個想法當然可以用幾十萬個GPU跑一次來驗證,但事情不會完美地等比放大,這其中需要大量的品味和直覺。
如果錯誤的人透過一些政治手段,讓自己的想法和研究路徑被採納進了模型,結果很可能就是翻車。

小扎為何突然轉向AGI
最近,無論是收購Scale AI(本質上是收購Alexandre Wang),還是1000萬美元年薪天價挖來OpenAI員工,都讓小扎處於爭議的風口浪尖。
Patel點評到,Scale AI作為一家公司,現在業務基本上是完蛋了,因為谷歌在內的所有公司,都在取消和他們的合同(據說谷歌今年本來要在Scale AI身上花2.5億美元的)。
而OpenAI,也已經和Scale AI徹底決裂。沒有任何一家公司,希望Meta知道自己的資料在用來幹什麼。
Patel指出,最近這幾個月,小扎的轉變十分微妙。
在幾個月前的採訪中,他還認為ASI短期內不會實現。但如今,他真的信了ASI,所以,要做什麼才能追上來?
目前,他還是純靠砸錢。OpenAI、SSI、Thinking Machines的全明星團隊,基本被他挖了個遍。
甚至傳聞中,Meta願意開出上億美元年薪,挖不動人,就買下整個公司。
這場AI軍備競賽的本質是什麼?
說到底,還是對「權力」的爭奪:誰能帶隊造出超級智慧、誰就能掌控萬億級公司的AI戰略,能把產品推向數十億使用者。
這,是一場產品人、理想主義者和科技巨頭之間的全面競速。
超級智慧,已經不是「能不能」,而是「誰先」。

其實要說到底,在超級智慧這塊,真正引領潮流的還是Ilya。
他總是率先看到一切。可以說,是Ilya引領了這波敘事轉向。他先創辦了自己的公司SSI(安全超級智慧),大概在一年後,所有人都開始相信超級智慧了。
而對於預訓練規模化、推理、早期的視覺網路,他也是最早開始深入研究的一批人之一。
但對於小扎的收購,他果斷拒絕了。可以看出來,Ilya根本不在乎錢,他想要的就是實現ASI,是一個真正的信徒。
而對Meta來說,如果最終目標是超級智慧,那麼相比Meta目前的市值,以及AI的整個潛在市場,無論是1億美元,還是10億美元,都只是滄海一粟而已。
1
GPT-4.5的失敗,究竟是因為什麼?
接下來,主持人丟擲了這個問題:GPT-4.5到底怎麼了?
Patel一句話金句總結:總的來說,它沒什麼用,而且太慢了。
曾經,GPT-4.5的內部代號是Orion,本來被寄望於成為GPT-5。
為此,OpenAI下了血本,從2024年初就開始訓練,全力押注規模。他們用上了所有資料,造出一個大得離譜的模型。
結果呢?Patel表示,雖然它的確是第一個把自己逗笑的模型,但並沒有那麼好用,速度太慢,也太貴了。
慘敗的原因就在於「過度引數化」——
它並不是在建立世界模型,而是在泛化。某種程度上,GPT-4.5就是因為太大、過度引數化,記住了太多東西,所以就不再進步了。
要知道,剛開始,OpenAI內部都覺得它要在基準測試上大殺四方了,然後事實卻讓所有人失望了。
而且倒黴的是,訓練程式碼裡還有個bug,直接持續了幾個月。雖然這個bug很小,卻攪亂了整個訓練。好在最終,研究者們發現並修復了這個PyTorch內部的bug。
另外,他們還不得不頻繁地從checkpoint重啟訓練,原因就在於模型太大、太複雜了,任何環節都可能出錯。
而且,就算基礎設施、程式碼都完美無瑕,仍然可能遇到資料的問題。
在2022年,谷歌DeepMind在發表的Chinchilla論文裡,提到過模型引數量和Token數的最佳比例(訓練資料量大約應該是模型引數量的20倍)。
這就是大家公認的Scaling Law——模型做得越大,投入的flops越多,模型就越好。
然而如今,隨著模型架構的變化,這篇論文裡的結論已經不再適用了。
在2024年初開始訓練GPT-4.5時,他們就不得不使用了遠超Token數量的引數。
然而與此同時,OpenAI的另一個團隊卻有了關於推理的神奇發現,就是當時被傳得沸沸揚揚的「Strawberry」。
已經投入巨資訓練龐然大物的OpenAI才發現,原來完全靠推理,就可以用低得多的成本讓模型的效率和質量得到巨大提升。
總之,GPT-4.5之所以失敗,就是因為資料不夠。而最終,Strawberry證明了推理的魔力。
1
OpenAI和微軟:昔日CP,分道揚鑣
另一方面,曾經的OpenAI和微軟這對「AI界最強CP」,顯然也過了蜜月期。
過去幾年,OpenAI靠著微軟的大力投資和Azure算力迅速崛起,然而兩家公司的合作協議,實在是太過複雜——
微軟沒有OpenAI的股權,卻擁有它大部分利潤的分成權、所有IP使用權,甚至在AGI實現前,能使用OpenAI的所有技術。
也就是說,只要你造出了超級智慧,微軟就能在頭一天把程式碼全部打包帶走。
而且,起初OpenAI還被限制只能用微軟的雲服務,但隨著星際之門的推進,他們也開始和Oracle、CoreWeave合作。
然而,微軟雖然放棄了獨家權,但保留了「優先承購權」以降低反壟斷風險。
問題是,如今的OpenAI野心膨脹,想成為地球上最為資本密集的初創公司,因此燒錢無上限、五年內不打算盈利,還要不斷融資;而微軟呢,雖然手握程式碼庫,卻還沒真正動手自己搞模型。
雙方都一樣,心照不宣地防備彼此。接下來,誰先走出下一步,這種脆弱的平衡,就很可能要打破了。
1
蘋果,在AI上重大失誤
而在目前的AI大戰中,蘋果似乎是顯而易見的輸家了。
他們既沒公開大模型、也沒洩露任何研發細節。業內已經普遍認為,這不是「佛系」,而是徹底的結構性落後
要深究原因的話,就是蘋果保守的收購策略、對開源文化的疏離、對GPU巨頭英偉達的長期芥蒂,以及自身缺乏AI研究氛圍的現狀,都讓它很難吸引到頂尖的AI人才。
因此,在Meta、OpenAI、Anthropic等公司瘋狂搶人的同時,蘋果最多隻能招到「第二梯隊」的人才。
而他們所推崇的端側AI之路,也沒那麼容易走通。
雖然蘋果在大力強調隱私與低延遲,但現實卻是,大模型越來越龐大,手機晶片根本跑不動。
而大多數使用者寧可免費用雲端AI,也不願為本地推理多掏幾百美元去買硬體。
而且即便是能在裝置上跑通一些輕量任務(比如鍵盤預測),真正複雜的AI服務——搜尋、日程規劃、訂票助手,依然還是需要依賴雲端資料與算力。
蘋果也清楚這一點。
所以,他們正悄悄建造超大資料中心,部署Mac晶片做雲端AI推理,還挖來了谷歌TPU團隊的關鍵人物,希望自研AI加速器。
可見,雖然表面強調的是「本地AI」,但他們真正押注的,其實還是雲端。
別家都在卷大模型,但蘋果已經另闢蹊徑,開始為AI時代的「雲大戰」做準備了。
1
超級智慧,靠燒錢能到達?
所以最終,在Meta、谷歌、OpenAI、微軟、特斯拉這些公司中,如果必須選一家來賭誰會率先實現ASI,你會選誰?
Dylan Patel的答案是——OpenAI。
原因在於,他們是每個重大突破的先行者,幾乎主導了每一個關鍵技術突破——從預訓練到推理,再到多模態能力,始終走在最前面。
而且,單靠推理可能並不會帶我們進入下一代AI,最終一定還得有別的東西。OpenAI給人感覺,還在醞釀著更大的技術野心。
而第二名,就是Anthropic。
不過,雖然他們技術強大、團隊深厚,但風格卻太保守了——無論在模型釋出、研究透明度、安全策略上。都是步步為營,小心謹慎。
不過可以看到,現在他們也逐漸放開了,Claude 4的釋出節奏就明顯比Claude 3快很多,招聘也開始招「正常人」了。
而第三名,就是谷歌、Meta 和xAI之爭。
其中,谷歌技術底子雄厚,xAI有馬斯克資源加持,而Meta則是不吝砸巨資挖人。
如今,這場超級智慧之戰才剛剛開始,誰都有可能先到終點。
而這過程中比拼的可不僅僅是技術,而是意志與資源的全面博弈。
參考資料:
https://www.youtube.com/watch?v=cHgCbDWejIs

點個愛心,再走


相關文章