
社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
媒體風向變化太快,讓人目不暇接。早上還在誇Deepseek成本低,價效比高,預訓練Scaling Law死了,不需要太多機器和GPU卡,價效比優先,英偉達休矣;中午Grok 3一出來,說是用了10萬張英偉達H100卡,效果力壓OpenAI o3 mini和Deepseek R1,就轉向說Scaling law還成立,還需要大量的卡,英偉達股價有救了,還是要大力出奇跡……
這兩個觀點明顯對立,有一真必有一假,那事實的真相到底是啥呢?我們來推一推。
預訓練階段的Scaling Law是否仍然成立
-
預訓練階段的Scaling Law成立嗎?當然是成立的,所謂“Scaling Law撞牆”,大家普遍遇到的問題是資料不夠了,沒有大量新資料,導致預訓練階段的Scaling Law走勢趨緩,注意是趨緩但不是停頓,預訓練階段的Scaling Law並沒到天花板。按照Chinchilla Scaling Law推斷,即使沒有新資料,也並不意味著模型效果提不上去了,很簡單,只要增加基座模型尺寸,效果仍然會提高,只是從付出的算力和獲得的效果提升來說很不合算,價效比過低,這是為何大家轉到RL Scaling Law和Test Time Scaling Law的原因,是因為付出同樣的算力,在後面兩個階段大模型智商提升更明顯,就是價效比高。
-
目前可以提高模型效果的Scaling方法,按照價效比由高到低排序的話: Test time Scaling Law> RL Scaling Law>預訓練階段Scaling Law(資料不夠了,只能推大模型尺寸),有價效比高的Scaling,當然優先做這種,價效比低的Scaling,只有在沒有價效比更高的情況下才會採用。這跟購物一個道理,有價效比高的當然不會去買價效比低的商品。
-
如果哪天RL Scaling Law和Test Time Scaling Law到了天花板,又沒有找到新的價效比更合算的Scaling law,也不是說模型效果就提不上去了,大家仍然可以迴歸預訓練階段的Scaling Law,沒有新資料也沒關係,推大模型尺寸規模就可以,效果仍然會上升。但這基本是最後的選擇,沒辦法的辦法,只要有價效比高的方法就不會走這條路。
-
有人問了:那按照你的意思,囤那麼多GPU算力,其實對訓最好的模型也沒啥用?要是按照上面的理論,那確實是沒有太大必要,比如Deepseek 2000卡也可以作出最好的模型不是。但是卡多有個好處,就是能壓縮實驗新想法和訓練大模型基座的時間週期。比如你總得探索一些不同的演算法、引數或資料配比的模型進行各種實驗,你有10個新想法,如果只有2000張卡,可能得跑5天才能得出結論,要是有幾萬張卡,可能1天就能得出結論,所以卡多對於探索效率是有極大幫助的。卡多創新多,這點肯定成立。
Grok 3基座模型(對標Deepseek V3,非R1這種邏輯推理模型)
-
為何Grok 3作為通用基座模型,它的評測指標只有數學、科學和程式碼資料集?沒有通用能力比如最常用的MMLU指標的對比,這是不太規範的對比模式。推斷可能Grok 3的通用能力相對OpenAI和Deepseek的模型沒有大幅提升,所以不拿出來比?
-
如果想要提升基座模型的數學、科學和程式碼能力,無論從方法還是從成本角度來講,難度並不大,目前比較標準的做法是類似Deepseek V3從Deepseek R1蒸餾數學、程式碼等邏輯題的長COT資料,即深度思考過程資料,就是說把深度思考長COT資料引入基座的Post-Training階段、甚至前置到預訓練階段(所謂大模型“左腳(Deepseek基座)踩右腳(Deepseek R1)自我飛昇”的模式),這樣就能大幅提升基座模型在數學和程式碼方面相關的能力,也就是Grok3宣傳具備的“有思維鏈推理和自我糾錯機制”,評測指標看著會比較好看,而且蒸餾的資料總量也不會太大(幾百B級別應該夠了),成本很低,對算力要求不高。
-
OpenAI 很快會發布的非邏輯推理模型GPT 4.5,大概也應是類似的思路,從o3模型蒸餾COT資料,用深度思考資料來提升GPT 4.5基座模型的智商,大模型“左腳踩右腳自我飛昇”大法,這會是之後基座模型提升能力的主要手段。
-
Grok 3的算力消耗是Grok 2的10倍,如果遵照Chinchilla Scaling Law,最佳做法是Grok 3的訓練資料量比Grok 2增加3倍,模型大小同時比Grok 2增加3倍(但是目前的趨勢是減小模型大小,增大資料量[就是說“小模型大資料”的模式],儘管這樣不滿足訓練最優原則,但因為模型尺寸小了,所以這種模型更適合線上推理服務,降低服務成本)。
-
如果像釋出會宣稱的,Grok 3耗費算力是Grok 2的10倍訊息為真的話,那有兩種可能。一種是資料量增長極大,這樣只能是增加了大量多模態資料,比如資料量從10T增長到30T(目前文字模型使用的資料量,最多到18T到20T之間,基本到頂,再多沒有了,要大幅增加只能加多模態資料,但是增加多模態資料對提升大模型智商幫助不大,所以這個增量按理說不應該太大),如果這樣推算,Grok3的模型規模增長3倍左右;第二種可能是訓練資料量比20T增加的不多,如果這樣可以推出Grok3模型尺寸比Grok 2要大很多,至少4到5倍起步(若新增資料不多,那隻能靠增加模型尺寸來消耗新增算力)。不論是哪種可能,Grok 3的模型大小肯定比Grok 2大了很多,而Grok 2模型本身可能就不小(Grok 2釋出網頁評測效果超過Llama 3.1 405B,所以無論資料還是模型大小,都不會太小,要是Dense模型, 70B是最小的估計了),所以Grok 3的尺寸規模很可能不是一般的大(感覺在200B到500B之間)。
-
很明顯,Grok 3仍然在採取推大基座模型尺寸的“傳統”做法,也就是上面“Scaling Law”部分分析的預訓練階段增大模型尺寸的方法來提升基座模型能力,上面分析過,這種做法是價效比很低的。比較時髦的做法是把訓練重心放在RL Scaling方面,價效比會高太多。但是為啥他要做這種賠本買賣呢?在後面會給出一個可能的解釋。
Grok 3邏輯推理版本(深度思考版本,對標Deepseek R1)
-
Grok 3的深度思考版本,不說體驗,單從評測指標看,達到或者超過了o3 mini,確實是目前效果最好的,或者說最好的之一沒有什麼問題。
-
說回上面提到的問題,為啥明知靠推大預訓練階段模型尺寸規模價效比低,Grok 3還要用這種模式呢?很可能內在的原因在於(推斷無證據):Post-Training階段採取RL Scaling,其效果可能跟基座模型的大小是有正相關關係的,就是說,同樣的RL階段的算力消耗,如果基座模型尺寸更大,則RL 階段的Scaling效果越好。只有這樣,才有在預訓練階段儘量把模型規模推大的必要性。而我們可以假設,Grok 3之所以採取這種過於耗費算力,看著價效比不高的方式,是希望透過加大基座,把深度思考版本的能力明顯提起來。
-
貌似Deepseek R1效果很好又開源,獲得一片好評,但大家想要實際用起來,會發現基座太大,部署難度和消耗資源太高,對下游應用不太友好。那為啥Deepseek非得推這種對下游應用來說明顯過大的模型呢?(小點的蒸餾模型看著指標很好,但是實際應用效果貌似差不少),是否也是因為基座模型如果不夠大,深度思考模型效果就沒那麼好的原因?
-
如果上述假設成立,那意味著:三個Scaling Law(Pre-train、RL 、Test Time),從提高大模型智商的價效比來說,由高到低是:Test Time > RL > Pre-Train,這個是之前的結論。但如果上述假設成立,說明Test Time Scaling的天花板最低,它的天花板依賴於RL階段的Scaling能力,而RL階段Scaling天花板次低,它的天花板依賴於預訓練階段Pre-Train的Scaling?如果這樣,如果有一天當RL和Test Time天花板到頂,意味著我們可以再啟動一輪,去推大基座模型的模型尺寸,RL階段Scaling 的天花板隨之升高,然後可以再去Scale RL和Test Time,就進一步得到智商更高的大模型。如果這成立,那意味著AGI的解決方案已經完整了?其實不需要新的Scaling Law存在就夠?
-
上述推論,是在一個前提成立的條件下的推出來的,這個前提是:Grok 3耗費這麼大算力推大模型規模,這是個深思熟慮或小規模實驗的結果,而不是僅僅受到之前老觀念(預訓練階段算力越高效果越好)影響下的決策。如果這個前提不成立,則上述推論不成立。總之,一切責任在馬斯克,Over。
技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
關於我們
