這是一個或許對你有用的社群
《專案實戰(影片)》:從書中學,往事上“練” 《網際網路高頻面試題》:面朝簡歷學習,春暖花開 《架構 x 系統設計》:摧枯拉朽,掌控面試高頻場景題 《精進 Java 學習指南》:系統學習,網際網路主流技術棧 《必讀 Java 原始碼專欄》:知其然,知其所以然
這是一個或許對你有用的開源專案
國產 Star 破 10w+ 的開源專案,前端包括管理後臺 + 微信小程式,後端支援單體和微服務架構。功能涵蓋 RBAC 許可權、SaaS 多租戶、資料許可權、商城、支付、工作流、大屏報表、微信公眾號、ERP、CRM、AI 大模型等等功能:
Boot 多模組架構:https://gitee.com/zhijiantianya/ruoyi-vue-pro Cloud 微服務架構:https://gitee.com/zhijiantianya/yudao-cloud 影片教程:https://doc.iocoder.cn 【國內首批】支援 JDK 17/21 + SpringBoot 3.3、JDK 8/11 + Spring Boot 2.7 雙版本
-
預訓練階段的 Scaling Law 是否仍然成立 -
Grok 3 基座模型(對標 DeepSeek V3,非 R1 這種邏輯推理模型) -
Grok 3 邏輯推理版本(深度思考版本,對標 DeepSeek R1)
看到張俊林老師在微博的一篇文章,可能是目前我看到的對於 Grok 3 分析最為透徹的見解。
媒體風向變化太快,讓人目不暇接。早上還在誇 DeepSeek 成本低,價效比高,預訓練 Scaling Law 死了,不需要太多機器和 GPU 卡,價效比優先,英偉達休矣;中午 Grok 3 一出來,說是用了 10 萬張英偉達 H100 卡,效果力壓 OpenAI o3 mini 和 DeepSeek R1,就轉向說 Scaling Law 還成立,還需要大量的卡,英偉達股價有救了,還是要大力出奇跡……
這兩個觀點明顯對立,有一真必有一假,那事實的真相到底是啥呢?我們來推一推。

預訓練階段的 Scaling Law 是否仍然成立
預訓練階段的 Scaling Law 成立嗎?當然是成立的,所謂 “Scaling Law 撞牆”,大家普遍遇到的問題是資料不夠了,沒有大量新資料,導致預訓練階段的 Scaling Law 走勢趨緩,注意是趨緩但不是停頓,預訓練階段的 Scaling Law 並沒到天花板。
按照 Chinchilla Scaling Law 推斷,即使沒有新資料,也並不意味著模型效果提不上去了,很簡單,只要增加基座模型尺寸,效果仍然會提高,只是從付出的算力和獲得的效果提升來說很不合算,價效比過低,這是為何大家轉到 RL Scaling Law 和 Test Time Scaling Law 的原因,是因為付出同樣的算力,在後面兩個階段大模型智商提升更明顯,就是價效比高。
目前可以提高模型效果的 Scaling 方法,按照價效比由高到低排序的話: Test time Scaling Law> RL Scaling Law>預訓練階段 Scaling Law(資料不夠了,只能推大模型尺寸),有價效比高的 Scaling,當然優先做這種,價效比低的 Scaling,只有在沒有價效比更高的情況下才會採用。這跟購物一個道理,有價效比高的當然不會去買價效比低的商品。
如果哪天 RL Scaling Law 和 Test Time Scaling Law 到了天花板,又沒有找到新的價效比更合算的 Scaling Law,也不是說模型效果就提不上去了,大家仍然可以迴歸預訓練階段的 Scaling Law,沒有新資料也沒關係,推大模型尺寸規模就可以,效果仍然會上升。但這基本是最後的選擇,沒辦法的辦法,只要有價效比高的方法就不會走這條路。
有人問了:那按照你的意思,囤那麼多 GPU 算力,其實對訓最好的模型也沒啥用?要是按照上面的理論,那確實是沒有太大必要,比如 DeepSeek 2000 卡也可以作出最好的模型不是。
但是卡多有個好處,就是能壓縮實驗新想法和訓練大模型基座的時間週期。比如你總得探索一些不同的演算法、引數或資料配比的模型進行各種實驗,你有 10 個新想法,如果只有 2000 張卡,可能得跑 5 天才能得出結論,要是有幾萬張卡,可能 1 天就能得出結論,所以卡多對於探索效率是有極大幫助的。卡多創新多,這點肯定成立。
基於 Spring Boot + MyBatis Plus + Vue & Element 實現的後臺管理系統 + 使用者小程式,支援 RBAC 動態許可權、多租戶、資料許可權、工作流、三方登入、支付、簡訊、商城等功能
專案地址:https://github.com/YunaiV/ruoyi-vue-pro 影片教程:https://doc.iocoder.cn/video/
Grok 3 基座模型(對標 DeepSeek V3,非 R1 這種邏輯推理模型)
為何 Grok 3 作為通用基座模型,它的評測指標只有數學、科學和程式碼資料集?沒有通用能力比如最常用的 MMLU 指標的對比,這是不太規範的對比模式。推斷可能 Grok 3 的通用能力相對 OpenAI 和 DeepSeek 的模型沒有大幅提升,所以不拿出來比?
如果想要提升基座模型的數學、科學和程式碼能力,無論從方法還是從成本角度來講,難度並不大,目前比較標準的做法是類似 DeepSeek V3從 DeepSeek R1蒸餾數學、程式碼等邏輯題的長 COT 資料,即深度思考過程資料。
就是說把深度思考長 COT 資料引入基座的 Post-Training 階段、甚至前置到預訓練階段(所謂大模型 “左腳(DeepSeek 基座)踩右腳(DeepSeek R1)自我飛昇” 的模式),這樣就能大幅提升基座模型在數學和程式碼方面相關的能力,也就是 Grok 3 宣傳具備的 “有思維鏈推理和自我糾錯機制”,評測指標看著會比較好看,而且蒸餾的資料總量也不會太大(幾百 B 級別應該夠了),成本很低,對算力要求不高。
OpenAI 很快會發布的非邏輯推理模型 GPT 4.5 ,大概也應是類似的思路,從 o3 模型蒸餾 COT 資料,用深度思考資料來提升 GPT 4.5 基座模型的智商,大模型 “左腳踩右腳自我飛昇” 大法,這會是之後基座模型提升能力的主要手段。
Grok 3 的算力消耗是 Grok 2 的 10 倍,如果遵照 Chinchilla Scaling Law,最佳做法是 Grok 3 的訓練資料量比 Grok 2 增加 3 倍,模型大小同時比 Grok 2 增加 3 倍(但是目前的趨勢是減小模型大小,增大資料量[就是說“小模型大資料”的模式],儘管這樣不滿足訓練最優原則,但因為模型尺寸小了,所以這種模型更適合線上推理服務,降低服務成本)。
如果像釋出會宣稱的,Grok 3 耗費算力是 Grok 2 的 10 倍訊息為真的話,那有兩種可能。
一種是資料量增長極大,這樣只能是增加了大量多模態資料,比如資料量從 10 T 增長到 30 T(目前文字模型使用的資料量,最多到 18 T 到 20 T 之間,基本到頂,再多沒有了,要大幅增加只能加多模態資料,但是增加多模態資料對提升大模型智商幫助不大,所以這個增量按理說不應該太大),如果這樣推算,Grok3的模型規模增長 3 倍左右。
第二種可能是訓練資料量比 20 T 增加的不多,如果這樣可以推出 Grok 3 模型尺寸比 Grok 2 要大很多,至少 4 到 5 倍起步(若新增資料不多,那隻能靠增加模型尺寸來消耗新增算力)。不論是哪種可能,Grok 3 的模型大小肯定比 Grok 2 大了很多,而 Grok 2 模型本身可能就不小(Grok 2 釋出網頁評測效果超過 Llama 3.1 405 B,所以無論資料還是模型大小,都不會太小,要是 Dense 模型, 70B 是最小的估計了),所以 Grok 3 的尺寸規模很可能不是一般的大(感覺在 200B 到 500B 之間)。
很明顯,Grok 3 仍然在採取推大基座模型尺寸的 “傳統” 做法,也就是上面 “Scaling Law” 部分分析的預訓練階段增大模型尺寸的方法來提升基座模型能力,上面分析過,這種做法是價效比很低的。比較時髦的做法是把訓練重心放在 RL Scaling 方面,價效比會高太多。但是為啥他要做這種賠本買賣呢?在後面會給出一個可能的解釋。
基於 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 實現的後臺管理系統 + 使用者小程式,支援 RBAC 動態許可權、多租戶、資料許可權、工作流、三方登入、支付、簡訊、商城等功能
專案地址:https://github.com/YunaiV/yudao-cloud 影片教程:https://doc.iocoder.cn/video/
Grok 3 邏輯推理版本(深度思考版本,對標 DeepSeek R1)
Grok 3 的深度思考版本,不說體驗,單從評測指標看,達到或者超過了 o3 mini,確實是目前效果最好的,或者說最好的之一沒有什麼問題。
說回上面提到的問題,為啥明知靠推大預訓練階段模型尺寸規模價效比低,Grok 3 還要用這種模式呢?很可能內在的原因在於(推斷無證據):Post-Training 階段採取 RL Scaling,其效果可能跟基座模型的大小是有正相關關係的。
就是說,同樣的 RL 階段的算力消耗,如果基座模型尺寸更大,則 RL 階段的 Scaling 效果越好。只有這樣,才有在預訓練階段儘量把模型規模推大的必要性。而我們可以假設,Grok 3 之所以採取這種過於耗費算力,看著價效比不高的方式,是希望透過加大基座,把深度思考版本的能力明顯提起來。
貌似 DeepSeek R1 效果很好又開源,獲得一片好評,但大家想要實際用起來,會發現基座太大,部署難度和消耗資源太高,對下游應用不太友好。那為啥 DeepSeek 非得推這種對下游應用來說明顯過大的模型呢?(小點的蒸餾模型看著指標很好,但是實際應用效果貌似差不少),是否也是因為基座模型如果不夠大,深度思考模型效果就沒那麼好的原因?
如果上述假設成立,那意味著:三個 Scaling Law(Pre-train、RL 、Test Time),從提高大模型智商的價效比來說,由高到低是:Test Time > RL > Pre-Train,這個是之前的結論。但如果上述假設成立,說明 Test Time Scaling 的天花板最低,它的天花板依賴於 RL 階段的 Scaling 能力,而 RL 階段 Scaling 天花板次低,它的天花板依賴於預訓練階段 Pre-Train 的 Scaling?
如果這樣,如果有一天當 RL 和 Test Time 天花板到頂,意味著我們可以再啟動一輪,去推大基座模型的模型尺寸,RL 階段 Scaling 的天花板隨之升高,然後可以再去 Scale RL 和 Test Time,就進一步得到智商更高的大模型。如果這成立,那意味著 AGI 的解決方案已經完整了?其實不需要新的 Scaling Law 存在就夠?
上述推論,是在一個前提成立的條件下推出來的,這個前提是:Grok 3 耗費這麼大算力推大模型規模,這是個深思熟慮或小規模實驗的結果,而不是僅僅受到之前老觀念(預訓練階段算力越高效果越好)影響下的決策。如果這個前提不成立,則上述推論不成立。總之,一切責任在馬斯克,Over。
歡迎加入我的知識星球,全面提升技術能力。

星球的內容包括:專案實戰、面試招聘、原始碼解析、學習路線。





文章有幫助的話,在看,轉發吧。
謝謝支援喲 (*^__^*)