目前對Grok3分析最為透徹的一篇文章

👉 這是一個或許對你有用的社群

🐱 一對一交流/面試小冊/簡歷最佳化/求職解惑，歡迎加入「芋道快速開發平臺」知識星球。下面是星球提供的部分資料：

《專案實戰（影片）》：從書中學，往事上“練”

《網際網路高頻面試題》：面朝簡歷學習，春暖花開

《架構 x 系統設計》：摧枯拉朽，掌控面試高頻場景題

《精進 Java 學習指南》：系統學習，網際網路主流技術棧

《必讀 Java 原始碼專欄》：知其然，知其所以然

👉這是一個或許對你有用的開源專案

國產 Star 破 10w+ 的開源專案，前端包括管理後臺 + 微信小程式，後端支援單體和微服務架構。

功能涵蓋 RBAC 許可權、SaaS 多租戶、資料許可權、商城、支付、工作流、大屏報表、微信公眾號、ERP、CRM、AI 大模型等等功能：

Boot 多模組架構：https://gitee.com/zhijiantianya/ruoyi-vue-pro

Cloud 微服務架構：https://gitee.com/zhijiantianya/yudao-cloud

影片教程：https://doc.iocoder.cn

【國內首批】支援 JDK 17/21 + SpringBoot 3.3、JDK 8/11 + Spring Boot 2.7 雙版本

來源：weibo.com/1064649

941/5135484206713580

看到張俊林老師在微博的一篇文章，可能是目前我看到的對於 Grok 3 分析最為透徹的見解。

媒體風向變化太快，讓人目不暇接。早上還在誇 DeepSeek 成本低，價效比高，預訓練 Scaling Law 死了，不需要太多機器和 GPU 卡，價效比優先，英偉達休矣；中午 Grok 3 一出來，說是用了 10 萬張英偉達 H100 卡，效果力壓 OpenAI o3 mini 和 DeepSeek R1，就轉向說 Scaling Law 還成立，還需要大量的卡，英偉達股價有救了，還是要大力出奇跡……

這兩個觀點明顯對立，有一真必有一假，那事實的真相到底是啥呢？我們來推一推。

預訓練階段的 Scaling Law 是否仍然成立

預訓練階段的 Scaling Law 成立嗎？當然是成立的，所謂 “Scaling Law 撞牆”，大家普遍遇到的問題是資料不夠了，沒有大量新資料，導致預訓練階段的 Scaling Law 走勢趨緩，注意是趨緩但不是停頓，預訓練階段的 Scaling Law 並沒到天花板。

按照 Chinchilla Scaling Law 推斷，即使沒有新資料，也並不意味著模型效果提不上去了，很簡單，只要增加基座模型尺寸，效果仍然會提高，只是從付出的算力和獲得的效果提升來說很不合算，價效比過低，這是為何大家轉到 RL Scaling Law 和 Test Time Scaling Law 的原因，是因為付出同樣的算力，在後面兩個階段大模型智商提升更明顯，就是價效比高。

目前可以提高模型效果的 Scaling 方法，按照價效比由高到低排序的話: Test time Scaling Law> RL Scaling Law>預訓練階段 Scaling Law（資料不夠了，只能推大模型尺寸），有價效比高的 Scaling，當然優先做這種，價效比低的 Scaling，只有在沒有價效比更高的情況下才會採用。這跟購物一個道理，有價效比高的當然不會去買價效比低的商品。

如果哪天 RL Scaling Law 和 Test Time Scaling Law 到了天花板，又沒有找到新的價效比更合算的 Scaling Law，也不是說模型效果就提不上去了，大家仍然可以迴歸預訓練階段的 Scaling Law，沒有新資料也沒關係，推大模型尺寸規模就可以，效果仍然會上升。但這基本是最後的選擇，沒辦法的辦法，只要有價效比高的方法就不會走這條路。

有人問了：那按照你的意思，囤那麼多 GPU 算力，其實對訓最好的模型也沒啥用？要是按照上面的理論，那確實是沒有太大必要，比如 DeepSeek 2000 卡也可以作出最好的模型不是。

但是卡多有個好處，就是能壓縮實驗新想法和訓練大模型基座的時間週期。比如你總得探索一些不同的演算法、引數或資料配比的模型進行各種實驗，你有 10 個新想法，如果只有 2000 張卡，可能得跑 5 天才能得出結論，要是有幾萬張卡，可能 1 天就能得出結論，所以卡多對於探索效率是有極大幫助的。卡多創新多，這點肯定成立。

基於 Spring Boot + MyBatis Plus + Vue & Element 實現的後臺管理系統 + 使用者小程式，支援 RBAC 動態許可權、多租戶、資料許可權、工作流、三方登入、支付、簡訊、商城等功能

專案地址：https://github.com/YunaiV/ruoyi-vue-pro

影片教程：https://doc.iocoder.cn/video/

Grok 3 基座模型（對標 DeepSeek V3，非 R1 這種邏輯推理模型）

為何 Grok 3 作為通用基座模型，它的評測指標只有數學、科學和程式碼資料集？沒有通用能力比如最常用的 MMLU 指標的對比，這是不太規範的對比模式。推斷可能 Grok 3 的通用能力相對 OpenAI 和 DeepSeek 的模型沒有大幅提升，所以不拿出來比？

如果想要提升基座模型的數學、科學和程式碼能力，無論從方法還是從成本角度來講，難度並不大，目前比較標準的做法是類似 DeepSeek V3從 DeepSeek R1蒸餾數學、程式碼等邏輯題的長 COT 資料，即深度思考過程資料。

就是說把深度思考長 COT 資料引入基座的 Post-Training 階段、甚至前置到預訓練階段（所謂大模型 “左腳（DeepSeek 基座）踩右腳（DeepSeek R1）自我飛昇” 的模式），這樣就能大幅提升基座模型在數學和程式碼方面相關的能力，也就是 Grok 3 宣傳具備的 “有思維鏈推理和自我糾錯機制”，評測指標看著會比較好看，而且蒸餾的資料總量也不會太大（幾百 B 級別應該夠了），成本很低，對算力要求不高。

OpenAI 很快會發布的非邏輯推理模型 GPT 4.5 ，大概也應是類似的思路，從 o3 模型蒸餾 COT 資料，用深度思考資料來提升 GPT 4.5 基座模型的智商，大模型 “左腳踩右腳自我飛昇” 大法，這會是之後基座模型提升能力的主要手段。

Grok 3 的算力消耗是 Grok 2 的 10 倍，如果遵照 Chinchilla Scaling Law，最佳做法是 Grok 3 的訓練資料量比 Grok 2 增加 3 倍，模型大小同時比 Grok 2 增加 3 倍（但是目前的趨勢是減小模型大小，增大資料量[就是說“小模型大資料”的模式]，儘管這樣不滿足訓練最優原則，但因為模型尺寸小了，所以這種模型更適合線上推理服務，降低服務成本）。

如果像釋出會宣稱的，Grok 3 耗費算力是 Grok 2 的 10 倍訊息為真的話，那有兩種可能。

一種是資料量增長極大，這樣只能是增加了大量多模態資料，比如資料量從 10 T 增長到 30 T（目前文字模型使用的資料量，最多到 18 T 到 20 T 之間，基本到頂，再多沒有了，要大幅增加只能加多模態資料，但是增加多模態資料對提升大模型智商幫助不大，所以這個增量按理說不應該太大），如果這樣推算，Grok3的模型規模增長 3 倍左右。

第二種可能是訓練資料量比 20 T 增加的不多，如果這樣可以推出 Grok 3 模型尺寸比 Grok 2 要大很多，至少 4 到 5 倍起步（若新增資料不多，那隻能靠增加模型尺寸來消耗新增算力）。不論是哪種可能，Grok 3 的模型大小肯定比 Grok 2 大了很多，而 Grok 2 模型本身可能就不小（Grok 2 釋出網頁評測效果超過 Llama 3.1 405 B，所以無論資料還是模型大小，都不會太小，要是 Dense 模型， 70B 是最小的估計了），所以 Grok 3 的尺寸規模很可能不是一般的大（感覺在 200B 到 500B 之間）。

很明顯，Grok 3 仍然在採取推大基座模型尺寸的 “傳統” 做法，也就是上面 “Scaling Law” 部分分析的預訓練階段增大模型尺寸的方法來提升基座模型能力，上面分析過，這種做法是價效比很低的。比較時髦的做法是把訓練重心放在 RL Scaling 方面，價效比會高太多。但是為啥他要做這種賠本買賣呢？在後面會給出一個可能的解釋。

基於 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 實現的後臺管理系統 + 使用者小程式，支援 RBAC 動態許可權、多租戶、資料許可權、工作流、三方登入、支付、簡訊、商城等功能

專案地址：https://github.com/YunaiV/yudao-cloud

影片教程：https://doc.iocoder.cn/video/

Grok 3 邏輯推理版本（深度思考版本，對標 DeepSeek R1）

Grok 3 的深度思考版本，不說體驗，單從評測指標看，達到或者超過了 o3 mini，確實是目前效果最好的，或者說最好的之一沒有什麼問題。

說回上面提到的問題，為啥明知靠推大預訓練階段模型尺寸規模價效比低，Grok 3 還要用這種模式呢？很可能內在的原因在於（推斷無證據）：Post-Training 階段採取 RL Scaling，其效果可能跟基座模型的大小是有正相關關係的。

就是說，同樣的 RL 階段的算力消耗，如果基座模型尺寸更大，則 RL 階段的 Scaling 效果越好。只有這樣，才有在預訓練階段儘量把模型規模推大的必要性。而我們可以假設，Grok 3 之所以採取這種過於耗費算力，看著價效比不高的方式，是希望透過加大基座，把深度思考版本的能力明顯提起來。

貌似 DeepSeek R1 效果很好又開源，獲得一片好評，但大家想要實際用起來，會發現基座太大，部署難度和消耗資源太高，對下游應用不太友好。那為啥 DeepSeek 非得推這種對下游應用來說明顯過大的模型呢？（小點的蒸餾模型看著指標很好，但是實際應用效果貌似差不少），是否也是因為基座模型如果不夠大，深度思考模型效果就沒那麼好的原因？

如果上述假設成立，那意味著：三個 Scaling Law（Pre-train、RL 、Test Time），從提高大模型智商的價效比來說，由高到低是：Test Time > RL > Pre-Train，這個是之前的結論。但如果上述假設成立，說明 Test Time Scaling 的天花板最低，它的天花板依賴於 RL 階段的 Scaling 能力，而 RL 階段 Scaling 天花板次低，它的天花板依賴於預訓練階段 Pre-Train 的 Scaling？

如果這樣，如果有一天當 RL 和 Test Time 天花板到頂，意味著我們可以再啟動一輪，去推大基座模型的模型尺寸，RL 階段 Scaling 的天花板隨之升高，然後可以再去 Scale RL 和 Test Time，就進一步得到智商更高的大模型。如果這成立，那意味著 AGI 的解決方案已經完整了？其實不需要新的 Scaling Law 存在就夠？

上述推論，是在一個前提成立的條件下推出來的，這個前提是：Grok 3 耗費這麼大算力推大模型規模，這是個深思熟慮或小規模實驗的結果，而不是僅僅受到之前老觀念（預訓練階段算力越高效果越好）影響下的決策。如果這個前提不成立，則上述推論不成立。總之，一切責任在馬斯克，Over。

歡迎加入我的知識星球，全面提升技術能力。

👉 加入方式，“長按”或“掃描”下方二維碼噢：