儘管大型語言和推理模型仍然很受歡迎,但企業越來越多地轉向使用較小的模型來執行人工智慧流程,從而減少能源和成本方面的擔憂。
3 月 12 日,谷歌宣佈推出了 Gemma 3 開源 AI 模型,這是基於與 Gemini 2.0 模型相同的研究和技術構建。
谷歌在其官方部落格中表示,Gemma 3 是一組輕量級的模型,開發者可以在手機、筆記型電腦以及工作站這些裝置上直接快速地執行。該模型支援超過 35 種語言,並具備分析文字、影像及短影片的能力。
Gemma 3 有不同的規模可供選擇,分別是 10 億引數(1B)、40 億引數(4B)、120 億引數(12B)和 270 億引數(27B)。開發者可以根據自身裝置的硬體條件以及對效能的要求,選擇適當的模型。
專案地址:https://ollama.com/library/gemma3
谷歌表示,Gemma 3“以其尺寸提供了最先進的效能”,並且優於 Llama-405B、DeepSeek-V3 和 o3-mini 等領先的 LLM。具體來說,Gemma 3 27B 在 Chatbot Arena Elo 分數測試中排名第二,僅次於 DeepSeek-R1。它超過了 DeepSeek 的較小模型、DeepSeek v3、OpenAI 的 o3-mini、Meta 的 Llama-405B 和 Mistral Large。
具體來講,Gemma 3 有哪些新功能?谷歌在部落格中給出瞭如下資訊:
-
構建全球最佳單加速器模型:Gemma 3 在 LMArena 排行榜的初步人類偏好評估中,表現優於 Llama-405B、DeepSeek-V3 和 o3-mini。這幫助使用者建立適合單 GPU 或 TPU 主機的引人入勝的使用者體驗。
-
支援 140 種語言:構建能夠使用客戶語言的應用。Gemma 3 提供超過 35 種語言的開箱即用支援,並對 140 多種語言提供預訓練支援。
-
建立具備高階文字和視覺推理能力的 AI:輕鬆構建能夠分析影像、文字和短影片的應用程式,為互動式和智慧化應用開闢新的可能性。
-
透過擴充套件的上下文視窗處理複雜任務:Gemma 3 提供 128k token 的上下文視窗(相比之下, Gemma 2 的上下文視窗只有 80K),讓應用程式能夠處理和理解大量資訊。
-
使用函式呼叫建立 AI 驅動的工作流:Gemma 3 支援函式呼叫和結構化輸出,幫助使用者自動化任務並構建代理式體驗。
-
透過量化模型實現更快的高效能:Gemma 3 引入了官方量化版本,在保持高精度的同時減少模型大小和計算需求。

該圖表根據 Chatbot Arena Elo 分數對 AI 模型進行排名;分數越高(頂部數字)表示使用者偏好越高。圓點表示預估的 NVIDIA H100 GPU 需求。Gemma 3 27B 排名靠前,儘管其他模型需要多達 32 個 GPU,但它僅需單個 GPU 即可執行。
谷歌聲稱,Gemma 3 是“世界上最好的單加速器模型”,在配備單個 GPU 的主機上的效能表現超越了 Facebook 的 Llama、DeepSeek 和 OpenAI 等競爭對手。具體來說,Gemma 3 27B 在 Chatbot Arena Elo 分數測試中排名第二,僅次於 DeepSeek-R1。它超過了 DeepSeek 的較小模型、DeepSeek v3、OpenAI 的 o3-mini、Meta 的 Llama-405B 和 Mistral Large。
同時,該模型針對英偉達的 GPU 和專用人工智慧硬體進行了最佳化。谷歌還發布了一份長達 26 頁的技術報告,深入闡述了這些效能優勢。
論文地址:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

Gemma 3 與 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等開發者工具整合。使用者還可以透過 Google AI Studio、Hugging Face 或 Kaggle 訪問 Gemma 3。公司和開發者可以透過 AI Studio 請求訪問 Gemma 3 API。
有網友對 Gemma 3 和 Qwen 2.5 進行了基準測試比較,兩者在分數上沒有拉開太大差距,有網友表示,“這是可以接受的,較小的模型具有大致相同的功能。”


Gemma 3 在架構上主要進行了兩方面改進:下文長度擴充套件和預訓練最佳化。
長上下文的挑戰在於推理過程中 KV 快取(KV-cache) 記憶體的爆炸式增長。為緩解這一問題,谷歌採用了 5:1 的區域性 / 全域性層交錯機制,即每 5 層區域性層後接 1 層全域性層,並以區域性層作為模型的第一層開始計算。
Gemma 3 透過增加“區域性注意力層(local attention layers)”相較於全域性注意力層(global attention layers)的比例,並縮短區域性注意力的跨度(僅 1024 個 tokens),減少了長上下文時 KV 快取爆炸問題。

當前,Gemma 3 支援最長 128K tokens 的上下文長度,但 1B 引數模型的上下文長度為 32K tokens。為此,Gemma 3 將全域性自注意力層的 RoPE(旋轉位置編碼)基頻 從 10K 提升至 1M,而區域性層的基頻保持在 10K。
預訓練方面,Gemma 3 採用與 Gemini 2.0 相同的 SentencePiece 分詞器,詞彙表規模為 262K,並針對非英語語言進行了平衡最佳化。
另外,Gemma 3 重新設計了資料混合策略,以提升模型的多語言能力,並融入影像理解能力。
相比 Gemma 2,Gemma 3 增加了訓練 token 量,以容納影像和文字的混合資料:Gemma 3 27B 使用 14 萬億 tokens 進行預訓練;12B 模型使用 12 萬億 tokens;4B 模型使用 4 萬億 tokens;1B 模型使用 2 萬億 tokens。此外,Gemma 3 還大幅增加了多語言資料,包括單語資料和平行語料。
蒸餾機制方面,每個 token 取樣 256 個 logits,並按教師模型的分佈進行加權,學生模型透過交叉熵損失函式學習教師模型樣本上的分佈。教師模型的目標分佈中,未被取樣的 logits 機率被設為零,並重新歸一化。這種高效的蒸餾過程確保了學生模型能夠準確學習教師模型的輸出分佈,同時控制計算成本。
視覺模態方面,Gemma 3 使用 SigLIP 作為影像編碼器,將影像編碼成可由語言模型處理的 token。該視覺編碼器的輸入調整為 896×896 的向量影像。固定輸入解析度處理使得非長寬比和高精度影像變得更加困難。為解決推理過程中的這些限制,影像可以先進行適應性裁剪,然後將每個裁剪區域調整為 896×896 尺寸,再由影像編碼器進行編碼。該演算法被稱為“平移掃描”,它能有效幫助模型聚焦影像中的更小細節。
Gemma 3 中的注意力機制對於文字和影像輸入的處理方式不同。文字使用單向注意力,而影像則採用全域性注意力,沒有遮蔽(mask),允許模型以雙向方式檢視影像的每個部分,從而對視覺輸入進行完整且沒有任何限制的理解。

谷歌表示,當前的 Gemma 3 27B 已經處於帕累托最優點。

Gemma 3 釋出後,迅速在 Hacker News 和 Reddit 等平臺上引發熱議。有的網友看到 Gemma 3 27B 模型在 LLM Arena 上的得分不淡定了,認為 27B 模型就能擊敗 Claude 3.7 Sonnet 讓人難以置信:
“據谷歌部落格,Gemma 3 27B 在 LLM Arena 上的 ELO 為 1338?27B 模型得分高於 Claude 3.7 Sonnet?太瘋狂了。”
有開發者對谷歌的技術創新表示感謝:
“感謝谷歌,我真的很感激。這真是太棒了!作為一名開發人員和產品所有者,我非常願意每週花 6 天時間從事這樣的專案。與 Gemini 相比,從我的角度來看,這些模型是支援 Gemini 的 MoE(混合專家)的基礎模型——也就是說,它們是專家模型的基礎(透過微調實現)。”
該開發者還強調了谷歌需要把這些模型釋出出來的原因在於:
“第一,谷歌自身需求:谷歌需要這些模型來支援其內部的技術開發和實驗;第二,社群評審:透過開放這些模型,谷歌可以讓社群(開發者、研究人員等)參與評審和改進,從而提升模型的質量和可靠性。第三:客戶安全:這些模型可以幫助客戶在安全的環境中使用 AI 技術,例如透過微調模型來適應私有資料集,而不必直接依賴谷歌的雲端服務。 因為可以使用這些模型,基於自己的私人資料集對 Gemini 的效能進行微調。”
在 Hacker News 平臺,有使用者稱自己在家裡經常使用 Gemma 2,因為它仍然表現良好。
“9B 版本在我的 2080Ti 上執行得非常流暢。它的強大效能和整體能力使其非常實用。我期待嘗試 Gemma 3。不過,我有一些可能比較基礎的問題,想請教一下:你們是如何決定模型大小的?這些模型是如何訓練的?是獨立訓練的,還是它們之間存在某種關聯?”
該使用者的提問得到了谷歌 Gemma 團隊成員 alekandreev(Hacker News 使用者 ID)的回覆。alekandreev 表示:
選擇模型大小並不是一門精確的科學。我們主要根據不同的裝置類別(例如低端和高階智慧手機、筆記型電腦、16GB GPU 以及更大的 GPU/TPU)來確定合適的模型尺寸。此外,我們希望模型的寬度與深度(層數)的比例始終保持在 90 左右,因為我們發現這是最佳的比例。 這些模型是透過從更大的教師模型中提煉(蒸餾)來訓練的。對於 Gemma 3,我們獨立訓練了不同規模的模型,但在 v3 中,我們統一了 4B 到 27B 的訓練配方。這樣做的目的是在擴大或縮小模型規模時,為您提供更一致的效能和可預測性。
InfoQ 還留意到,alekandreev 在釋出 Gemma 3 時,還甩出了一則招聘啟事,在招聘啟事中,Gemma 團隊強調應聘者需要具備的技能和經驗包括:構建和維護大型軟體系統、分散式系統、具有 Python 和靜態型別程式語言的經驗(Gemma 主要使用 Python 程式設計)、編寫設計文件和程式碼審查、願意適應研究環境等。

招聘地址:https://boards.greenhouse.io/deepmind/jobs/6590957
自谷歌於 2024 年 2 月首次釋出 Gemma 以來,外界對小型語言模型的興趣與日俱增。其他小型模型(如微軟的 Phi-4 和 Mistral Small 3)的出現表明,企業希望使用與大語言模型一樣強大的模型構建應用程式,但不一定能充分利用大語言模型的全部功能。
與傳統的大模型相比,小模型在特定任務中表現出色,尤其是在資源有限的環境中。企業開始意識到,並非所有應用場景都需要大語言模型的全部功能。例如,在簡單的程式碼編輯器或特定領域的任務中,較小的模型(無論是 SLM 還是透過蒸餾工藝精簡的版本)可以更高效地完成任務,而不會造成資源浪費或過度擬合。
蒸餾工藝作為一種將大型模型的知識轉移到小型模型的技術,正逐漸成為企業最佳化 AI 部署的重要手段。透過蒸餾,企業可以建立更小、更高效的模型版本,同時保留原始模型的效能。然而,值得注意的是,Gemma 並非 Gemini 2.0 的蒸餾版本。Gemma 是基於相同的資料集和架構獨立訓練的,而不是從更大的模型中學習。
組織通常更喜歡將某些用例擬合到模型中。與將 o3-mini 或 Claude 3.7 Sonnet 等 LLM 部署到簡單的程式碼編輯器相比,較小的模型(無論是 SLM 還是精簡版)都可以輕鬆完成這些任務,而不會過度擬合大型模型。
宣告:本文為 AI前線整理,不代表平臺觀點,未經許可禁止轉載。
在 AI 大模型重塑軟體開發的時代,我們如何把握變革?如何突破技術邊界?4 月 10-12 日,QCon 全球軟體開發大會· 北京站 邀你共赴 3 天沉浸式學習,跳出「技術繭房」,探索前沿科技的無限可能。
本次大會將匯聚頂尖技術專家、創新實踐者,共同探討多行業 AI 落地應用,分享一手實踐經驗,深度參與 DeepSeek 主題圓桌,洞見未來趨勢。

今日薦文
