

本文來自“大模型硝煙再起:DeepSeek、通義千問、Google、OpenAI先後迎來更新”,所有資料都已上傳至“智慧計算芯知識”星球。如“《60+份AI Agent技術報告合集》”,“《清華大學:DeepSeek報告13部曲合集》”,“浙江大學:DeepSeek技術14篇(合集)”,“《275+份DeepSeek技術報告合集》”,“《100+份AI晶片技術修煉合集》”,“800+份重磅ChatGPT專業報告”,“《12+份Manus技術報告合集》”,加入星球獲取嚴選精華技術報告。
1、DeepSeek-V3 模型更新,各項能力全面進階
本文來自“大模型硝煙再起,DeepSeek、通義千問、Google、OpenAI先後迎來更新”,據 DeepSeek 官微,3 月 25 日,DeepSeek V3 模型已完成小版本升級,目前版本號 DeepSeek-V3-0324,DeepSeek-V3-0324 與之前的DeepSeek-V3 使用同樣的 base 模型,僅改進了後訓練方法。私有化部署時只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相關變動)。模型引數約 660B,開源版本上下文長度為 128K(網頁端、App 和 API 提供 64K 上下文)。
進階能力包括:推理任務表現提高、前端開發能力增強、中文寫作升級、中文搜尋能力最佳化,此外,新版 V3 模型在工具呼叫、角色扮演、問答閒聊等方面也得到了一定幅度的能力提升。

推理任務方面,新版 V3 模型借鑑 DeepSeek-R1 模型訓練過程中所使用的強化學習技術,大幅提高了在推理類任務上的表現水平,在數學、程式碼類相關評測集上取得了超過 GPT-4.5 的得分成績。前端開發方面,在 HTML 等程式碼前端任務上,新版 V3 模型生成的程式碼可用性更高,視覺效果也更加美觀、富有設計感。中文寫作方面,新版 V3 模型基於 R1 的寫作水平進行了進一步最佳化,同時特別提升了中長篇文字創作的內容質量。中文搜尋方面,新版 V3 模型可以在聯網搜尋場景下,對於報告生成類指令輸出內容更為詳實準確、排版更加清晰美觀的結果。
2、通義千問 Qwen2.5-Omni-7B 正式開源,展現全模態優異效能
據阿里雲開發者官微,3 月 27 日,通義千問 Qwen2.5-Omni-7B 正式開源。作為通義系列模型中首個端到端全模態大模型,可同時處理文字、影像、音訊和影片等多種輸入,並即時生成文字與自然語音合成輸出。Qwen2.5-Omni 以接近人類的多感官方式「立體」認知世界並與之即時互動,還能透過音影片識別情緒,在複雜任務中進行更智慧、更自然的反饋與決策。目前,開發者和企業可免費下載商用Qwen2.5-Omni,手機等終端智慧硬體也可輕鬆部署執行。

Qwen2.5-Omni 採用了通義團隊全新首創的 Thinker-Talker 雙核架構、Position Embedding (位置嵌入)融合音影片技術、位置編碼演算法 TMRoPE(Time-aligned Multimodal RoPE)。雙核架構 Thinker-Talker 讓 Qwen2.5-Omni 擁有了人類的“大腦”和“發聲器”,形成了端到端的統一模型架構,實現了即時語義理解與語音生成的高效協同。具體而言,Qwen2.5-Omni 支援文字、影像、音訊和影片等多種輸入形式,可同時感知所有模態輸入,並以流式處理方式即時生成文字與自然語音響應。
相較於動輒數千億引數的閉源大模型,Qwen2.5-Omni 以 7B 的小尺寸讓全模態大模型在產業上的廣泛應用成為可能。即便在手機上,也能輕鬆部署和應用Qwen2.5-Omni 模型。當前,Qwen2.5-Omni 已在魔搭社群和 Hugging Face 同步開源,使用者也可在 Qwen Chat 上直接體驗。
3、谷歌釋出“最先進複雜任務模型”Gemini 2.5 Pro,支援原生多模態
據量子位,3 月 26 日,趕在 OpenAI 直播之前,谷歌釋出 Gemini 2.5 Pro。谷歌介紹,相較於 Gemini 2.0 Flash Thinking 這個谷歌首個推理模型,Gemini 2.5 在基礎模型和後訓練技術上都有改進。不僅是在大模型競技場上一舉拿下高分,在各種推理、數學、科學、程式設計基準上,Gemini 2.5 Pro 都表現出色,屬於是程式設計能跟 Claude 3.7 Sonnet 掰手腕,數學能跟 Grok 3 相媲美。

Gemini 2.5 Pro 的上下文視窗是 1M tokens,並且支援原生多模態:可以理解龐大資料集並處理來自不同資訊源的複雜問題,包括文字、音訊、影像、影片,甚至是整個程式碼庫。目前,Gemini 2.5 Pro 已經面向 Gemini Advanced 付費使用者開放,開發人員也可以在 Google AI Studio 中試用。谷歌表示,未來幾周內還將在 Vertex AI 上推出該模型。
4、OpenAI 放出 GPT-4o 原生多模態影像生成功能
據 InfoQ,3 月 26 日,OpenAI 釋出了 GPT-4o image generation,影像生成技術模型。此初始版本僅專注於影像建立,並將在 ChatGPT Plus、Pro、Team 和 Free 訂閱層中提供。值得注意的是價格,OpenAI 聲稱與 GPT-4 Turbo 相比,價格降低了50%。更直觀的對比是, GPT-4o 成本恰好是 10 倍 GPT-3.5;4o 是 5 美元 / 百萬輸入 token 和 15 美元 / 百萬輸出 token。3.5 是 0.50 美元 / 百萬輸入 token和 1.50 美元 / 百萬輸出 token。價格下降尤其引人注目,因為 OpenAI 承諾也將向免費 ChatGPT 使用者提供該模型——這是他們第一次直接向非付費客戶提供“最佳”模型。
OpenAI 研究負責人 Gabriel Goh 在接受媒體採訪時表示:“該模型比以前的模型有了很大的改進”,並補充說,團隊使用了 GPT-4o“全模態”——一種可以生成任何型別資料(如文字、影像、音訊和影片)的模型——作為該功能的基礎。據 OpenAI 官方說明,GPT-4o 在多個方面相較於過去的模型進行了改進:
1)更好的文字整合:與過去那些難以生成清晰、恰當位置文字的 AI 模型不同,GPT-4o現在可以準確地將文字嵌入影像中;
2)增強的上下文理解:GPT-4o 透過利用聊天曆史,允許使用者在互動中不斷細化影像;
3)改進的多物件繫結:過去的模型在正確定位場景中的多個不同物體時存在困難,而 GPT-4o 現在可以一次處理多達 10 至20 個物體;4)多樣化風格適應:該模型可以生成或將影像轉化為多種風格,支援從手繪草圖到高畫質寫實風格的轉換。
作為 ChatGPT 中的預設影像生成工具,4o 影像生成功能從即日起開始向 Plus、Pro、Team 及 Free 使用者全面開放。Enterprise 及 Edu 訪問許可權將後續開放。Sora 也可享受到此次功能升級。對於希望繼續使用 DALL-E 的使用者來說,則可透過專門的DALL-E GPT 訪問這項新功能。開發人員很快就能透過 API 使用 GPT-4o 生成影像功能,訪問許可權將在未來幾周內開放。OpenAI 表示,整個影像建立與自定義過程,就像與 GT-4o 聊天一樣簡單——只需描述你的需求,包含畫面比例、使用十六進位制程式碼的精確色彩或透明背景等細節即可。由於此模型能夠生成涉及更多細節的影像,因此渲染時間可能更長,最多可能達到 1 分鐘。



溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

