4月AI行業大事記丨神仙打架,Manus之後的新玩家們

AI 行業大事記

2025 年 4 月
聯合出品:
Jomy @ 302.AI
南喬 River @ ShowMeAI
大聰明 @ 賽博禪心

說明:
① 本期月刊收錄 AI 行業大事共 104 件;
② 本文分類中的【模型】均指代語言模型;
③ 本文 Agent、代理、智慧體等詞語的含義相同;
④ 一般產品接入 MCP 不再單獨列出,頭部公司的相關協議和整合平臺會進行介紹;

👀 趨勢觀察

1. 模型
✦ 基礎模型的能力提升已經相對緩慢,各家開始提升其他的指標,例如「1M 上下文」會成為下階段模型的標配;模型價格也會越來越低,例如 GPT-4.1 和 Gemini-2.5-Flash。
✦ 推理模型的訓練,無論是純文字還是多模態,已經沒有太多秘密。接下來,推理模型能力提升將聚焦 Agent 方向,也就是透過連續呼叫工具來完成一個複雜任務,例如 o3 和 o4-mini。
✦ 推理模型和基礎模型融合是一個大趨勢,透過引數來切換推理模式,比切換模型要更加節省資源,例如 Qwen3 。
✦ 可輸出影像的國產全模態模型還未出現。
2. 影像
✦ GPT-Image-1 API 終於釋出,從我的平臺( Jomy,302.AI )資料就可以看到,很多傳統影像模型的份額都被 GPT-Image-1 搶走了。這對傳統的影像模型公司是一次很大的衝擊。
✦ 傳統影像模型,現階段在文字渲染/角色一致性/本地化部署這幾個方面做得更好,更適用於專業商用領域。
3. 影片
✦ 影片生成模型在卷完「可控性」後,開始卷「生成時長」了。可以預見,今年影片模型的單次平均生成時長會突破 10s 大關。
✦ 隨著影片模型的可控性提高,數字人生成也越來越成熟。大家已經不再侷限單純的對口型,開始往生成速度、情緒控制甚至肢體控制的方向繼續發展
4. 音訊
✦ 音訊領域,大家繼續在往更自然更擬人的方向改進。
✦ 方言小語種領域剛剛開始發力。
5. 3D
✦ 和上個月一樣,3D 生成領域穩定發展中,精細度越來越高,效果越來越好。
6. 機器人
✦ 一場機器人馬拉松,讓大眾看到了人形機器人的真實發展情況。大眾對這個行業的預期也迴歸了理性。
7. 應用
✦ 現在 AI 應用的開發,基本上就集中在了 2 個領域:AI 程式設計和 Agent。
✦ AI 程式設計已成為強有力的生產工具,也是短期最被看好的應用方向,所以每個大廠都來摻和一腳。
✦ Agent 領域出現了一些「類 Manus」應用,例如 Genspark 和釦子空間;也出現了 Agent瀏覽器 這種新型的應用形式,例如 Fellou。
✦ 普通開發者的 Agent 開發浪潮還未開始。各大雲廠商都透過宣傳 MCP 概念先入局,但是現在還缺乏 Agent 開發的最佳正規化。
8. 新聞
✦ 人工智慧已經不再是新興科技,而是國際共識。
✦ AI行業正在從研究導向快速地向應用導向轉變

🧭 時光機

4 月 1 日
| 模型 |國家天文臺 X 阿里巴巴 金烏 國際首個太陽活動研究專用大模型 → 從通用模型到垂直領域的最佳實踐之一 👍
| 音訊 |MiniMax Speech-02 語音模型系列,支援 20 萬字符長文字→ Minimax 默默做了很多事,但宣發一直不是很給力 😅
| 影片 |Luma AI Ray2 模型整合 Camera Motion Concepts 技術,文字指令驅動電影級運鏡→ 鏡頭可控性成為影片模型的新標配 🎥
| 影片 |Higgsfield AI DoP I2V-01-preview 影片生成模型,具有專業運鏡效果→ 一家新興的影片模型公司,影片模板做的非常出色和多樣化 👏
| 應用 |Ai2  CodeScientist 端到端半自動科學發現系統
| 應用 |Amazon Nova Act ,瀏覽器 AI Agent 及開發 SDK
| 融資 |OpenAI 完成 400 億美元新一輪融資,估值達到 3000 億美元 → 老大(OpenAI)和老二(Anthropic)的估值差距越來越大 🤐
| 新聞 | OpenAI Academy 線上資源中心免費上線
4 月 2 日
| 模型 |OpenAI PaperBench基準測試,評估 AI Agent 復現前沿研究的能力(開源)→ Agent 時代需要新的基準測試 🥇
| 音訊 |海天瑞聲 X 清華大學 Dolphin 語音大模型,專為東方語言設計(開源)→ 一個支援方言的語音轉文字模型 🎙
| 影片 |Synchronicity Labs  Lipsync-2 全球首個零樣本唇形同步模型 → sync 主打「影片->影片」對口型,而不是「圖片->影片」對口型 ❗❗❗
| 應用 |Genspark AI Super Agent 通用 AI Agent → 無需邀請碼,任何人都可以註冊使用,這個體驗不錯 😎
| 應用 |Rabbit rabbitOS intern 系統更新 → 又是一個類 Manus 的 Agent 產品 👀
4 月 3 日
| 時間線 | 🧵 中美關稅戰全面升級,完整回顧本月時間線
| 時間線 | 🧵 美國政府限制 NVIDIA H20 晶片出口,黃仁勳訪華商討方案,完整回顧本月時間線 → 中國可以沒有英偉達。但是英偉達不能沒有中國。
4 月 4 日
| 影像 |MidjourneyV7(alpha)影像生成模型,提升理解能力與影像質量 → 實測下來,有進步,但不多 🤦‍♂️
| 影片 |MicrosoftMuse 世界模型家族迎來 WHAMM 模型,可以即時生成 AI 遊戲→ 還是那個問題,遊戲裡能走回頭路嗎 🔙
4 月 5 日
| 應用 |Microsoft Bing 瀏覽器上線 Copilot Search 功能 → Bing 要挑戰一下 Perplexity 👀
4 月 6 日
| 模型 |Meta Llama 4 原生多模態模型系列(開源)→ 相比於月底的 Qwen3,Llama 4 沒有太多革命性的變化。開源之王的寶座已被阿里奪走 👑
4 月 7 日
| 影片 |阿里巴巴 通義 LHM 模型,單照片快速生成可控 3D 數字人(開源)→ 效果還比較粗糙,期待進一步升級 💪
| 新聞 |NVIDIA收購初創公司 Lepton AI(賈揚清) → 看來 Nvidia 想親自下場做 AI 應用層的服務。從賣卡到賣算力 🤙
| 新聞 |Stanford HAI The 2025 AI Index Report
4 月 8 日
| 模型 |階躍星辰 Step-R1-V-Mini 多模態推理模型,影像感知能力優秀
| 音訊 |Amazon Nova Sonic 通用音訊基礎模型,單一框架整合理解和生成能力 → Amazon 模型也全方位覆蓋了 🎊
4 月 9 日
| 模型 |Together AI X Agentica Project DeepCoder-14B 程式設計推理模型,效能卓越(開源)
| 模型 |Jina AI jina-reranker-m0 多模態多語言重排器 → 基於 Qwen2-VL-2B 改造而來
| 應用 |阿里巴巴 阿里雲百鍊上線業界首個全生命週期 MCP 服務 → 只支援將 MCP 用於阿里雲百鍊內部的智慧體,生態比較封閉 📦
| 應用 |騰訊 騰訊雲上線 AI 開發套件,快速搭建 AI Agent 小程式 → 雲廠商都打算入局 Agent 開發生態 👀
| 應用 |Google Google Cloud Next 25 大會,與 Agent 有關的 A2A、SDK、Google Agentspace… → 模型的聲音越來越少,Agent 的聲音越來越多 🔊
| 應用 |Google Firebase Studio 輔助程式設計 IDE,快速構建與部署全棧應用→ 又一個 Vibe Coding 應用,大廠真的什麼都做 🤙
| 應用 |Google Augment Code 輔助程式設計外掛,支援超長上下文→ 大廠真的什麼都做 🤙🤙🤙
| 新聞 | 總理主持召開經濟形勢專家和企業家座談會,稚暉君發言
4 月 10 日
| 模型 |月之暗面 Kimi-VL 與 Kimi-VL-Thinking 輕量級視覺語言模型(開源)→ 為視覺推理模型的發展做了一些貢獻 🎉
| 模型 |商湯 日日新 SenseNova V6 多模態融合大模型體系,支援中長影片深度解析→ 上下文最大隻有 32K,有點跟不上時代了 🤐
| 模型 |字節跳動 Multi-SWE-bench 基準測試,評估大模型多語言程式碼修復泛化能力(開源)→ AI 程式設計領域的基準測試 🥇
4 月 11 日
| 應用 |OpenAI BrowseComp 基準測試,評估 AI Agent 複雜資訊檢索能力(開源)→ 更難的基準測試,可以更好地推動 Agent 的進步 🥇
| 應用 |Google Gemini 模型將支援 MCP 協議 → 不太理解從模型層面支援 MCP 該如何實現,期待 Google 下一步揭曉 👂
4 月 12 日(無)
4 月 13 日
| 模型 |崑崙萬維 Skywork-OR1 推理模型系列,顯著提升數學與程式碼任務效能(開源)→ 最大隻有 32B,明顯是為了本地化部署準備的 🧐
4 月 14 日
| 模型 |字節跳動 Seed-Thinking-v1.5 深度思考模型 → 這個模型就是火山引擎上的 Doubao-1.5-Thinking-Pro 🔍
| 模型 |月之暗面 X Numina Kimina-Prover 數學定理證明模型,Lean 4 形式化數學證明表現出色(開源)→ 巧合的是,月底 Deepseek 也釋出了一個 Prover 模型 🧐
| 模型 |小鵬汽車 小鵬世界基座模型啟動研發 → 自動駕駛企業都在研發自己的世界模型 🚗
| 機器人 |Hugging Face 收購 Pollen Robotics,發售開源人形機器人 Reachy 2→ 看來 Hugging Face 也認為人形機器人會是未來的重要開源方向 🤖
4 月 15 日
| 模型 |智譜GLM-4 和 GLM-Z1 模型系列(開源),啟用全新域名 Z.ai→ 域名看起來就很昂貴 💰
| 模型 |OpenAI GPT-4.1 模型系列,上下文長度突破 1M→ GPT-4.1 系列明顯是一個可生產用的成熟模型。但是,之前的 GPT-4.5 就有些讓人困惑了 🤯
| 模型 |騰訊 X 上海交通大學 DeepMath-103K 數學資料集,面向強化學習和高階推理(開源)→ RL 訓練又有了開箱即用的好資料集 🥳
| 影像 |字節跳動 Seedream 3.0(Mogao)影像生成模型,原生高畫質輸出與商業級文字效果 → 經測試,中文輸出能力又有了提升,實用性再次增強 👍
| 影片 |可靈 正式邁入 2.0 時代!可靈 2.0(大師版)&& 可圖 2.0 模型 → 可靈 2.0 比最初的 1.0 貴了 10 倍,各位覺得值得嗎 ❓
| 應用 |阿里巴巴魔搭上線 MCP 廣場,打造最大中文 MCP 服務中心 → 比百鍊更開放的平臺,支援第三方客戶端接入。可惜現階段還無法自己新增 MCP Server 💪
| 新聞 |小紅書 獨立開發者大賽 2025 頒獎
4 月 16 日
| 模型 |上海人工智慧實驗室 InternVL3(書生·永珍3.0)多模態大語言模型系列(開源)
| 應用 |OpenAI Codex CLI 本地命令列智慧程式設計工具,整合最新推理模型(開源)→ 對標 Claude Code 📍
| 應用 |JetBrainsJunie Agent 程式設計助手深度整合到 IDE→ AI 程式設計會成為所有 IDE 的標配 🧐
4 月 17 日
| 模型 |OpenAI o3 和 o4-mini 視覺推理模型,o 系列旗艦模型 → 經測試,這兩個模型工具呼叫能力有了非常大的進步,利好 Agent 的開發 🥳
| 模型 |字節跳動 豆包1.5 · 深度思考模型上線
| 模型 |Microsoft BitNet b1.58 語言模型,低精度架構提升計算效率(開源)→ 如果這條路線可行的話,可能以後,電冰箱裡都會裝載一個小模型 😎
| 模型 |理想汽車MindGPT 3.0 深度思考能力媲美 DeepSeek
| 影片 |阿里巴巴 通義萬相 Wan2.1-FLF2V-14B 首尾幀生影片模型(開源)→ 阿里真的很認真地在做開源 👏
| 應用 |字節跳動 UI-TARS-1.5 多模態智慧體,增強高階推理能力(開源)→ 這個模型的原理類似 Claude 的 Computer-Use,透過滑鼠和鍵盤指令來操作電腦 🖥
| 應用 |騰訊微信上線「元寶」AI 助手,提供智慧問答服務 → 這麼多天過去了,大家還有在用嗎?👀
4 月 18 日
| 模型 |Google Gemini 2.5 Flash 全混合推理模型 → 新的價效比之王 🥳
| 模型 |Google Gemma 3 量化感知訓練(QAT)新版本系列,本地 GPU 執行
| 影像 |騰訊 InstantCharacter 定製化影像生成外掛,角色一致性能力優秀(開源)→ 角色一致性是多模態模型生圖(例如 4o)的一大短板 🙅‍♂️
| 影片 |Stanford(Lvmin Zhang) FramePack 逐幀影片生成框架(開源)→ FramePack 的核心思想應該很快會被各大模型公司借鑑 🧐
| 應用 |Krea AI上線 3D 創作功能 && 完成 4700 萬美元 B 輪融資 → Krea 在 UX 上做得一直非常出色 👏
| 應用 |xAIGrok 本月 Grok Studio、個性化響應、workspace 等多項更新 → OpenAI 和 Claude 有的功能,Grok 都會立即跟上 👀
| 新聞 |智譜完成北京市人工智慧產業投資基金追加投資,Z 基金出資 3 億支援全球開源社群
4 月 19 日
| 機器人 | 2025 北京亦莊半程馬拉松暨人形機器人半程馬拉松,天工機器人奪冠 → 第一次讓大眾看到了現階段人形機器人的真實發展情況 🤦‍♂️
| 應用 |字節跳動Coze Space(釦子空間)AI Agent 應用內測 → 意料之中,位元組也出了類 Manus 產品 🤙
4 月 20 日(無)
4 月 21 日
| 音訊 |Nari Labs Dia-1.6B TTS 模型,支援情感控制非語言內容生成(開源)
| 影片 |生樹科技 Vidu Q1 影片生成模型上線,支援 1080p 極清畫質電影級運鏡
| 影片 |崑崙萬維 SkyReels-V2 無限時長電影生成模型(開源)→ 影片模型開始往生成時長的方向努力了 ⏱
| 影片 |Sand.aiMAGI-1 圖生影片模型系列,支援無限延伸秒級精度時間控制(開源)
| 應用 |秘塔 推出「今天學點啥」模式,LLM 驅動個性化學習內容生成 → 很好的應用形式 👏 但是生成內容的質量還是需要提升 💪
4 月 22 日
| 應用 |Fellou.ai(謝揚)Fellou 是全球首款 Agentic Browser(內測)→ 本地瀏覽器的方案,可以解決一些使用者資料的問題 👌
| 新聞 | 教育部更新《普通高等學校本科專業目錄(2025年)》,增列人工智慧教育新專業
4 月 23 日
| 影像 |Ostris Flex.2-preview 文生圖模型,整合通用控制影像修復能力(開源)→ 可以作為 ComfyUI 中 Flux 模型的一個替代方案 🎨
| 影片 |MiniMax Hailuo 上線 Character Reference 功能,單圖生成多樣化電影級角色影片
| 影片 |Character.AI AvatarFX 影片生成模型,靜態圖片生成動態對話角色→ 其實就是對嘴型,類似 Hedra 👄
| 3 D |騰訊混元 3D 生成模型升至 2.5 版本,支援 4K 高畫質紋理 → 騰訊在 3D 開源模型這片藍海中,算是有了自己的一席之地 🏆
4 月2 4 日
| 模型 |崑崙萬維 Skywork-R1V 2.0 多模態推理模型(開源)→ 適合本地化部署的多模態推理模型 ✔
| 影像 |OpenAIgpt-image-1 多模態模型 API 開放 → 此模型上線後,搶了不少傳統影像模型的市場 👀
| 應用 |騰訊 CodeBuddy 推出 Craft 軟體開發 Agent,自動生成完整的專案程式碼→ 騰訊也淺嘗了一下 AI 程式設計領域 👀
| 融資 | 蝴蝶效應(Manus)完成 7500 萬美元融資,估值達到 5 億美元 → 有了資本的助力,希望 Manus 可以儘快開放註冊
4 月 25 日
| 影片 |Tavus Hummingbird-0 零樣本唇形同步模型 → 類似 Sync 的「影片->影片」對口型 👄
| 新聞 |百度 Create2025 大會發布文心大模型 Turbo 版,心響 App,滄舟 OS,文心杯創業大賽等
| 新聞 |中共中央政治局第二十次集體學習堅持自立自強,突出應用導向,推動人工智慧健康有序發展 → 官方聲音:應用導向 ❗❗❗
| 新聞 |2050 2050@2025 年青人因科技而團聚
4 月 26 日
| 模型 |Lemon Slice X Deepgram Lemon Slice Live 零樣本即時數字人聊天模型 → 優勢在於生成速度 ⚡
| 音訊 |月之暗面 Kimi-Audio 通用音訊基礎模型,單一框架處理多樣化音訊任務(開源)
| 應用 |Cognition Labs(Devin)DeepWiki 工具免費開放,GitHub 倉庫一鍵轉 Wiki 式文件 → 用 AI 將網際網路上的資訊進行結構化,再分享出來,是個不錯的嘗試 🥳
4 月 27 日
| 影像 |階躍星辰Step1X-Edit 影像編輯大模型(開源)→ 實測效果不錯,還支援本地化部署,好評 👏
4 月 28 日(無)
4 月 29 日
| 模型 |阿里巴巴Qwen3 多模態模型系列,MoE 與 Dense 架構覆蓋多引數規模(開源)→ Qwen3 將推理模型和非推理模型進行了融合,MoE 架構在本地執行時又可以獲得更高的輸出速度。Qwen 將開源模型的標準推向了新的高度,不愧是開源之王 🥳
| 影片 |Higgsfield AI  Iconic Scenes 功能上線,照片一鍵融入經典電影場景→ 模板更新很快,質量也非常高 👍
| 應用 |OpenAI ChatGPT 本月長期記憶、輕量版 Deep Research 及個性化商品推薦等重要更新
| 新聞 | 習近平在上海考察時強調,加快建成具有全球影響力的科技創新高地
4 月 30 日
| 模型 |Amazon Nova Premier 多模態基礎模型的旗艦版本 → 感覺就是 GPT-4.1 的翻版,但比 GPT-4.1 賣得還貴 🤐
| 模型 |DeepSeek DeepSeek-Prover-V2 數學定理證明模型系列(開源)→ 這個模型,感覺是為了強化學習的訓練準備的 🔍
| 模型 |小米 Xiaomi MiMo-7B 推理模型系列(開源)→ RL 已經成為模型訓練的主流了 👀
| 模型 |JetBrains Mellum 程式碼補全聚焦模型系列首發,全新訓練支援 14 種程式語言(開源)→ 自動補全是否好用,是 AI 程式設計工具的一個核心競爭點 🎯
| 影像 |FASHN AI FASHN v1.5 虛擬試穿模型與重要升級
| 音訊 |沐言智語 Muyan-TTS 零樣本語音合成模型,低成本易於二次開發(開源)
| 新聞 |中央網信辦部署開展「清朗·整治AI技術濫用」專項行動

4 月 1 日

國家天文臺 X 阿里巴巴

金烏,國際首個太陽活動研究專用大模型

金烏是國家天文臺與阿里巴巴聯合研發的國際首個太陽活動研究專用大模型。該模型基於 Qwen-VL 等視覺語言技術及超 90 萬張太陽衛星影像訓練,可精準預測 24 小時內太陽耀斑爆發。
其 M5 級耀斑預報準確率已超 91%,達國際領先水平。金烏也能推斷太陽關鍵物理引數並生成模擬影像,為太陽活動研究與空間天氣預報提供核心技術支撐。
權威信源:官方介紹

> “業內解讀(By Jomy)→ 從通用模型到垂直領域的最佳實踐之一 👍

MiniMax

Speech-02 語音模型系列,支援 20 萬字符長文字

MiniMax Speech-02 語音模型系列全新升級,顯著提升聲音自然度與情感表現力。該模型支援檔案及網頁連結轉換為高度逼真語音,單次處理文字長達 20 萬字符,適用於有聲書與播客製作。
其 TTS 功能覆蓋 30 多種語言,發音高度擬真、流暢自然且無機械感,並整合無限聲音克隆與亞秒級流式傳輸技術,全面提升語音生成的智慧化及效率。
使用入口:前往 MiniMax Audio 官網(minimax.io/audio)體驗;或者呼叫 API(minimax.io/platform)。
權威信源:https://x.com/MiniMax__AI/status/1906720764885180775

> “Minimax默默做了很多事,但宣發一直不是很給力 😅

Luma AI

Ray2 模型整合 Camera Motion Concepts 技術,文字指令驅動電影級運鏡

Luma AI 的 Ray2 影片生成模型引入 Camera Motion Concepts(相機運動概念)技術,內建超 20 種相機運動模式,使用者透過簡單文字指令即可組合鏡頭運動,實現電影級複雜動態效果
Concepts 為 Luma 提出的生成模型新控制正規化:透過少量樣本快速學習與復現特定效果,並靈活組合以構建強大新穎工作流。Camera Motion Concepts 是該技術體系的初步應用,未來將有更多創新。
使用入口:前往 Luma AI 官網(lumalabs.ai)體驗。
權威信源:https://lumalabs.ai/blog/news/camera-motion-concepts

> “鏡頭可控性成為影片模型的標配 🎥

Higgsfield AI

DoP I2V-01-preview 影片生成模型,具有專業運鏡效果

Higgsfield AI 釋出了 DoP I2V-01-preview 影片生成模型,專注於將單張靜態影像轉化為具有專業運鏡效果的動態影片
其核心優勢為專業相機控制系統,預設子彈時間、超長距拉鏡、360° 環繞拍攝等多種電影級運鏡模式,並支援引數微調以自定義運動。該模型也可以模擬真實攝影機物理特性(變焦、平移、自然抖動),自動最佳化光影與構圖,增強電影質感。
使用入口:前往 Higgsfield AI 官網(higgsfield.ai)體驗;或者呼叫 API(higgsfield.typeform.com/HiggsfieldAPI)。
權威信源:https://x.com/higgsfield_ai/status/1906783445998576078

> “一家新興的影片模型公司,影片模板做的非常出色和多樣化 👏

Ai2

CodeScientist 端到端半自動科學發現系統

CodeScientist 是一款端到端的半自動化科學發現系統,能夠自主設計、執行和分析科學實驗(Python 程式碼形式)。該系統藉助基於 LLM 的遺傳變異機制,透過對科學文獻和程式碼示例進行組合與變異,生成創新性實驗思路,然後由實驗構建器自動執行和除錯,並在自動生成實驗結果報告。
CodeScientist 支援人機協作和全自動兩種模式,並且為提高結果可靠性,通常會對同一實驗思路進行多次獨立嘗試(如 5 次)
使用入口:前往 Github(github.com/allenai/codescientist#2-example-codescientist-generated-experiment-reports-and-code)獲取程式碼和報告。
權威信源:https://allenai.org/blog/codescientist

Amazon

Nova Act ,瀏覽器 AI Agent 及開發 SDK

Nova Act 是 Nova 大模型驅動的 AI Agent 模型,能自主控制網頁瀏覽器執行點選、填表、導航等任務,並與下拉選單、日期選擇器等使用者介面元素進行類人互動。
其配套的 Nova Act SDK 允許開發者構建定製化 AI Agent 應用,提供框架將複雜任務(如線上訂餐、資料抓取)分解為原子化操作(如act()呼叫),能顯著提升開發效率與應用靈活性。
使用入口:前往 Amazon Nova 官網(nova.amazon.com/act)體驗。
權威信源:https://labs.amazon.science/blog/nova-act

OpenAI

完成 400 億美元新一輪融資,估值達到 3000 億美元

OpenAI 宣佈完成新一輪400億美元融資,公司估值躍升至3000億美元。此輪融資由軟銀集團(SoftBank Group)領投,微軟(Microsoft)等知名投資方參與。資金將用於推動人工智慧研究、擴充套件計算基礎設施,並提升ChatGPT等產品的效能與服務體驗。
權威信源:https://openai.com/index/march-funding-updates

> “老大(OpenAI)和老二(Anthropic)的估值差距越來越大 🤐

OpenAI

OpenAI Academy 線上資源中心免費上線

OpenAI Academy 正式推出公開免費的線上資源中心,結合線上線下模式,提供研討會、專題討論及線上學習資源等多樣化內容。該平臺旨在向不同背景學習者提供實用工具、行業洞見與最佳實踐,以提升 AI 素養。升級後的 OpenAI Academy 服務範圍從原先的開發者與技術使用者,擴充套件至教育工作者、學生、求職者、非營利組織及中小企業主。
使用入口:前往 OpenAI Academy 官網(academy.openai.com)學習。
權威信源:https://openai.com/global-affairs/scaling-the-openai-academy

4 月 2 日

OpenAI

PaperBench 基準測試,評估 AI Agent 復現前沿研究的能力(開源)

PaperBench 開源基準測試,旨在評估 AI Agent 從零復現前沿 AI 研究的能力。該測試要求 Agent 完成 ICML 2024 會議中 20 篇論文的復現,覆蓋從法理解、程式碼開發到實驗驗證的全流程。
結果顯示,表現最佳的 Claude 3.5 Sonnet(新版)結合開源框架平均復現得分為 21%,遠低於頂尖人類機器學習博士的 87% 水平
使用入口:開源;前往 Github 獲取 PaperBench 完整資料(github.com/openai/preparedness/tree/main/project/paperbench)。
權威信源:https://openai.com/index/paperbench

> “Agent時代需要新的基準測試 🥇

海天瑞聲 X 清華大學

Dolphin 語音大模型,專為東方語言設計(開源)

海天瑞聲與清華大學聯合推出 Dolphin 開源語音大模型,專攻東方語言處理。該模型支援 40 個東方語種(含越南語、緬甸語等)及中文普通話與 22 種方言,基於 21.2 萬小時資料訓練(其中 13.8 萬小時為海天瑞聲高質量專有資料)。經海天瑞聲、Fleurs、CommonVoice 三個權威測試集驗證,Dolphin 在同等規模下語音識別效能顯著優於 Whisper
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/DataoceanAI);前往 Github 獲取程式碼(github.com/DataoceanAI/Dolphin);技術報告(arxiv.org/abs/2503.20212)。
權威信源:官方介紹

> “一個支援方言的語音轉文字模型 🎙

Synchronicity Labs(sync)

Lipsync-2 全球首個零樣本唇形同步模型

LipSync-2 是全球首個零樣本(zero-shot)唇形同步模型,無需訓練即可實現精準口型匹配,並保留說話者獨特風格,適用於實拍、動畫及 AI 生成影片。
其首創的零樣本風格保留 (style preservation)技術能智慧學習並還原說話者個性化特徵,在跨語言場景下亦能保持風格。新增的溫度 (temperature)調節功能 (測試階段) 允許使用者調整口型表現力,未來將逐步開放。
使用入口:前往 sync 官網(sync.so)體驗或者呼叫 API。
權威信源:https://x.com/synclabs_so/status/1907160784523931910

> “sync主打影片->影片對口型,而不是圖片->影片對口型 ❗❗❗

Genspark AI

Super Agent 通用 AI  Agent 釋出

Genspark AI 釋出新一代通用 AI Agent 產品 Genspark Super Agent,能快速、準確、可控地執行從資訊檢索到實際操作的完整任務流程。Super Agent 採用創新的多 Agent 混合系統架構,整合 8 個不同模型,配備超 80 種功能工具,實現與外部系統無縫互動及複雜任務處理。據稱,其在 GAIA 榜單表現已超越 Manus。
使用入口:前往 Genspark AI 官網(genspark.ai)體驗。
權威信源:(示例)https://www.genspark.ai/autopilotagent_viewer

> “無需邀請碼,任何人都可以註冊使用,這個體驗不錯 😎

Rabbit

rabbitOS intern 系統更新,擴充套件子任務處理能力

Rabbit 智慧任務處理系統 rabbitOS intern 迎來更新。該系統能將複雜需求自動分解為子任務,並協調多個專用 Agent 完成。升級後,rabbitOS intern 支援資料處理、程式碼編寫、創意設計、財務分析等多類子任務,執行效率也得到了顯著提高。
使用入口:公開測試版面向所有使用者開放;前往 rabbitOS intern 官網(hole.rabbit.tech/rabbitos)體驗。
權威信源:https://www.rabbit.tech/rabbit-os

> “又是一個類ManusAgent產品 👀

4 月 3 日

中美關稅戰全面升級

完整回顧本月時間線

4月2日: 美國總統特朗普簽署行政令,宣佈對所有貿易伙伴加徵 10% 基準關稅,並針對中國商品進一步上調至 34%,覆蓋電動汽車、半導體等關鍵領域。
4月4日(週五)中國國務院關稅稅則委員會宣佈,自4月10日12:01起,對原產於美國的所有進口商品,在現行適用關稅稅率基礎上加徵 34% 關稅;商務部、海關總署宣佈對 7 類中重稀土實施出口管制;暫停 6 家美國企業輸華資質,並將 11 家美國企業列入「不可靠實體清單@新華社
4月7日(週一)美國威脅將進一步對華加徵 50% 關稅。
4月7日中國中央匯金公司釋出公告,將持續加大增持 ETF 規模和力度 @新華社
4月8日美國政府宣佈,對中國輸美商品徵收「對等關稅」稅率由 34% 提高至 84%。
4月9日中國國務院關稅稅則委員會宣佈,自4月10日12時01分起,調整對原產於美國的進口商品加徵關稅措施,由 34% 提高至 84% @新華社。將 6 家美國企業列入「不可靠實體清單」@新華社將 12 家美國實體列入「出口管制管控名單@新華社
4月10日美國政府宣佈,對中國輸美商品徵收「對等關稅」稅率進一步提高至 125%。
4月11日中國國務院關稅稅則委員會宣佈,自2025年4月12日起,調整對原產於美國的進口商品加徵關稅措施,由 84% 提高至 125%;鑑於在目前關稅水平下,美國輸華商品已無市場接受可能性,如果美方後續對中國輸美商品繼續加徵關稅,中方將不予理會 @新華社
4月12日美國公佈相關備忘錄,豁免計算機、智慧手機、半導體制造裝置、積體電路等部分產品的「對等關稅」
4月13日中國商務部回應,敦促美方正視國際社會和國內各方理性聲音,在糾錯方面邁出一大步,徹底取消「對等關稅」的錯誤做法,回到相互尊重,透過平等對話解決分歧的正確道路上來 @新華社
4月15日美國白宮網站釋出關於關鍵礦產和衍生品 232 調查的有關事實清單,提到因為中國針對美「對等關稅」採取報復措施,現在中國出口到美國的商品面臨最高達 245% 的關稅。
4月16日中國商務部回應,對於美方這種毫無意義的關稅數字遊戲,中方不予理會。但倘若美方執意繼續實質性侵害中方權益,中方將堅決反制,奉陪到底@新華社
4月22日美國總統特朗普對記者稱,我們與中國相處得不錯,同中方談判時不會採取強硬態度。對華 145% 關稅確實很高,協議達成後美對華關稅將大幅下降,但不會降至零。
4月23日:中國外交部回應,對於美國發動的關稅戰,中方的態度很明確,我們不願打,也不怕打。打,奉陪到底;談,大門敞開 @新華社
4月24日:美國不斷有訊息稱,中美之間正在談判,甚至將會達成協議。
4月24日中國外交部回應,這些都是假訊息。“據我瞭解,中美雙方並沒有就關稅問題進行磋商或談判,更談不上達成協議。” @新華社

美國政府限制 NVIDIA H20 晶片出口

黃仁勳訪華商討方案,完整回顧本月時間線

美國對中國半導體技術的出口管制歷經多年政策演進。2022年,拜登政府限制 A100/H100 等高階AI晶片對華出口,促使 NVIDIA 推出降級版 A800/H800 作為替代方案。隨著技術競爭加劇,美國在 2024 年出臺 AI Diffusion Rule(2025年5月15日生效),NVIDIA 隨即推出中國市場特供版 H20 晶片
本月,晶片禁令再次升級:
  • 4月4日:NVIDIA CEO 黃仁勳參加特朗普海湖莊園晚宴,承諾未來四年在美投資 5000 億美元建設超算中心,換取 H20 出口禁令暫緩。
  • 4月9日:美國政府態度轉變,通知 NVIDIA 對中國(含港澳)和其他 D5 國家出口 H20 晶片需要獲得新的許可證。
  • 4月14日:美國政府進一步通知 NVIDIA 出口許可要求將「無限期有效」。這意味著 H20 晶片向中國的出口可能面臨永久性限制。
  • 4月15日:AMD MI308 晶片、Intel Gaudi 2D/3D 晶片同樣被納入出口管制範圍。
  • 4月16日:NVIDIA 披露將在第一季度承擔 55 億美元的資產減記,NVIDIA 股價在盤後交易中下跌約 6%,AMD 也應聲下跌。
  • 4月17日-18日:NVIDIA CEO 黃仁勳緊急訪問中國,與中國客戶企業及政府官員會面,強調「中國是 NVIDIA 非常重要的市場」,並商討新方案。
  • 4月30日:據報道,NVIDIA 告知部分中國大客戶,正在調整 AI 晶片設計並最快將於 6 月推出新的晶片樣品。同時也在研發最新一代 Blackwell 架構的中國特供版。
權威信源:https://www.reuters.com/technology/nvidia-expects-up-55-billion-charge-first-quarter-2025-04-15 | @何立峰會見黃仁勳 | @龔正會見英偉達總裁兼執行長黃仁勳

> “中國可以沒有英偉達但是英偉達不能沒有中國

4 月 4 日

Midjourney

V7(alpha)影像生成模型,提升理解能力與影像質量

Midjourney V7 影像生成模型開啟 alpha 測試。V7 模型在文字/影像提示理解的精準度上顯著提升,同時整體影像質量、細節表現和連貫性均有大幅最佳化。此外,V7 是首個預設啟用模型個性化功能的版本,能夠深度理解使用者需求,精準捕捉使用者對「美」的偏好,從而生成更符合個人品味的影像。
V7 新功能 Draft Mode(草稿模式)生成成本僅為標準模式的一半,渲染速度卻快十倍,是創意迭代的高效工具。使用者只需點選 Draft Mode 並啟用語音模式,即可透過口述即時生成影像;若需明確執行草稿任務,可在提示詞後新增 –draft 引數。
V7 將提供 Turbo(加速) 和 Relax(放鬆) 兩種模型,標準速度模型仍在最佳化中。未來 60 天內,團隊計劃高頻推出新功能,其中最值得期待的是 V7 角色和主體參考
使用入口:前往 Midjourney 官網(midjourney.com)體驗。
權威信源:https://www.midjourney.com/updates/v7-alpha

> “實測下來,有進步,但不多 🤦‍♂️

Microsoft

Muse 世界模型家族迎來 WHAMM 模型,可以即時生成 AI 遊戲

Microsoft 專為電子遊戲開發的 Muse 世界模型家族迎來新成員 WHAMM 模型。作為 WHAM-1.6B(2025年2月釋出)的即時可玩擴充套件版,WHAMM 顯著提升視覺生成速度,輸出解析度翻倍,影像生成速率從每秒 1 幀提升至 10 幀以上,實現高質量影片即時生成。
此外,WHAMM 增強了模型泛化能力,成功適配《雷神之錘 2》等不同風格遊戲,展現出強大跨遊戲相容性。
使用入口:前往 Copilot Gaming Experiences 官網(copilot.microsoft.com/wham)試玩。可以透過鍵盤/控制器操作與模型進行互動,並立即看到操作的效果,本質上實現了在模型內部玩遊戲
權威信源:https://www.microsoft.com/en-us/research/articles/whamm-real-time-world-modelling-of-interactive-environments

> “還是那個問題,遊戲裡能走回頭路嗎 🔙

4 月 5 日

Microsoft

Bing 瀏覽器上線 Copilot Search 功能

Microsoft Bing 瀏覽器上線 Copilot Search 功能,結合傳統搜尋的精準性與 AI 的深度分析能力,重塑了資訊獲取方式。它能夠像專業助手一樣閱讀、理解並整合網路資訊,自動對比不同來源以確保準確性,同時始終提供可靠的資訊依據。
它既能快速給出即時答案,也能展開多維度的深入解析,讓使用者自由控制搜尋的深度和方向,從而獲得真正個性化的解答體驗。
使用入口:前往 Bing 官網(bing.com/copilotsearch)體驗 Copilot Search 功能。
權威信源:https://blogs.bing.com/search/April-2025/Introducing-Copilot-Search-in-Bing

> “Bing要挑戰一下Perplexity 👀

4 月 6 日

Meta

Llama 4 原生多模態模型系列(開源)

LLaMA 4 模型系列採用 MoE(混合專家)架構,支援原生多模態輸入,包含 Scout、Maverick 和 Behemoth 三個版本(目前僅開放下載前兩個版本)。
Scout(哨兵)模型,啟用引數 17B,總引數量 108B,16 個專家;上下文視窗長達 10M Token。
Maverick(獨行俠)模型,啟用引數 17B,總引數量 402B,128 個專家;多模態支援(文字、影像、影片、音訊)強大。
Behemoth(巨獸)模型,仍在訓練中,Meta 目前最強大的模型,Scout 和 Maverick 版本均由 Behemoth 訓練而來。
使用入口:前往 Llama 官網(llama.com)下載模型;或者呼叫 API(llama.com/products/llama-api)。
權威信源:https://ai.meta.com/blog/llama-4-multimodal-intelligence

> “相比月底的Qwen3,Llama 4 沒有太多革命性的變化開源之王的寶座已被阿里奪走 👑

4 月 7 日

阿里巴巴

通義 LHM 模型,單照片快速生成可控 3D 數字人(開源)

LHM 是一款 3D 數字人生成工具,能僅憑單張照片快速生成可動、可操控的高精度 3D 數字人。該模型採用先進的端到端 Transformer 架構,並結合 SMPL-X 人體先驗模型,輸出基於高斯技術的逼真 3D 人體模型。
LHM 支援動作重現,允許使用者為數字人指定多樣化動作(如跳舞、打籃球等),並可直接用作遊戲角色,滿足遊戲開發、VR 互動等場景需求。
使用入口:開源;前往 Github 獲取所有程式碼(github.com/aigc3d/LHM);前往魔搭(modelscope.cn/studios/Damo_XR_Lab/Motionshop2/summary)體驗。
權威信源:https://lingtengqiu.github.io/LHM | 官方介紹

> “效果還比較粗糙,期待進一步升級 💪

NVIDIA

收購初創公司 Lepton AI(賈揚清)

NVIDIA(英偉達)宣佈以數億美元收購由賈揚清創辦的初創公司 Lepton AI 。賈揚清及其核心團隊將加入 NVIDIA ,Lepton AI 則於 2025 年 5月20日終止運營。
Lepton AI 成立於 2023 年,主營基於 NVIDIA GPU 的雲伺服器租賃及 AI 工作負載最佳化服務。此次收購旨在增強 NVIDIA 在資料中心與 AI 基礎設施方面的實力,以應對 Google Cloud 、Microsoft Azure 等競爭。
權威信源:https://www.theinformation.com/briefings/nvidia-closes-acquisition-gpu-cloud-startup-lepton

> “看來Nvidia想親自下場做 AI應用層的服務從賣卡到賣算力 🤙

Stanford HAI

The 2025 AI Index Report 釋出

斯坦福大學以人為本人工智慧研究所(HAI)釋出的《2025 AI Index Report》是該機構自 2017 年以來的第八份年度報告,全面分析了人工智慧領域的全球發展態勢。報告涵蓋技術研發、經濟影響、社會效益等關鍵維度,主要結論如下:
  • 人工智慧在高難度基準測試中的效能持續突破。
  • 人工智慧加速融入日常生活場景。
  • 商業領域投資與使用量創歷史新高,對生產力的提升作用顯著。
  • 美國保持頂尖模型開發領先地位,但中國正快速縮小差距。
  • 負責任的人工智慧生態系統發展不均衡。
  • 全球對人工智慧的樂觀情緒上升,但地區間存在顯著認知差異。
  • 人工智慧正變得更高效、經濟且易於普及。
  • 各國政府持續加強人工智慧領域的監管與資金投入。
  • 計算機科學教育規模擴大,但教育機會不平等問題依然存在。
  • 前沿技術發展速度有所放緩。
  • 人工智慧對科學研究的推動作用獲得廣泛認可和讚譽。
  • 複雜推理仍是當前技術面臨的主要挑戰。
使用入口:前往 Stanford HAI 官網(hai.stanford.edu/ai-index/2025-ai-index-report)下載完整報告。
權威信源:報告概要

4 月 8 日

階躍星辰

Step-R1-V-Mini 多模態推理模型,影像感知能力優秀

Step-R1-V-Mini 是一款多模態推理模型,支援影像與文字聯合輸入並輸出文字推理結果,能夠高效完成複雜的跨模態推理任務。
該模型具備出色的影像感知能力,可精準識別物體和場景並進行深度邏輯推理。模型效能卓越,不僅能處理 LeetCode Hard 級別的演算法題,還在 MathVision 視覺推理榜單中位列國內第一
使用入口:前往階躍官網(yuewen.cn)體驗;或者呼叫 API(platform.stepfun.com)。
權威信源:官方介紹

Amazon

Nova Sonic 通用音訊基礎模型,單一框架整合理解和生成能力

傳統語音系統將語音識別(ASR)、自然語言處理(NLP)和語音合成(TTS)拆分為獨立模組,導致對話缺乏自然流暢性,難以保留語調、韻律和說話風格等關鍵細節。
Nova Sonic 模型則有效解決了這類困擾,將理解與生成能力整合到單一框架中,因此能夠精準捕捉語音中的細微特徵(如停頓、猶豫),並動態調整回應時機和風格使對話更自然,大幅提升了人機互動體驗。
使用入口:前往 Amazon Nova 官網(nova.amazon.com/sonic)體驗;開發者可以前往 Amazon Bedrock 呼叫模型 API。
權威信源:https://www.aboutamazon.com/news/innovation-at-amazon/nova-sonic-voice-speech-foundation-model

> “Amazon模型也全方位覆蓋了 🎊

4 月 9 日

Together AI X Agentica Project

DeepCoder-14B 程式設計推理模型,效能卓越(開源)

Together AI 與 Agentica Project 聯合開發全開源程式設計專用大模型 DeepCoder-14B ,支援 64K 長上下文推理
在 LiveCodeBench 基準測試中,該模型以 60.6% 的得分超越 o1(59.5%)並接近 o3-mini(60.9%),展現卓越程式碼生成與推理能力。DeepCoder-14B 基於 DeepSeek-R1-Distilled-Qwen-14B 微調最佳化,並採用強化學習技術提升程式碼質量,能生成高準確性、強邏輯性程式碼,滿足複雜程式設計需求。
使用入口:全開源(模型權重/資料集/程式碼/訓練方案等);前往 HugingFace 獲取(huggingface.co/agentica-org/DeepCoder-14B-Preview)。
權威信源:https://www.together.ai/blog/deepcoder

Jina AI

jina-reranker-m0 多模態多語言重排器

jina-reranker-m0 是一款多模態、多語言重排器(reranker),核心能力在於對包含豐富視覺元素的文件進行重排和精排,同時相容跨語言場景。
當用戶輸入一個查詢(query)以及一堆包含文字、圖表、表格、資訊圖或複雜佈局的文件時,模型會根據文件與查詢的相關性,輸出一個排序好的文件列表。模型支援超過 29 種語言及多種圖形文件樣式,例如自然照片、截圖、掃描件、表格、海報、幻燈片、印刷品等等。
使用入口:開源;HugingFace 開源連結(huggingface.co/jinaai/jina-reranker-m0);呼叫 API 連結(jina.ai/?sui&model=jina-reranker-m0)。
權威信源:官方介紹

> “基於Qwen2-VL-2B改造而來

阿里巴巴

阿里雲百鍊上線業界首個全生命週期 MCP 服務

阿里雲百鍊上線業界首個全生命週期 MCP 服務,無需使用者管理資源、開發部署、工程運維等工作,5 分鐘即可快速搭建一個專屬 MCP Agent,大幅降低 Agent 的開發門檻。
百鍊平臺首批上線了高德、無影、Fetch、Notion 等30 多款阿里巴巴集團和三方 MCP 服務,覆蓋生活資訊、瀏覽器、資訊處理、內容生成等領域,可滿足不同場景的 Agent 應用開發需求。
同日,阿里雲還預告了 AI Agent Store 願景,透過 Agent Store 這種創新模式,把阿里巴巴集團和生態夥伴的 Agent 向外開放,讓各行各業的人都可以擁有自己專屬的助理。
使用入口:前往阿里雲百鍊官網(bailian.console.aliyun.com)體驗。
權威信源:官方介紹 | 賽博禪心

> “只支援將MCP用於阿里雲百鍊內部的智慧體,生態比較封閉 📦

騰訊

騰訊雲上線 AI 開發套件,快速搭建 AI Agent 小程式

騰訊雲正式釋出「AI開發套件」,幫助開發者最快 5 分鐘搭建業務型 AI Agent,支援 MCP 外掛託管服務,外掛開發、部署、運維全「打包」,無需自搭伺服器、運維環境,讓 Agent 擴充套件能力真正「即插即用」。
使用入口:前往騰訊雲開發平臺(tcb.cloud.tencent.com/index)體驗。
權威信源:官方介紹

> “雲廠商都打算入局Agent開發生態 👀

Google Cloud Next 25 大會

與 Agent 有關的 A2A、SDK、Google Agentspace…

Google Cloud Next 25 大會於4月9日至11日在美國拉斯維加斯舉行,組織了 10 場主題演講、700 場專業會議,展會也有 250 多家贊助商參與。大會期間共釋出 229 項公告,覆蓋 Multi-Agent System、Al Infrastructure、Application Development、Databases、Data Analytics 等 14 個領域。月刊挑選與 Agent 最密切的三項內容進行介紹。
Agent2Agent ProtocolA2A 協議由 Google 牽頭、逾 50 家科技巨頭支援,旨在統一 AI Agent 互動標準,使智慧體之間能夠無縫通訊,實現跨平臺、跨框架協作。
Agent Development Kit(ADK)一個面向 AI Agent 開發的 Python 框架,旨在簡化多智慧體系統的構建、管理和部署流程,支援模組化設計及 MCP 、A2A 協議。
Google Agentspace企業級 AI 智慧體平臺,集中管理和一鍵部署 Google 和 合作伙伴的智慧體,並將智慧體直接嵌入員工 Chrome 瀏覽器,提升工作效率和決策水平。
權威信源:https://cloud.google.com/blog/topics/google-cloud-next/google-cloud-next-2025-wrap-up

> “模型的聲音越來越少,Agent的聲音越來越多 🔊

Google

Firebase Studio 輔助程式設計 IDE,快速構建與部署全棧應用

Firebase Studio 是一款 AI 程式設計 IDE(整合開發環境),旨在助力開發者透過簡單提示詞在瀏覽器內快速構建並部署生產級全棧應用(前端、後端、API 及移動應用),大幅降低技術門檻。
該平臺相容多種主流程式語言和框架,包括 React、Next.js、Angular、Vue.js 等前端技術,以及 Node.js、Python Flask、Java 等後端方案,同時支援 Flutter 和 Android 移動開發。無論是從零開始的新專案,支援從零開發或基於模板、現有程式碼的二次開發,顯著降低全棧應用的門檻。
使用入口:前往 Firebase Studio 官網(firebase.studio)體驗。
權威信源:https://firebase.google.com/docs/studio

> “又一個Vibe Coding應用,大廠真的什麼都做 🤙

Google

Augment Code 輔助程式設計外掛,支援超長上下文

Augment Code 是專為開發者設計的智慧程式設計助手,上下文長達 20 萬 tokens,支援大規模程式碼庫的高效開發。該外掛不僅能編寫和除錯程式碼,還能自動生成 PR、執行終端命令,並學習開發者習慣,適配專案規範,實現從需求到提交的自動化閉環。
其視覺化除錯功能可識別 UI 問題並推薦修復方案,深度整合 GitHub、Linear、Notion 等主流工具,支援快速接入 Supabase、Figma 等技術棧,真正實現從編碼到部署的智慧化開發體驗。
使用入口:可在 VS Code 和 JetBrains 中使用;前往 Augment Code 官網(augmentcode.com)下載安裝。
權威信源:測評

> “還是那句話,大廠真的什麼都做 🤙🤙🤙

企業家座談會

總理主持召開經濟形勢專家和企業家座談會,稚暉君發言

中共中央政治局常委、國務院總理李強主持召開經濟形勢專家和企業家座談會,聽取對當前經濟形勢和下一步經濟工作的意見建議。
智元機器人聯合創始人兼 CTO 彭志輝在座談會上發言。彭志輝是 B 站知名 UP 主「稚暉君」,被網友親切稱為「野生鋼鐵俠」,2018年從電子科技大學研究生畢業就職於 OPPO 研究院 AI 實驗室,2020年以「華為天才少年計劃」最高檔年薪入職華為團隊,2022 年底從華為離職,2023 年 2 月聯合創立智元機器人。
權威信源:https://www.gov.cn/yaowen/tupian/202504/content_7017779.htm | 媒體報道

4 月 10 日

月之暗面

Kimi-VL 與 Kimi-VL-Thinking 輕量級視覺語言模型(開源)

Kimi-VL 和 Kimi-VL-Thinking 多模態模型基於 MoE 架構,啟用引數 2.8B,總引數 16B,支援 128K 上下文視窗,均可處理單圖、多圖、影片以及含視覺資訊的長文件輸入
Kimi-VL-Thinking 是經過強化學習訓練的增強版,特別激活了長思維鏈推理能力(Long CoT)。在 MMMU、MathVision 和 MathVista 等高難度推理基準測試中,其部分表現可媲美甚至超越更大引數量的前沿模型。
使用入口:開源;前往 HugingFace 獲取模型權重(huggingface.co/moonshotai/Kimi-VL-A3B-Instruct,https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking);前往 Github 獲取程式碼(github.com/MoonshotAI/Kimi-VL);技術報告(arxiv.org/abs/2504.07491v1)。
權威信源:官方介紹

> “為視覺推理模型的發展做了一些貢獻 🎉

商湯

日日新 SenseNova V6 多模態融合大模型體系,支援中長影片深度解析

日日新(SenseNova)是商湯科技推出的大模型體系。最新版本 SenseNova V6 具備強大的多模態推理與互動能力,其中 SenseNova V6 Video Turbo 是國內首個支援 10 分鐘中長影片深度解析的大模型。
日日新大模型體系包含自然語言處理模型「商量(SenseChat)」、文生圖模型「秒畫」和數字人影片生成平臺「如影(SenseAvatar)」等核心產品。
使用入口:前往商量官網(chat.sensetime.com)體驗。
權威信源:官方介紹

> “上下文最大隻有32K,有點跟不上時代了 🤐

字節跳動

Multi-SWE-bench 基準測試,評估大模型多語言程式碼修復泛化能力(開源)

Multi-SWE-bench 是首個開源多語言程式碼修復基準測試,在原有單語言評測集 SWE-bench(Python)基礎上全面擴充套件,新增 Java、Go、Rust、C、C++、TypeScript、JavaScript 等 7 種主流程式語言,並基於 1,632 個真實 GitHub Issue 構建了豐富的測試任務。
Multi-SWE-bench 標誌著自動程式設計評估從實驗室單語言任務向實用化、多語言、全棧工程場景演進,為 AI 程式設計助手提供了更嚴格、貼近實際開發需求的評估標準
使用入口:開源;前往 HugingFace 獲取資料(huggingface.co/datasets/ByteDance-Seed/Multi-SWE-bench);前往 Github 獲取程式碼(github.com/multi-swe-bench/multi-swe-bench)。
權威信源:官方介紹

> “AI程式設計領域的基準測試 🥇

4 月 11 日

OpenAI

BrowseComp 基準測試,評估 AI Agent 複雜資訊檢索能力(開源)

鑑於當前主流基準測試(如 SimpleQA)已被 GPT-4o 等模型輕鬆飽和,OpenAI 推出 BrowseComp 開源基準測試,專門評估 AI Agent 在網際網路上檢索深度交織、難以獲取資訊的能力。
該測試包含 1266 個高難度問題,Agent 可能需遍歷數百個網站方能找到答案,為衡量 AI 資訊檢索效能提供了更嚴苛標準,以應對 AI Agent 搜尋資訊能力日益重要且複雜資訊定位能力評估愈發關鍵的趨勢。
使用入口:開源;前往 Github 獲取(github.com/openai/simple-evals)。
權威信源:https://openai.com/index/browsecomp

> “更難的基準測試可以更好推動Agent的進步 🥇

Google

Gemini 模型將支援 MCP 協議

繼 Google CEO Sundar Pichai 於 3 月 31 日發帖暗示後,Google DeepMind 負責人 Oriol Vinyals 於 4 月 10 日確認,Google 正與 MCP 團隊合作,旗下 Gemini 模型將支援 MCP 協議。此舉為 Google 官方首次明確表態,旨在推動 AI  Agent 間的互聯互通。
權威信源:https://x.com/OriolVinyalsML/status/1910053783968641123

> “不太理解從模型層面支援MCP該如何實現,期待Google下一步揭曉 👂

4 月 13 日

崑崙萬維

Skywork-OR1推理模型系列,顯著提升數學與程式碼等任務效能(開源)

Skywork-OR1 作為 Skywork-O1 推理模型的升級版本,在保持相同引數規模下顯著提升了推理效能,尤其在數學、程式碼和通用任務方面表現突出。
該系列包含三個版本:Skywork-OR1-Math-7B 專注於數學領域,Skywork-OR1-7B-Preview 兼具數學與程式碼能力,而旗艦版本 Skywork-OR1-32B-Preview 則專為處理更高複雜度的任務而設計。
使用入口:全開源(模型權重/訓練資料集/完整訓練程式碼);前往 HugingFace 獲取模型權重(huggingface.co/Skywork);前往 Github 獲取程式碼(github.com/SkyworkAI/Skywork-OR1)。
權威信源:https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reaonser-Series-1d0bc9ae823a80459b46c149e4f51680 | 官方介紹

> “最大隻有32B,明顯是為了本地化部署準備的 🧐

4 月 14 日

字節跳動

Seed-Thinking-v1.5 深度思考模型

Seed-Thinking-v1.5 深度思考模型採用 MoE 架構,啟用引數 20B,總引數 200B,透過高效的結構設計,實現了卓越效能與計算效率的平衡
模型在多項權威基準測試中表現突出:AIME 2024 得分 86.7,Codeforces 的 pass@8 達到 55.0%,GPQA 測試中取得 77.3 分,說明其在複雜推理、程式設計和專業知識問答等領域能力優秀。
使用入口:前往火山引擎呼叫 API。
權威信源:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5 | 官方介紹

> “這個模型就是火山引擎上的Doubao-1.5-Thinking-Pro 🔍

月之暗面 X Numina

Kimina-Prover 數學定理證明模型,Lean 4 形式化數學證明表現出色(開源)

Numina 和月之暗面 Kimi 團隊聯合開發的 Kimina-Prover,是一款專注於數學定理證明的大模型。該模型基於 Qwen2.5-72B 架構,採用 Kimi k1.5 大規模強化學習流程訓練,在 Lean 4 形式化數學證明領域表現出色
在權威的 miniF2F 基準測試中,僅需 pass@8192 的取樣預算就達到了 80.7% 的透過率,顯著超越了此前記錄。
使用入口:開源了 Kimina-Prover 的 1.5B 和 7B 引數的蒸餾版本,用於資料生成的 Kimina-Autoformalizer-7B 模型,修訂過的 miniF2F 基準測試資料集。前往 HuggingFace 獲取模型和資料集(huggingface.co/collections/AI-MO/kimina-prover-preview-67fb536b883d60e7ca25d7f9);前往 Github 獲取程式碼(github.com/MoonshotAI/Kimina-Prover-Preview);技術報告(arxiv.org/abs/2504.11354)。
權威信源:官方介紹

> “巧合的是,月底Deepseek也釋出了一個Prover模型 🧐

小鵬汽車

小鵬世界基座模型啟動研發

小鵬汽車研發團隊基於其優質自動駕駛訓練資料,已成功開發多個尺寸的基座模型,並已啟動 72B 超大規模引數的世界基座模型研發,引數量約為當前主流 VLA 模型的 35 倍。
小鵬世界基座模型的一大核心優勢是具備鏈式推理能力(CoT),能在充分理解現實世界基礎上進行復雜常識推理,並將結果轉化為方向盤、剎車等控制訊號,實現與物理世界的互動。
權威信源:官方介紹

> “自動駕駛企業都在研發自己的世界模型 🚗

Hugging Face

收購 Pollen Robotics,發售開源人形機器人 Reachy 2

Hugging Face 宣佈完成對法國機器人公司 Pollen Robotics 的收購,並正式推出其旗艦產品——售價 7 萬美元的 Reachy 2 人形機器人。Reachy 2 採用完全開源架構,整合先進硬體與使用者友好軟體平臺,為科研人員提供高度可定製的開發環境,已獲康奈爾大學等頂尖實驗室採用。
Pollen Robotics(創立於 2016 年,源自法國 Inria)是開源人形機器人領域的領先者,此次收購將加強 Hugging Face 在具身智慧領域的技術佈局。
權威信源:https://huggingface.co/blog/hugging-face-pollen-robotics-acquisition

> “看來Hugging Face 也認為人形機器人會是未來的重要開源方向 🤖

4 月 15 日

智譜

GLM-4 和 GLM-Z1 模型系列(開源),啟用全新域名 Z.ai

智譜本次開源了三大類模型(對話/基座/推理),涵蓋9B和32B兩種引數量級,具體如下:
對話模型:
  • GLM-4-9B-0414
  • GLM-4-32B-0414
基座模型:
  • GLM-4-32B-Base-0414
  • 上線的基座模型提供 GLM-4-Air-250414 和 GLM-4-Flash-250414 兩個版本,其中後者完全免費。
推理模型:
  • GLM-Z1-9B-0414
  • GLM-Z1-32B-0414
  • GLM-Z1-Rumination-32B-0414
  • 上線的推理模型提供 GLM-Z1-AirX、GLM-Z1-Air、GLM-Z1-Flash 三個版本,其中最後版本完全免費。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/THUDM);前往官網(Z.ai)體驗;或者前往 MaaS 平臺呼叫 API(bigmodel.cn)。
權威信源:官方介紹

> “域名看起來就很昂貴 💰

OpenAI

GPT-4.1 模型系列,上下文長度突破 1M

GPT-4.1 在 GPT-4o 基礎上進行了升級,在程式設計能力、指令理解和長文字處理等核心領域實現了顯著突破。
該系列包含 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三個版本,均支援高達 1 Million Token 的超長上下文處理能力,使其能夠高效處理大型程式碼庫、複雜技術文件以及其他需要超長上下文支援的任務。
使用入口:目前僅支援透過 API 呼叫(platform.openai.com/docs/guides/text?api-mode=responses#prompting-gpt-4-1-models);GPT-4o 和 GPT-4o mini 也將繼續透過 API 提供。
權威信源:https://openai.com/index/gpt-4-1

> “GPT-4.1系列明顯是一個可生產用的成熟模型。但是,之前的GPT-4.5就有些讓人困惑了 🤯

騰訊 X 上海交通大學

DeepMath-103K 數學資料集,面向強化學習和高階推理(開源)

DeepMath-103K 是一個高質量資料集,面向強化學習(RL)與高階數學推理。該資料集包含約 10.3 萬道題目,覆蓋代數、微積分、數論、幾何、機率及離散數學等多學科領域,聚焦高難度題目(難度等級 5-9 級),並經過嚴格去汙處理
每道題目均附帶可驗證的最終答案,以及由 R1 生成的 3 種不同解法,適用於監督微調、知識蒸餾和獎勵建模等多種訓練方法。
使用入口:開源;前往 HugingFace(huggingface.co/datasets/zwhe99/DeepMath-103K)或 Github(github.com/zwhe99/DeepMath)獲取;技術報告(arxiv.org/abs/2504.11456)。
權威信源:https://x.com/tuzhaopeng/status/1912057561110782446

> “RL訓練又有了開箱即用的好資料集 🥳

字節跳動

Seedream 3.0(Mogao)影像生成模型,原生高畫質輸出與商業級文字效果

Seedream 3.0 影像生成基礎模型,原生支援高解析度和中英雙語,在畫質、結構、文字、美感與真實度方面均有提升。
Seedream 3.0 原生支援 2K 高畫質直出,適配多種比例,無需後處理即可滿足海報級需求;生成速度大幅提升,3 秒即可輸出高品質影像
模型優化了 小字生成和文字排版,使 AI 影像達到商業級設計標準。同時,美學表現顯著增強,減少結構錯誤和 AI 感,讓畫面更具感染力,適用於專業視覺創意場景。
使用入口:前往即夢官網(jimeng.jianying.com)體驗;或者呼叫 API(volcengine.com/docs/85128/1526761)。
權威信源:https://team.doubao.com/tech/seedream3_0 | 官方技術報告
Seedream 3.0 正式釋出之前,曾以 Mogao 的名字登頂 Artificial Analysis 文生圖榜單。
權威信源:https://x.com/ArtificialAnlys/status/1912122278722379903

> “經測試中文輸出能力又有了提升,實用性再次增強 👍

可靈

正式邁入 2.0 時代!可靈 2.0(大師版)&& 可圖 2.0 模型釋出

可靈 2.0(大師版)影片生成模型在語義理解、動態表現和畫面質感上大幅最佳化,生成效果更自然流暢。
可圖 2.0 影像模型支援 60+ 種藝術風格,畫面更具電影級質感,精準還原複雜創意。
此外,產品也有更新:影片生成新增 多模態編輯功能,影像生成新增 圖片編輯 和 風格轉繪功能,進一步拓展了創作自由度。
使用入口:前往可靈官網(app.klingai.com)體驗;或者呼叫 API(klingai.com/cn/dev)。
權威信源:https://app.klingai.com/cn/release-notes | 官方介紹

> “可靈2.0比最初的1.0貴了10倍,各位覺得值得嗎 ❓

阿里巴巴

魔搭上線 MCP 廣場,打造最大中文 MCP 服務中心

阿里雲的 AI 開源社群魔搭(ModelScope)推出了全新的 MCP 廣場,成為最大的中文 MCP 社群。該平臺上架了超過千款 MCP 服務,並獨家釋出了支付寶和 MiniMax 等新服務,為 AI 開發者提供豐富的資源,推動 AI 應用的創新。
使用入口:前往 ModelScopeMCP 廣場官網(modelscope.cn/mcp)體驗。
權威信源:官方介紹

> “比百鍊更開放的平臺,支援第三方客戶端接入。可惜現階段還無法自己新增MCP Server 💪

小紅書

獨立開發者大賽 2025 頒獎

小紅書《獨立開發者大賽 2025》正式公佈獲獎名單並舉行頒獎儀式。據官方透露,目前小紅書活躍著超 5 萬名獨立開發者,獨立開發相關內容較去年增長 146%,相關話題閱讀量破 5 億。以下是獲獎專案簡介:
全場大獎
  • Action&Link 體感控制器,把普通遊戲變成體感遊戲,在你喜愛的遊戲世界裡,來一場酣暢淋漓的運動冒險(@賽博靈客)
寶藏APP
  • 金獎:雨天,手繪風格的治癒系遊戲(@森樹Tree)
  • 銀獎:Podwise,輕鬆理播客筆記(@硬地駭客)
  • 銅獎:Peakwatch,蘋果手錶專業運動助手(@Alex)
最佳AI專案
  • 金獎:QRBTF AI 二維碼,精緻的 AI 二維碼生成器(@倪豪 TroyNi)
  • 銀獎:Nooka,AI 互動式書籍播客平臺(@Nooka-Bookast App)
  • 銅獎:胃之書(2.0),你的 AI 美食搭子(@趙純想)
五大特別單元
  • 最佳00後開發者:夢境社交Dreamoo,記夢、繪夢、解夢的社交app(@Sidrel)
  • 出海先鋒獎:CrowdCore,出海網紅營銷自動化 AI Agent(@北美創業的阿萊克斯)
  • 最佳創意獎:FocusFlight專注飛機,從全球航線到專注頂峰(@專注飛機FocusFlight)
  • 浪漫主義獎:魂旅,身在工位,魂遊萬里(@Highway海瑋)
  • 社群人氣獎:小貓補光燈,一鍵補光,照亮你的美(@花叔(只工作不上班版)

4 月 16 日

上海人工智慧實驗室

InternVL3(書生·永珍3.0)多模態大語言模型系列(開源)

InternVL3(書生·永珍3.0)多模態模型,能夠高效處理文字、圖片、影片等多種模態資訊。其能力全面升級後,在圖形使用者介面(GUI)Agent、建築圖紙理解、空間感知推理以及通識學科推理等任務中表現尤其突出。
該模型系列涵蓋多種引數量版本,包括 1B、2B、8B、9B、14B、38B 和 78B,可滿足不同場景下的計算需求與效能要求。
使用入口:開源;前往 HugingFace(huggingface.co/OpenGVLab/InternVL3-78B)或 Github(github.com/OpenGVLab/InternVL)獲取模型;技術報告(huggingface.co/papers/2504.10479);前往官網(chat.intern-ai.org.cn)體驗。
權威信源:https://internvl.github.io/blog/2025-04-11-InternVL-3.0 | 官方介紹

OpenAI

Codex CLI 本地命令列智慧程式設計工具,整合最新推理模型(開源)

Codex CLI 是一款面向開發者的本地命令列智慧程式設計工具,深度集成了 OpenAI 最新推理模型,為開發者提供智慧程式設計輔助
該工具透過簡單的命令即可實現程式碼生成、問題修復等複雜任務。使用者只需下載對應平臺的二進位制檔案並完成基礎配置,即可在本地環境中享受智慧化的程式碼互動體驗。
使用入口:開源;支援主流程式語言;前往 Github 獲取(github.com/openai/codex)。
權威信源:https://help.openai.com/en/articles/11096431-openai-codex-cli-getting-started

> “對標Claude Code 📍

JetBrains

Junie Agent 程式設計助手深度整合到 IDE

Junie 是一款深度集成於 IDE 環境的 Agent 程式設計助手,能高效處理程式碼編寫與除錯任務。其核心優勢在於深度結合了 JetBrains IDE 的強大功能,將原本需要數小時完成的工作壓縮至更短週期。
它基於 Claude 和 GPT 等大模型,既可獨立完成常規開發,也能與開發者協同解決複雜問題。最新版本進一步強化了複雜任務處理能力,顯著提升開發效率與程式碼質量。
使用入口:Junie 已經相容 IntelliJ IDEA Ultimate、PyCharm Pro、WebStorm 和 GoLand 等 IDE,未來很快支援 PhpStorm、RustRover 和 RubyMine 等 IDE。前往 Junie 官網(jetbrains.com/zh-cn/junie)下載。
權威信源:https://blog.jetbrains.com/blog/2025/04/16/jetbrains-ides-go-ai

> “AI程式設計會成為所有IDE的標配 🧐

4 月 17 日

OpenAI

o3 和 o4-mini 視覺推理模型,o 系列旗艦模型

o3 和 o4-mini 是 OpenAI(也是全球)目前智慧水平最高、能力最全面的視覺推理模型,在程式設計、數學、科學計算和視覺理解等複雜任務上實現了顯著突破。相較前代,新模型回答前會進行更深入思考,並首次具備影像主動處理能力,可自主執行裁剪、增強等操作以精準提取關鍵資訊
此外,o3 和 o4-mini 經過專門訓練,能主動呼叫並整合 ChatGPT 的所有工具(含網路搜尋、Python 資料分析、視覺推理及影像生成等),輸出詳盡答案。這標誌著 ChatGPT 正在從 AI 助手向具備自主問題解決能力的 AI 系統演進。
使用入口:前往 ChatGPT 官網(chatgpt.com)體驗;或者呼叫 API(openai.com/api)。
權威信源:https://openai.com/index/introducing-o3-and-o4-mini

> “經測試,這兩個模型工具呼叫能力有了非常大的進步,利好Agent的開發 🥳

字節跳動

豆包1.5 · 深度思考模型上線

豆包1.5 · 深度思考模型採用 MoE 架構,啟用引數 20B,總引數 200B,在數學、程式設計、科學推理及創意寫作等領域的能力卓越,經達到或接近全球第一梯隊水平。本次釋出了 Doubao-1.5-thinking-pro(基礎推理模型)和 Doubao-1.5-thinking-pro-vision(支援多模態處理的視覺推理)兩個版本。
使用說明:豆包 App 基於豆包1.5・深度思考模型進行了定向訓練,將聯網能力和深度思考進行了深度繫結,類似人類「邊想邊搜」的思維方式。
使用入口:前往豆包官網(doubao.com)和移動 App 體驗;企業使用者可以在火山方舟平臺呼叫 API。
權威信源:官方介紹

Microsoft

BitNet b1.58 語言模型,低精度架構提升計算效率(開源)

BitNet b1.58 是一款原生 1-bit 大模型,採用了創新的 1.58-bit 低精度架構,記憶體佔用僅 0.4GB,在保持高效能的同時大幅提升了計算效率。
該模型引數量 2B,有效證明了原生 1-bit 大模型效能可以媲美類似規模的領先開源全精度模型,同時在計算效率(記憶體、能耗、延遲)方面具有顯著優勢。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/microsoft/bitnet-b1.58-2B-4T);前往 Github 獲取程式碼(huggingface.co/microsoft/bitnet-b1.58-2B-4T);前往 Demo 頁面(bitnet-demo.azurewebsites.net)試玩。
權威信源:技術報告:https://arxiv.org/abs/2504.12285

> “如果這條路線可行的話,可能以後電冰箱裡都會裝載一個小模型 😎

理想汽車

MindGPT 3.0 深度思考能力媲美 DeepSeek

理想汽車宣佈其智慧助手「理想同學」完成重要升級,搭載的 MindGPT 3.0 模型現已全面上線。此次升級顯著提升了人工智慧的效能,尤其是深度思考能力,使其能與行業領先的 DeepSeek 等模型相媲美。
使用入口:前往理想同學官網(livis.com)或者 App 體驗。
權威信源:官方介紹

阿里巴巴

通義萬相 Wan2.1-FLF2V-14B 首尾幀生影片模型(開源)

Wan2.1-FLF2V-14B 是業界首個百億引數規模的開源首尾幀影片模型。該模型引數量 14B,可以根據使用者指定的開始和結束圖片,生成一段能銜接首尾畫面的 720p 高畫質影片。此次升級能滿足使用者更可控、更定製化的影片生成需求。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P);前往 Github 獲取程式碼(github.com/Wan-Video/Wan2.1)。前往萬相官網(wan.video/wanxiang/videoCreation)體驗。
權威信源:官方介紹

> “阿里真的很認真在做開源 👏

字節跳動

UI-TARS-1.5 多模態智慧體,增強高階推理能力(開源)

UI-TARS-1.5 是一款多模態智慧體,能夠在虛擬環境中執行復雜任務,比如操作桌面應用、瀏覽器和遊戲自動化。相比前代 UI-TARS,1.5 版本透過強化學習增強了高階推理能力,實現了「先思考後行動」決策模式,提升了在未知任務中的泛化能力。
UI-TARS-1.5 在 7 個主流 GUI 評測基準中達到 SOTA 水平,更首次實現了遊戲場景下的長時程推理開放空間互動能力。
使用入口:開源;前往 Github(github.com/bytedance/UI-TARS)獲取;技術報告(arxiv.org/abs/2501.12326)。前往 UI-TARS 官網(seed-tars.com)體驗。
權威信源:https://github.com/bytedance/UI-TARS | 官方介紹

> “這個模型的原理類似ClaudeComputer-Use,透過滑鼠和鍵盤指令來操作電腦 🖥

騰訊

微信上線「元寶」AI 助手,提供智慧問答服務

騰訊推出首個深度整合進微信生態的 AI 助手「元寶」,使用者可直接在微信中搜索並新增為好友進行互動
元寶基於騰訊混元大模型和 DeepSeek 雙模引擎,能夠一鍵解析公眾號文章、圖片及 100M 以內的文件,支援文字與語音輸入,並提供內容總結、智慧問答、圖片識別等功能。
權威信源:媒體報道

> “這麼多天過去了,大家還有在用嗎?👀

4 月 18 日

Google

Gemini 2.5 Flash 全混合推理模型釋出

Gemini 2.5 Flash 是 Google 首款全混合推理模型,在保持 Gemini 2.0 Flash 高速響應優勢的同時,引入了「思考預算」控制機制。開發者可透過該機制靈活調整模型推理深度:既能快速處理簡單任務,又能為複雜任務分配更長的思考時間,同時也支援完全關閉思考功能。
Gemini 2.5 Flash 透過混合推理架構,重新平衡了效率與質量的關係。該模型特別適用於需要靈活權衡響應速度、使用成本和推理效能的各種應用場景。
使用入口:前往 Google Gemini(gemini.google.com)體驗;前往 Google AI Studio(aistudio.google.com/prompts/new_chat)和 Vertex AI Studio 呼叫 API。
權威信源:https://developers.googleblog.com/en/start-building-with-gemini-25-flash

> “新的價效比之王 🥳

Google

Gemma 3 量化感知訓練(QAT)新版本系列,本地 GPU 執行 

繼上月釋出最新開源模型 Gemma 3(可用單塊 NVIDIA H100 等高階 GPU 執行)後,Google 為進一步提升其易用性,推出了經過量化感知訓練(QAT)最佳化後的新版本系列,大幅降低了記憶體需求。現在,Gemma 3 的 27B 、12B 、4B 及 1B 版本均可在本地消費級 GPU 上執行。
使用入口:開源;已經與 Ollama、LM Studio、MLX、Gemma.cpp、llama.cpp 整合;前往 HugingFace(huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b)或 Kaggle(kaggle.com/models/google/gemma-3/transformers)下載模型。
權威信源:https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus

騰訊

InstantCharacter 定製化影像生成外掛,角色一致性能力優秀(開源)

騰訊推出開源影像生成外掛 InstantCharacter ,專為內容創作者設計。使用者僅需一張參考圖和一句描述,即可讓指定角色以任意姿態出現在任何場景中,確保角色在不同場景中的高度一致性,顯著提升連環畫、影片等視覺內容的創作效率。
該外掛角色一致性遠超行業水平,影像生成精度高、靈活場景動作調整能力也非常優秀,還相容開源模型 Flux 並能處理多種複雜風格,實測效果媲美 GPT-4o 等頂尖模型。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/spaces/InstantX/InstantCharacter);前往 Github 獲取程式碼(github.com/Tencent/InstantCharacter);技術報告(arxiv.org/abs/2504.12395)。
權威信源:https://instantcharacter.github.io | 官方介紹

> “角色一致性是多模態模型生圖(例如4o)的一大短板 🙅‍♂️

Stanford(Lvmin Zhang)

FramePack 逐幀影片生成框架(開源)

由 ControlNet 作者 Lvmin Zhang 開發的突破性影片生成技術 FramePack 正式開源。該框架結合了影像擴散的高效性與影片生成的連續性,突破了傳統影片模型對高視訊記憶體的依賴,使筆記本 GPU 也能流暢生成長影片。
FramePack 模型引數 13B ,僅需 6GB 視訊記憶體即可驅動生成數千幀影片,並支援高批次訓練。在消費級顯示卡(如 RTX 4090)上最佳化後,速度可達每秒 1.5 幀,大幅降低長影片生成門檻。
使用入口:開源;前往 Github 下載並安裝 GUI(github.com/lllyasviel/FramePack);技術報告(arxiv.org/abs/2504.12626)。
權威信源:https://lllyasviel.github.io/frame_pack_gitpage

> “FramePack的核心思想應該很快會被各大模型公司借鑑 🧐

Krea AI

上線 3D 創作功能 && 完成 4700 萬美元 B 輪融資

4月1日
Krea AI 平臺迎來全面升級,重點推出了全新的 3D 生成工具。使用者只需上傳圖片或輸入文字描述,點選「生成」按鈕,即可在幾秒內獲得專業級 3D 模型,大幅提升創作效率。
4月18日
全新上線的 Krea Stage 功能支援透過影像或文字生成完整的 3D 環境,並能輸出風格一致的場景快照。生成的 3D 場景可一鍵匯出至 Blender,進一步優化了從創作到後期處理的整體工作流程

4月8日
公司宣佈完成 4700 萬美元的 B 輪融資,投後估值達 5 億美元。本輪融資由 Bain Capital Ventures 領投,Andreessen Horowitz 和 Abstract Ventures 跟投。此前,公司已先後完成 300 萬美元的種子輪融資和 3300 萬美元的 A 輪融資。
使用入口:前往 Krea AI 官網(krea.ai)體驗。
權威信源:https://www.krea.ai/blog/new-krea

> “KreaUX上做得一直非常出色 👏

xAI

Grok 本月釋出 Grok Studio、個性化響應、workspace 等多項更新

4月16日,推出智慧協作平臺 Grok Studio ,支援生成文件、程式碼、報告、瀏覽器遊戲並提供即時預覽,可以整合 Google Drive 直接處理雲端檔案。開發者可以執行 Python、C++、JavaScript 等程式碼並即時檢視效果。
4月17日,Grok 上線對話記憶及個性化回覆功能(測試階段),記憶內容支援隨時檢視或刪除。
4月18日,Workspaces 透過將對話內容和相關檔案集中儲存在特定工作區,有效解決了傳統聊天模式中上下文容易丟失的問題。Grok 能夠持續跟蹤長期專案的進展,即使跨越多輪會話也能完整保留歷史記錄。
權威信源:前往 Grok 官網(grok.com)或者 iOS/Android 下載 App 進行體驗

> “OpenAIClaude有的功能,Grok都會立即跟上 👀

智譜

完成北京市人工智慧產業投資基金追加投資,Z 基金出資 3 億支援全球開源社群

4月16日,北京市人工智慧產業投資基金宣佈在去年已有投資基礎上,繼續追加投資智譜(Z.ai)2 億元人民幣,支援智譜的開源模型研發與開源社群生態建設。
4月18日,為了進一步以實際行動推動開源生態建設,Z 基金出資 3 億元支援全球範圍內的 AI 開源社群發展,任何基於開源模型(不侷限於智譜開源模型)的創業專案均可申請。
權威信源:官方介紹

4 月 19 日

人形機器人半程馬拉松

天工機器人奪冠

2025 北京亦莊半程馬拉松暨人形機器人半程馬拉松,作為全球首個人形機器人與人類同場競技的半程馬拉松賽事,吸引了 12,000 名人類選手和 20 餘家人形機器人企業代表隊參與。
在全長 21.0975 公里、含坡道(最大坡度 9°)與多次轉向的複雜賽道上,共有 6 支機器人隊伍成功完賽。天工機器人「天工 Ultra 」以 2 小時 40 分 42 秒奪冠,松延動力機器人 N2 與上海卓益得機器人行者二號分獲亞季軍。
權威信源:媒體報道

> “第一次讓大眾看到了現階段人形機器人的真實發展情況 🤦‍♂️

字節跳動

Coze Space(釦子空間)AI Agent 應用內測

釦子空間(Coze Space)是一款 AI Agent 協同辦公應用,目前進入內測階段。該應用能自動分析使用者需求、拆解任務、呼叫瀏覽器、程式碼編輯器等工具執行,並最終生成完整結果報告(如網頁、PPT 、飛書文件)。
平臺提供探索模式(單Agent模式規劃模式(多Agent模式兩種任務模式,支援 MCP 整合並涵蓋了飛書多維表格、高德地圖等應用,即將支援從「釦子開發平臺」釋出 MCP 至「釦子空間」。
使用入口:前往釦子官網(coze.cn/space-preview)體驗。
權威信源:官方介紹

> “意料之中,位元組也出了類Manus產品 🤙

4 月 21 日

Nari Labs

Dia-1.6B TTS 模型,支援情感控制與非語言內容生成(開源)

Dia 是一款文字轉語音(TTS)模型,能將文字轉換為高度逼真的對話語音,支援透過音訊條件控制輸出的情感和語調,並可以生成笑聲、咳嗽等非語言交流內容(目前僅支援英語)。
模型團隊兩名本科學生想打造一款媲美甚至超越 NotebookLM Podcast 的模型,歷經多重難關,三個月後 Dia 終於誕生了!他們計劃將 Dia 製作為一款面向 C 端的應用程式。(加入 Waiting List 申請早期訪問許可權:https://tally.so/r/meokbo )
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/nari-labs/Dia-1.6B);前往 Github 獲取程式碼(github.com/nari-labs/dia)。前往 Demo 頁面(huggingface.co/spaces/nari-labs/Dia-1.6B)試玩。
權威信源:https://x.com/_doyeob_/status/1914464970764628033

生樹科技

Vidu Q1 影片生成模型上線,支援 1080p 極清畫質與電影級運鏡

Vidu Q1 是一款高效能影片生成模型,將影片生成的質量和可控性提升至專業影視級別。模型支援 1080p 極清畫質和 HDR 色彩空間,能智慧生成符合電影語法的運鏡,使畫面表現穩定流暢。
此外,該模型還支援 3D 聲場定位(如杜比全景聲)和 MIDI 裝置即時輸入,實現音畫同步創作,提供媲美專業影視工作室的體驗。
使用入口:前往 Vidu 官網(vidu.com)體驗;或者呼叫 API(platform.vidu.com)。
權威信源:https://x.com/ViduAI_official/status/1914303116209697051

崑崙萬維

SkyReels-V2 無限時長電影生成模型(開源)

SkyReels-V2 是全球首個基於擴散強迫(Diffusion-forcing)框架的無限時長電影生成模型,能夠生成高運動質量、高一致性且高保真的影片內容,目前可支援 30 秒至 40 秒時長的影片生成。
模型還提供了故事生成、圖生影片、運鏡專家以及多主體一致性影片生成(SkyReels-A2)等多種實用場景,為電影級長影片創作提供了創新技術方案。
使用入口:開源;前往 Github 獲取模型(github.com/SkyworkAI/SkyReels-V2);技術報告(arxiv.org/abs/2504.13074)。前往 SkyReels 官網(skyreels.ai)體驗。
權威信源:官方介紹

> “影片模型開始往生成時長的方向努力了 ⏱

Sand.ai

MAGI-1 圖生影片模型系列,支援無限延伸與秒級精度時間控制(開源)

Magi-1 是一款基於自迴歸預測的影片生成模型,透過預測固定長度的連續幀序列來合成高質量影片。在圖生影片(I2V)任務中,該模型憑藉 無限延伸 和 秒級精度的時間控制 的出色能力超越了多數同類模型,還支援透過分段提示實現場景過渡和精細化控制
Magi-1 提供了兩個開源版本:24B 引數模型可生成原生 1440×2568 解析度的高畫質影片,4.5B 引數版本僅需單張 RTX 4090 顯示卡即可完成推理。
使用入口:開源;前往 HugingFace(huggingface.co/sand-ai/MAGI-1)或者 Github(github.com/SandAI-org/MAGI-1)獲取模型和程式碼;技術報告(static.magi.world/static/files/MAGI_1.pdf)。前往 Sand AI 官網(sand.ai/magi)試玩。
權威信源:賽博禪心

秘塔

推出「今天學點啥」模式,LLM 驅動個性化學習內容生成

秘塔推出「今天學點啥」模式,旨在根據使用者的知識水平和偏好,將複雜內容轉化為適合使用者需求的講解內容,實現個性化、定製化的學習體驗。
今天學點啥模式,能夠根據使用者的知識水平和偏好,將複雜內容轉化為適合使用者需求的講解內容,實現個性化、定製化的學習體驗。
使用者只需上傳文件、輸入網址或關鍵詞,系統便會自動生成匹配的 PPT 、音訊講解及課程資料。目前支援課堂講解、小說風格、故事敘述等多樣化講解風格與互動形式,並能模擬特定人物(如「莎士比亞」或「李白」)的口吻進行講解。
使用入口:前往秘塔官網(metaso.cn/study)體驗。
權威信源:官方介紹

> “很好的應用形式 👏 但是生成內容的質量還是需要提升 💪

4 月 22 日

Fellou.ai(謝揚)

Fellou 是全球首款 Agentic Browser (內測)

Fellou 是全球首款 Agentic Browser(行動型瀏覽器),目前處於內測階段。使用者透過自然語言提出目標,Fellou 即可自動解析指令、拆解任務、跨網頁和系統排程操作,完成端到端任務交付。它還具備主動感知能力,會主動詢問是否需要介入或接管任務。
Fellou 採用虛擬化技術隔離任務執行環境(影子空間),確保 Agent 執行任務時不干擾使用者使用電腦,同時使用者還可以看到 Agent 的執行程序並在適當時刻加以干預。此外,使用者可將個人任務流程封裝為可共享的工作流供他人直接呼叫,高階開發者則可以使用 Eko Framework 開發框架快速將自定義工具型。
Fellou 創始人謝揚,此前創辦的企業級身份認證平臺 Authing 已服務超 700 家企業客戶,月均處理千萬級認證請求,並獲得頭部 VC 數千萬美元投資。
使用入口:前往 Fellou 官網(fellou.ai)體驗;目前支援Mac(Apple 晶片 / Intel晶片)網頁及 PC 端下載,Windows 及移動版計劃於下半年推出。 團隊還計劃開源 Agentic Browser Benchmark
權威信源:官方介紹 | 賽博禪心

> “本地瀏覽器的方案可以解決一些使用者資料的問題 👌

教育部

更新《普通高等學校本科專業目錄(2025年)》,增列 29 種新專業,包括人工智慧教育

教育部同步更新發布《普通高等學校本科專業目錄(2025年)》,增列 29 種新專業,納入 2025 年高考招生。新目錄包含 93 個專業類、845 種專業,進一步強化專業設定對國家戰略急需和高質量發展的快速響應。
其中,人工智慧教育,專業程式碼 040117TK,屬於教育學類,布點高校為北京師範大學。
權威信源:媒體報道

4 月 23 日

Ostris

Flex.2-preview 文生圖模型,整合通用控制和影像修復能力(開源)

Ostris 推出 8B 引數的文生圖擴散模型 Flex.2(預覽階段)。該模型不僅支援文生圖基礎功能,還整合了通用控制能力(線條、姿態、深度)以及影像修復(Inpainting)等多項實用特性,並支援透過 AI-Toolkit 進行定製化微調,為使用者提供了更靈活的適配方案。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/ostris/Flex.2-preview);透過 ComfyUI 和 Diffusers 使用。
權威信源:https://x.com/ostrisai/status/1914799647899722198

> “可以作為ComfyUIFlux模型的一個替代方案 🎨

MiniMax

Hailuo 上線 Character Reference 功能,單圖生成多樣化電影級角色影片

Character Reference(角色參考)功能可以基於單張參考影像生成多樣化角色影片。
該功能可以在保持角色特徵高度一致的前提下,為使用者生成多角度、多動態姿勢、表情豐富的角色影片,並且引入了電影級的光影效果與專業構圖,使生成結果視覺效果媲美專業電影畫面。
使用入口:前往 Hailuo AI 官網(hailuoai.video/create)體驗。
權威信源:https://x.com/Hailuo_AI/status/1914845649704772043

Character.AI

AvatarFX 影片生成模型,靜態圖片生成動態對話角色

Character.AI 推出角色動畫生成模型 AvatarFX ,使用者僅需上傳一張圖片並選擇聲音,即可將靜態角色(包括二維動畫、三維卡通、寵物等非人類形象)轉化為具有自然說話、動作和表情變化的動態形象。
該模型具備強大的多角色對話功能,支援多輪互動和長影片生成,在保持面部表情與肢體動作高度協調的同時,展現豐富細膩的情感表達。
使用入口:團隊未來幾個月將把 AvatarFX 模型引入 Character.AI 產品,訂閱使用者將首先體驗這一功能;Waiting List(character.ai/video?ref=blog.character.ai)。
權威信源:https://blog.character.ai/avatar-fx-cutting-edge-video-generation-by-character-ai | https://character-ai.github.io/avatar-fx

> “其實就是對嘴型,類似Hedra 👄

騰訊

混元 3D 生成模型升至 2.5 版本,支援 4K 高畫質紋理

騰訊混元 3D 生成模型升級至 2.5 版本,在建模精細度上取得了突破。新版本支援 4K 高畫質紋理和細粒度 bump 貼圖,還優化了模型表面平整度、邊緣銳度和細節表現,使整體畫質達到高畫質標準。
在模型架構方面,混元 3D v2.5 引數量從 1B 提升至 10B ,有效面片數增長超過 10 倍,大幅提升了模型的生成能力和細節處理水平。
使用入口:前往騰訊混元3D官網(3d.hunyuan.tencent.com)體驗,免費生成額度翻倍;或者呼叫 API(cloud.tencent.com/document/product/1729/117860)。
權威信源:官方介紹

> “騰訊在3D開源模型這片藍海中,算是有了自己的一席之地 🏆

4 月 24 日

崑崙萬維

Skywork-R1V 2.0 多模態推理模型(開源)

Skywork-R1V 2.0 號稱在目前開源多模態模型中,視覺與文字推理能力最均衡。根據多個權威基準測試結果,R1V 2.0 相較前代 R1V 1.0 實現了全面升級,在文字理解和視覺推理兩大核心任務上均有顯著提升。
該模型在高考理科(數學/物理/化學)難題的深度推理及通用任務場景中均展現出卓越效能。
使用入口:開源;前往 HugingFace(hf.co/Skywork/Skywork-R1V2-38B)或 Github(github.com/SkyworkAI/Skywork-R1V)獲取模型;技術報告(arxiv.org/abs/2504.16656)。
權威信源:官方介紹

> “適合本地化部署的多模態推理模型 ✔

OpenAI

gpt-image-1 多模態模型 API 開放

繼上月 OpenAI ChatGPT 影像生成功能廣受歡迎(首周使用者生成影像超 7 億張)後,OpenAI 現正式開放 gpt-image-1 多模態模型的 API 介面。
gpt-image-1 模型創作能力強大,不僅能精準理解使用者指令,還支援多樣化的圖片視覺風格。模型本身具備豐富的世界知識儲備、出色的文字渲染一致性以及專業的影像編輯能力,可以為使用者提供高效的創意解決方案。
使用入口:前往官網 Playground(platform.openai.com/playground/images)體驗;或者呼叫 API。
權威信源:https://openai.com/index/image-generation-api

> “此模型上線後,搶了不少傳統影像模型的市場 👀

騰訊 CodeBuddy

推出 Craft 軟體開發 Agent,自動生成完整的專案程式碼

騰訊旗下程式碼助手 CodeBuddy 推出軟體開發 Agent —— Craft。開發者只需用自然語言輸入需求,Craft 便能自動生成完整的專案程式碼。
此外,Craft 支援主流 IDE,相容騰訊生態系統,還支援 MCP 協議,實現程式碼的無縫接入測試、構建和部署,並且。
使用入口:前往 CNB(cnb.cool)中免費使用;前往 CloudStudio(cloudstudio.net)免費使用;開啟 VSCode 或 JetBrains、VS、微信小程式 IDE 等主流 IDE,外掛市場搜尋「騰訊雲程式碼助手CodeBuddy」免費使用。
權威信源:https://copilot.tencent.com | 官方介紹

> “騰訊也淺嘗了一下AI程式設計領域 👀

蝴蝶效應(Manus)

完成 7500 萬美元融資,估值達到 5 億美元

Manus 所屬中國初創公司蝴蝶效應(Butterfly Effect)宣佈完成 7500 萬美元戰略融資,估值攀升至近 5 億美元。本輪融資由矽谷頂級風投 Benchmark 領投,紅杉中國、騰訊等現有投資方跟投。融資將主要用於加速 Manus 全球市場拓展(重點佈局美國、日本及中東地區),並升級 AI Agent 系統算力基礎設施。
權威信源:https://www.theinformation.com/briefings/benchmark-invests-chinese-startup-behind-manus-ai-agent

> “有了資本的助力,希望Manus可以儘快開放註冊

4 月 25 日

Tavus

Hummingbird-0 零樣本唇形同步模型釋出

Hummingbird-0 是零樣本唇形同步領域最先進的模型,在影片逼真度、身份保持、唇部同步精度三大核心指標上均處於領先行業,同時運算成本更低。
僅需使用者提供幾秒鐘原始影片素材,Hummingbird-0 就能在一分鐘內生成高質量的 10 秒唇部同步影片,全程無需額外訓練。模型支援處理最長 5 分鐘影片,相容多種主流影片格式和解析度,但不適用於動畫、歌唱影片、即時處理或多說話者場景。
使用入口:前往 Demo 頁面(fal.ai/models/fal-ai/tavus/hummingbird-lipsync/v0)體驗;前往 Tavus(docs.tavus.io/sections/lipsync/overview)和 FAL(fal.ai/models/fal-ai/tavus/hummingbird-lipsync/v0)呼叫 API。
權威信源:https://www.tavus.io/post/introducing-hummingbird-0-a-leap-in-lip-sync

> “類似Sync影片->影片對口型 👄

百度Create2025 大會

釋出文心大模型 Turbo 版,心響 App,滄舟 OS,文心杯創業大賽等

Create2025 百度 AI 開發者大會發布了文心大模型 X1 Turbo 和 4.5 Turbo版本,能力更強、速度更快,成本更低。
此外,百度還發布了高說服力數字人、通用超級智慧體 心響 App、內容作業系統 滄舟OS 等多款 AI 應用,並宣佈將幫助開發者積極全面擁抱 MCP。大會正式啟動第三屆「文心杯」創業大賽
使用入口:文心大模型 4.5 公告(yiyan.baidu.com/notice/feature);百度數字人(huibo.baidu.com);心響 Agent(xinxiang.baidu.com);百度 MCP 生態平臺(sai.baidu.com/mcp)
權威信源:https://create.baidu.com | 官方介紹

中共中央政治局第二十次集體學習

堅持自立自強,突出應用導向,推動人工智慧健康有序發展

中共中央政治局 4 月 25 日下午就加強人工智慧發展和監管進行第二十次集體學習。中共中央總書記習近平在主持學習時強調,面對新一代人工智慧技術快速演進的新形勢,要充分發揮新型舉國體制優勢,堅持自立自強,突出應用導向,推動我國人工智慧朝著有益、安全、公平方向健康有序發展
西安交通大學教授鄭南寧同志就這個問題進行講解,提出工作建議。中央政治局的同志認真聽取講解,並進行了討論。
權威信源:https://www.gov.cn/yaowen/liebiao/202504/content_7021072.htm | 媒體報道 | 給政治局講人工智慧的西安交大鄭南寧報告全文

> “官方聲音:應用導向 ❗❗❗

2050

2050@2025 年青人因科技而團聚

2050是一個以「年青人因科技而團聚」為願景,由全球自願者共同發起的有關科技和未來的見面活動。從 2018 年開始,每年四月的最後一個完整週末,從週五開始到週日,我們會在杭州的雲棲小鎮團聚 2.5 天直到 2050 年。
2025年4月25日至4月27日,2050@2025 如約而至。
權威信源:https://2050.org | 官方介紹

>"年青人是不一樣的,他們來自世界不同的地方,說著不同的語言,熱愛不同的科學和技術,懷揣不同的夢想。年青人是一樣的,他們都是沒有傘的孩子,他們喜歡在雨中奔跑。——杭州市雲棲科技創新基金會發起人,阿里雲創始人 王堅

4 月 26 日

Lemon Slice X Deepgram

Lemon Slice Live 零樣本即時數字人聊天模型

Lemon Slice 公司與 Deepgram 合作研發了一款零樣本即時影片互動模型 Lemon Slice Live ,能夠將任意影像(照片、插畫或繪畫)轉化為可對話的數字人,全程跳過傳統角色訓練和動作繫結。
透過 Lemon Slice Live 線上應用,該技術能以 25fps 流暢幀率執行,提供自然的即時對話體驗,支援 10 種語言互動,並實現精準唇形同步、生動表情動畫和動態語音回應
使用入口:前往 Lemon Slice Live 官網(lemonslice.com/live)體驗;技術報告(lemonslice.com/live/technical-report)。團隊表示正在開創「互動媒體」的新正規化,未來將徹底改變內容消費形態,讓電視劇、電影、廣告甚至線上課程都能與觀眾即時對話。
權威信源:https://lemonslice.com/live/technical-report

> “優勢在於生成速度 ⚡

月之暗面

Kimi-Audio 通用音訊基礎模型,單一框架處理多樣化音訊任務(開源)

Kimi-Audio 是一個通用音訊基礎模型,能夠在單一統一框架內處理各種音訊處理任務,如自動語音識別(ASR)、音訊問答(AQA)、音訊字幕生成(AAC)、語音情感識別(SER)、聲音事件/場景分類(SEC/ASC)以及端到端的語音對話。
該模型訓練資料覆蓋 1,300 萬小時的語音、音樂和環境音資料及文字資料,在 LibriSpeech 、MMAU / VocalSound 及 VoiceBench 等基準測試中均取得當前最優效能。
使用入口:開源了模型/程式碼/評估工具包;前往 HugingFace 獲取模型(huggingface.co/moonshotai/Kimi-Audio-7B-Instruct);前往 Github 獲取程式碼(github.com/MoonshotAI/Kimi-Audio);技術報告(github.com/MoonshotAI/Kimi-Audio/blob/master/assets/kimia_report.pdf)。
權威信源:https://x.com/Kimi_Moonshot/status/1915807071960007115

Cognition Labs(Devin)

DeepWiki 工具免費開放,GitHub 倉庫一鍵轉 Wiki 式文件

DeepWiki 是一款基於大模型的 GitHub 倉庫分析工具,能夠為每個開源專案生成層次化結構的 Wiki 頁面,幫助開發者快速理解複雜專案的設計邏輯,並支援對話式互動探索。
DeepWiki 已索引超 3 萬個 GitHub 倉庫,處理了 40 億行程式碼和 1000 億 token ,計算成本超 30 萬美元,現已完全免費開放,使用者無需註冊即可使用
使用入口:前往 DeepWiki 官網(deepwiki.com)瀏覽熱門開源專案 Wiki;或將任何 GitHub URL 中 github 替換為 deepwiki 。
權威信源:https://x.com/silasalberti/status/1915821553465626791

> “AI將網際網路上的資訊進行結構化,再分享出來,是個不錯的嘗試 🥳

4 月 27 日

階躍星辰

Step1X-Edit 影像編輯大模型(開源)

Step1X-Edit 影像編輯大模型具備精準語義理解身份一致性保持高精度區域控制三項關鍵能力。在最新發布的影像編輯基準 GEdit-Bench 中,其效能媲美 GPT-4o 和 Gemini 2.0 Flash。
模型支援文字替換、風格遷移、材質變換、人物修圖、色彩調整、背景更改和主體替換等 11 類影像編輯細分任務,功能全面均衡。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/spaces/stepfun-ai/Step1X-Edit);前往 Github 獲取程式碼(github.com/stepfun-ai/Step1X-Edit);技術報告(arxiv.org/pdf/2504.17761)。前往階躍官網(stepfun.com)和階躍AI App 體驗。
權威信源:官方介紹

> “實測效果不錯,還支援本地化部署,好評 👏

4 月 29 日

阿里巴巴

Qwen3 多模態模型系列,MoE 與 Dense 架構覆蓋多引數規模(開源)

Qwen 系列大語言模型迎來最新成員 Qwen3。模型支援「思考模式」和「非思考模式」兩種模式,讓模型具備穩定且高效的「思考預算」控制能力,使使用者能夠根據具體任務控制模型進行思考的程度。
本次開源包括 2 個 MoE(混合專家)模型和 6 個 Dense(稠密)模型,覆蓋從 0.6B 到 235B 不等的引數規模。
MoE模型
  • Qwen3-30B-A3B
  • Qwen3-235B-A22B
稠密模型
  • Qwen3-32B
  • Qwen3-14B
  • Qwen3-8B
  • Qwen3-4B
  • Qwen3-1.7B
  • Qwen3-0.6B
使用入口:開源;前往 HugingFace(huggingface.co/Qwen/Qwen3-235B-A22B)或 Github(github.com/QwenLM/Qwen3)獲取模型;前往 Qwen Chat 網頁版(chat.qwen.ai)或者通義 App 體驗;呼叫 API(aliyun.com/product/tongyi)。
權威信源:https://qwenlm.github.io/blog/qwen3 | 官方介紹

> “Qwen3將推理模型和非推理模型進行了融合,MoE架構在本地執行時又可以獲得更高的輸出速度。Qwen將開源模型的標準推向了新的高度,不愧是開源之王 🥳

Higgsfield AI

Iconic Scenes 功能上線,照片一鍵融入經典電影場景

Iconic Scenes(經典電影場景)生成功能,可以將使用者上傳的人物照片替換到經典電影場景中。
網站預設了 20 多種經典電影場景模板(如《星際穿越》《駭客帝國》《泰坦尼克號》)及 30 多種風格化模板(如吉卜力動畫、復古迪士尼),並支援 80 多種專業鏡頭運動效果,讓普通照片瞬間升級為電影級動態畫面。
使用入口:前往 Higgsfield AI 官網(higgsfield.ai/scene)體驗;或者呼叫 API(higgsfield.typeform.com/HiggsfieldAPI)。
權威信源:https://x.com/higgsfield_ai/status/1916885476943802679

> “模板更新很快,質量也非常高 👍

OpenAI

ChatGPT 本月釋出長期記憶、輕量版 Deep Research 及個性化商品推薦等重要更新

4月11日,推出長期記憶功能(Plus 和 Pro 使用者),基於完整聊天曆史提供個性化回答。
4月25日,Deep Research 輕量版向 Plus、Team 和 Pro 使用者開放,達到原版使用限制後會自動切換至輕量版。免費使用者可以獲得輕量版的基礎支援。
4月29日,ChatGPT 搜尋功能升級購物體驗,向全球使用者(含免費及未登入)提供商品查詢、比較與購買服務。平臺強調是透過獨立篩選機制推薦產品,所有結果均非廣告。
權威信源:前往 ChatGPT 官網(chatgpt.com)或移動 App 體驗

習近平在上海考察

強調加快建成具有全球影響力的科技創新高地

中共中央總書記、國家主席、中央軍委主席習近平 29 日在上海考察時強調,上海承擔著建設國際科技創新中心的歷史使命,要搶抓機遇,以服務國家戰略為牽引,不斷增強科技創新策源功能和高階產業引領功能,加快建成具有全球影響力的科技創新高地。
29日上午,習近平在中共中央政治局委員、上海市委書記陳吉寧和市長龔正陪同下,來到位於徐彙區的上海「模速空間」大模型創新生態社群調研。
權威信源:https://www.gov.cn/yaowen/liebiao/202504/content_7021730.htm | 媒體報道

4 月 30 日

Amazon

Nova Premier 多模態基礎模型的旗艦版本

Amazon 推出旗艦多模態基礎模型 Nova Premier ,上下文長度達到 1M Token ,可處理極長的文件或大型程式碼庫
該模型亦可作為教師模型,透過 Amazon Bedrock 平臺將其先進能力蒸餾至 Nova Pro 、Nova Micro 和 Nova Lite 等更輕量化的衍生模型中。
使用入口:前往 Amazon Nova 官網(nova.amazon.com/chat)體驗;開發者可以前往 Amazon Bedrock 呼叫模型 API。
權威信源:https://aws.amazon.com/cn/blogs/aws/amazon-nova-premier-our-most-capable-model-for-complex-tasks-and-teacher-for-model-distillation | 官方介紹

> “感覺就是GPT-4.1的翻版,但比GPT-4.1賣得還貴 🤐

DeepSeek

DeepSeek-Prover-V2 數學定理證明模型系列釋出(開源)

DeepSeek 推出專為 Lean 4 形式化定理證明設計的高效能模型系列 DeepSeek-Prover-V2。該系列在 MiniF2F 測試中達到 88.9% 的透過率,併成功解決 PutnamBench 中的 49 道難題,展現強大自動推理能力。
模型提供 671B 和 7B 兩個版本: 671B 版基於 DeepSeek-V3 訓練,具頂尖數學推理能力;7B 版則優化了上下文處理,支援長達 32K Token 上下文
使用入口:開源;生成的證明部分開放下載;前往 HugingFace 獲取模型和資料(huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B)。
權威信源:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

> “這個模型感覺是為了強化學習的訓練準備的 🔍

小米

Xiaomi MiMo-7B 推理模型系列釋出(開源)

小米釋出其首個開源推理模型系列 Xiaomi MiMo ,引數量 7B ,由新成立不久的「小米大模型 Core 團隊」初步嘗試開發。
Mimo-7B 全系列模型均已開源,包括預訓練模型 Mimo-7B-Base 、監督微調模型 Mimo-7B-SFT 、以及強化學習模型 Mimo-7B-RL 和 Mimo-7B-RL-Zero 。
使用入口:開源 ;前往 HugingFace 獲取模型(https://huggingface.co/XiaomiMiMo)。
權威信源:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf | 官方介紹

> “RL已經成為模型訓練的主流了 👀

JetBrains

Mellum 程式碼補全聚焦模型系列首發,全新訓練支援 14 種程式語言(開源)

JetBrains 推出開發者專用大模型系列 Mellum,首個版本專注於程式碼補全任務,後續將陸續推出針對不同開發場景的專用模型
Mellum 並非基於現有模型微調,而是從零開始訓練的全新模型,訓練資料達 4 Trillion Token 。模型引數量 4B ,上下文長度 8K ,目前支援包括 Java 、Python 、JavaScript 等在內的 14 種主流程式語言的程式碼補全。本次開源釋出包含基礎模型 和 Python 指令微調模型
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/collections/JetBrains/mellum-68120b4ae1423c86a2da007a)。
權威信源:https://blog.jetbrains.com/ai/2025/04/mellum-goes-open-source-a-purpose-built-llm-for-developers-now-on-hugging-face

> “自動補全是否好用AI程式設計工具的一個核心競爭點 🎯

FASHN AI

FASHN v1.5 虛擬試穿模型釋出與重要升級

FASHN v1.5 虛擬試穿模型於3月29日釋出,重點優化了寬松服裝試穿效果並更精準保留體型、紋身等身體細節,同時簡化操作流程,模型可自動管理多項引數(如恢復背景、恢復衣物、長上衣、調整手部、覆蓋腳部等)。
4月30日,模型進一步升級,支持最高 100 萬畫素輸出解析度及更靈活的尺寸控制,API 介面保持不變,旨在提升真實感和易用性。
使用入口:前往 FASHN AI 官網(fashn.ai)使用,或者呼叫 API(fal.ai/models/fal-ai/fashn/tryon/v1.5)。
權威信源:https://fashn.ai/blog/fashn-resolution-upgrade-larger-outputs-flexible-aspect-ratios-same-speed

沐言智語

Muyan-TTS 零樣本語音合成模型,低成本易於二次開發(開源)

Muyan-TTS 是一款低成本、完全開源且易於二次開發的文字轉語音(TTS)模型,旨在為學術界和小型應用團隊提供靈活的語音合成解決方案。
當前版本主要針對英語最佳化,包含一個在多樣化長音訊資料集上預訓練的基礎模型(支援零樣本 TTS 合成)和一個在單一說話人資料上微調的模型(可進一步提升語音質量)
使用入口:開源了訓練程式碼和微調方法;前往 HugingFace 獲取模型(huggingface.co/MYZY-AI/Muyan-TTS,https://huggingface.co/MYZY-AI/Muyan-TTS-SFT);前往 Github 獲取程式碼(github.com/MYZY-AI/Muyan-TTS);技術報告(arxiv.org/abs/2504.19146)。
權威信源:官方介紹

中央網信辦

部署開展「清朗·整治AI技術濫用」專項行動

為規範 AI 服務和應用,促進行業健康有序發展,保障公民合法權益,近日,中央網信辦印發通知,在全國範圍內部署開展為期 3 個月的「清朗·整治AI技術濫用」專項行動。中央網信辦有關負責人表示,本次專項行動分兩個階段開展。
第一階段強化 AI 技術源頭治理,清理整治違規AI應用程式,加強AI生成合成技術和內容標識管理,推動網站平臺提升檢測鑑偽能力。第二階段聚焦利用 AI 技術製作釋出謠言、不實資訊、色情低俗內容,假冒他人、從事網路水軍活動等突出問題,集中清理相關違法不良資訊,處置處罰違規賬號、MCN 機構和網站平臺。
權威信源:https://www.cac.gov.cn/2025-04/30/c_1747719097461951.htm | 官方介紹

相關文章