4個悄然崛起的AI開源專案，已開源！

現在的 AI 圈子，簡直就是一個大型開盲盒現場——你永遠不知道，明天又會冒出哪個神仙工具。

這一篇我們來聊聊最近的 AI 新進展。

Google Cloud Next 2025 釋出了新一代AI模型和晶片，還聯合50+夥伴推出了開源Agent協議。

與此同時，兩個AI工具快速躥紅，一個能一鍵完成影片翻譯+配音，另一個讓文件秒變Markdown。

Google Cloud Next 2025

Google Ironwood TPU：AI的新引擎

在大模型邁向推理型智慧（Reasoning AI）之際，傳統AI晶片正在被逼近極限。

谷歌釋出會：

https://blog.google/products/google-cloud/next-2025

Google最新發布的第七代TPU——Ironwood，就是為此而生。

它相比第一代強大3600倍，堪比英偉達的新顯示卡B200.

為什麼它重要？

推理最佳化：適配LLM、MoE、大型AI Agent等模型計算結構。
叢集規模驚人：支援9,000多顆TPU並聯，整合42.5 Exaflops算力。
能耗大跳水：效能/能耗比是上代的兩倍，且全線液冷。

這意味著，對於擁有大規模 AI 訓練需求，需要極低推理延遲與高併發的企業而言，Ironwood 或能大幅降低運營成本，並在算力層面縮小企業與大廠之間的技術鴻溝。

Gemini 2.5 Flash：模型的平衡美學

前段時間，Google推出的Gemini 2.5 Pro已經被視為其最頂尖、最智慧的大模型之一。

在深度搜索(Deep Research)上超越OpenAI的深度搜索。

然而，Pro級模型對於很多企業或應用場景而言可能“有些過度”，於是 Google 推出了它的輕便版本 —— Gemini 2.5 Flash

Google AI Studio：

https://aistudio.google.com

它的出現的推出正是為了解決這一痛點——它被定位為在提供強大推理能力的同時儘量保證低延遲和高性價比的版。

它解決了什麼痛點？

不再“過度思考”：根據問題難度動態調整“思考量”，回答快準省。
企業友好：可配置推理預算引數，在速度、準確率、成本間靈活權衡。
支援本地部署：資料安全敏感型企業可部署在GDC或Nvidia硬體上。

Google將其稱為“workhorse model（工作馬）”，意味著它可能不是最聰明的那一個，但一定是跑得最穩、最划算的那個。

Vertex AI的全模態升級

Vertax AI：

https://cloud.google.com/vertex-ai

Google大幅強化了Vertex AI在多模態生成方面的能力，使其成為市面上罕見的同時支援影片、影像、語音、音樂生成的雲端平臺。

Veo 2（影片生成）：新增編輯和攝像機控制，支援在兩張靜態影像之間插值生成自然的影片過渡，也可以自動摳圖並擴充套件原始影片背景。營銷、影視、廣告公司都能用它來快速製作和迭代影片素材。

效果一：兩張靜態影像之間插值生成自然的影片過渡

效果二：橫豎屏轉換

效果三：鏡頭編輯。比如下面繩索移除。

Image 3（影像生成）：場景智慧擴充套件，物件移除自然過渡
Chirp 3（語音合成）：十秒音訊定製語音，客服TTS神器TTS（Text-To-Speech）。
Lyria（文字到音樂）：可直接透過文字提示生成完整的音樂片段，覆蓋多種曲風與主題。

我到是覺得這裡用的好的話，有點像文案+設計+剪輯+配音=一個AI通才。

Agent2Agent 協議：讓AI之間也能“聊得來”

在AI Agent快速湧現的當下，從企業內部的流程自動化，到面向使用者的多輪對話系統，Agent正在承擔越來越多工。然而，不同框架/廠商之間的Agent彼此無法交流，成了最大障礙。

為了解決這一問題，Google聯合50多家技術夥伴（如Atlassian、Box、Langchain、Salesforce、ServiceNow、MongoDB等）正式釋出了 Agent2Agent（A2A）開源協議，標誌著 “AI Agent互操作新時代” 的到來。

谷歌Agent A2A：

https://github.com/google/A2A

先來看一段官方演示。影片概括：

一個Agent負責候選人簡歷篩選，另一個Agent負責面試排程，第三個Agent負責背景調查——它們可以透過A2A協議像人一樣協同工作，從而極大提升效率與自動化水平。

Google主導的開源協議Agent2Agent (A2A) 正在為AI系統建立一種通用的互動語言。

它的亮點在於：

異構協作：無論用的是LangGraph、Genkit還是CrewAI，基於A2A都能互聯互通。
結構化通訊：任務分階段管理（提交、處理中、等待輸入、完成等），內容用“訊息+部分”打包，既清晰又靈活。
推送 & 流式支援：支援即時SSE流+Webhook，能感知任務進展、結果變更。
與Anthropic的MCP協議互補：A2A解決多Agent協同，MCP則負責上下文與提示注入，構成企業級Agent系統的“雙協議底座”

Google預計將在今年內正式推 A2A 協議，並開放貢獻通道，推動其成為AI Agent界的“TCP/IP”。它的出現，很可能會讓我們對“AI協作”的想象力，再次升級。

Krillin AI：AI配音影片神器

上面谷歌的影片編輯，音訊處理，需要你氪金才能使用，但是別擔心我為你們找來了開源平替版！

上線首日拿下GitHub熱榜第二！

Krillin AI：

https://github.com/krillinai/KrillinAI

多種字幕翻譯：

人聲配音：

橫豎屏轉換：

核心功能：

Whisper高精度識別 + LLM段落級翻譯
音色克隆 + CosyVoice
橫豎屏切換、字幕對齊自然
桌面版/非桌面版全支援，Win/Mac/Docker都能跑

適配平臺包括B站、小紅書、抖音、影片號、YouTube、TikTok，幾乎無縫對接內容創作者的全平臺需求。

MarkItDown：文件到Markdown的極簡利器

你是否經常需要處理各種格式文件，用於 LLM 訓練、摘要提取、RAG 等流程？

微軟團隊打造的 MarkItDown 是一個開源小工具，卻能極大提高效率。

MarkItDown：

https://github.com/microsoft/markitdown

它支援什麼？

PDF / Word / PPT / Excel / HTML / 音訊 / 圖片 / EPUB / YouTube連結
OCR識別、結構保留、支援外掛擴充套件
支援命令列 + Python API，開發者友好

尤其適合內容抽取、語料整理、知識庫構建等應用場景。

寫在最後

從Google的Ironwood晶片，到Krillin AI的開源全能神器；從AI協作協議A2A，到MarkItDown的極簡資料清洗工具，我們看到的是AI能力從“實驗室”邁向“生產一線”。

AI工具正從“能用”進化為“真正好用”

而你我作為使用者，也在這個過程中，逐步掌握屬於自己的“AI生產力”。

如果喜歡這類內容，別忘了點贊關注~

下期我們會帶來更多有趣的AI前沿前沿工具 & 實戰玩法！我是 Jack，我們下期再見！

·················END·················

dignews.cc

4個悄然崛起的AI開源專案，已開源！

Google Cloud Next 2025

Google Ironwood TPU：AI的新引擎

Gemini 2.5 Flash：模型的平衡美學

Vertex AI的全模態升級

Agent2Agent 協議：讓AI之間也能“聊得來”

Krillin AI：AI配音影片神器

MarkItDown：文件到Markdown的極簡利器

寫在最後

相關文章

終究是Google和Anthropic，扛下了連線一切Agent的所有

一文看懂GoogleCloudNext25AI大更新：Google一夜十二次，能否逆襲當回AI界老大

Gemini大模型逆襲，給了GoogleCloud「AI基建」的勇氣

42.5Exaflops：谷歌新TPU效能超越最強超算24倍，智慧體協作協議A2A出爐

Exa：給AIAgent的“BingAPI”

拾象2025AIBestIdeas：20大關鍵預測

OpenAI，Google和阿里們都“認”了的MCP，究竟給開發者帶來啥實惠了

谷歌開始搶佔智慧體地盤！釋出A2A開源協議打破企業間Agent壁壘，OpenAI系缺席標準之戰

TPU效能提升10倍，開源A2A顛覆智慧體互動| Google CloudNext25劃重點

Agent時代的HTTP來了？谷歌A2A開源協議打破企業間Agent壁壘，OpenAI系缺席標準之戰