2025.05.21

本文字數：977，閱讀時長大約2分鐘

作者 | 一財科技

北京時間5月21日，谷歌開發者大會（Google I/O）上公佈了在AI技術上的最新進展，從基礎模型升級到生成式內容工具推出，再到硬體更新，標誌著谷歌將AI技術融入其生態系統的程序又邁出重要一步。

一、Gemini模型升級，多模態能力顯著提升

核心亮點仍是Gemini模型。Gemini 2.5 Pro 和 Flash 模型全面支援視聽輸入和原生音訊輸出對話，開發者可透過Live API 預覽版構建和微調對話體驗的音調、口音和說話風格等。Gemini還可作為Chatbot登入Chrome瀏覽器，幫助使用者快速理解頁面上下文並完成任務。其中，Deep Think模式引入增強型推理機制，在處理數學、程式設計和多模態任務時，能夠在回答前充分考慮多種可能性，顯著提升了模型的推理能力。

二、生成式內容工具再升級

谷歌推出的Veo 3影片生成模型支援原生音訊生成，不僅能夠生成高畫質影片，還可為影片新增背景音樂、音效甚至對白，解決了以往AI影片生成中“有影無聲”的問題，極大提升了AI影片的質量和真實感。

Imagen 4影像生成模型在影像細節和文字輸出質量上有了質的飛躍。谷歌表示，該模型能夠渲染織物、水滴和動物皮毛等精細細節，支援照片級寫實和抽象等多種風格，並可建立各種縱橫比、高達2K解析度的影像，為創作者提供了更強大的影像生成工具。

三、AI代理助力生活便捷化

谷歌的實驗性AI代理工具Project Mariner迎來更新，其工作方式得到最佳化，可一次承擔近十幾項任務。例如，使用者無須訪問第三方網站，即可透過該工具購買棒球比賽門票或線上購買雜貨，為使用者的日常生活帶來了極大的便利。

谷歌還推出了全新視訊通話平臺Google Beam，硬體包括一個六攝像頭陣列和定製的光場顯示器，軟體上一個AI模型將不同角度指向使用者的攝像頭影片轉換為3D渲染，讓使用者可以像處於同一個會議室一樣互相交談。谷歌的Beam可實現毫米級頭部跟蹤和60fps影片流。當與Google Meet一起使用時，Beam提供即時語音翻譯功能，可保留說話者的聲音、語調和表情。

四、XR智慧眼鏡亮相

谷歌與Xreal、Samsung等品牌合作，推出了整合AI助手功能的Android XR智慧眼鏡。這款眼鏡支援即時翻譯、導航和資訊提示等功能，是谷歌在可穿戴裝置領域的新嘗試，為使用者提供了全新的互動體驗和便捷的資訊獲取方式。

針對各項AI升級功能，谷歌推出了每月249.99美元的AI Ultra訂閱計劃，為使用者提供Gemini 2.5 Pro的Deep Think模式、Veo 3影片生成工具等高階AI功能的訪問許可權，並提供更高的使用限制和額外儲存空間。

微信編輯 | 龍王

推薦閱讀