2025.05.21

本文字數:977,閱讀時長大約2分鐘
作者 | 一財科技
北京時間5月21日,谷歌開發者大會(Google I/O)上公佈了在AI技術上的最新進展,從基礎模型升級到生成式內容工具推出,再到硬體更新,標誌著谷歌將AI技術融入其生態系統的程序又邁出重要一步。
一、Gemini模型升級,多模態能力顯著提升
核心亮點仍是Gemini模型。Gemini 2.5 Pro 和 Flash 模型全面支援視聽輸入和原生音訊輸出對話,開發者可透過Live API 預覽版構建和微調對話體驗的音調、口音和說話風格等。Gemini還可作為Chatbot登入Chrome瀏覽器,幫助使用者快速理解頁面上下文並完成任務。其中,Deep Think模式引入增強型推理機制,在處理數學、程式設計和多模態任務時,能夠在回答前充分考慮多種可能性,顯著提升了模型的推理能力。
二、生成式內容工具再升級
谷歌推出的Veo 3影片生成模型支援原生音訊生成,不僅能夠生成高畫質影片,還可為影片新增背景音樂、音效甚至對白,解決了以往AI影片生成中“有影無聲”的問題,極大提升了AI影片的質量和真實感。
Imagen 4影像生成模型在影像細節和文字輸出質量上有了質的飛躍。谷歌表示,該模型能夠渲染織物、水滴和動物皮毛等精細細節,支援照片級寫實和抽象等多種風格,並可建立各種縱橫比、高達2K解析度的影像,為創作者提供了更強大的影像生成工具。
三、AI代理助力生活便捷化
谷歌的實驗性AI代理工具Project Mariner迎來更新,其工作方式得到最佳化,可一次承擔近十幾項任務。例如,使用者無須訪問第三方網站,即可透過該工具購買棒球比賽門票或線上購買雜貨,為使用者的日常生活帶來了極大的便利。
谷歌還推出了全新視訊通話平臺Google Beam,硬體包括一個六攝像頭陣列和定製的光場顯示器,軟體上一個AI模型將不同角度指向使用者的攝像頭影片轉換為3D渲染,讓使用者可以像處於同一個會議室一樣互相交談。谷歌的Beam可實現毫米級頭部跟蹤和60fps影片流。當與Google Meet一起使用時,Beam提供即時語音翻譯功能,可保留說話者的聲音、語調和表情。
四、XR智慧眼鏡亮相
谷歌與Xreal、Samsung等品牌合作,推出了整合AI助手功能的Android XR智慧眼鏡。這款眼鏡支援即時翻譯、導航和資訊提示等功能,是谷歌在可穿戴裝置領域的新嘗試,為使用者提供了全新的互動體驗和便捷的資訊獲取方式。
針對各項AI升級功能,谷歌推出了每月249.99美元的AI Ultra訂閱計劃,為使用者提供Gemini 2.5 Pro的Deep Think模式、Veo 3影片生成工具等高階AI功能的訪問許可權,並提供更高的使用限制和額外儲存空間。
微信編輯 | 龍王
推薦閱讀