谷歌的人工智慧模式現在可以識別影像並基於影像進行搜尋

點選藍字關注我們

SUBSCRIBE to US

Image: Cath Virginia / The Verge

谷歌正在為其以搜尋為核心的人工智慧模式（AI Mode）聊天機器人新增多模態功能，使其能夠“識別”影像並回答有關影像的問題，同時谷歌將人工智慧模式（AI Mode）的使用許可權擴充套件到“數百萬更多”使用者。

此次更新將定製版的Gemini AI與該公司的Lens影像識別技術相結合，使人工智慧模式搜尋（AI Mode Search）使用者能夠拍攝或上傳一張圖片，並收到有關圖片內容的“包含連結的豐富、全面的回覆”。人工智慧模式（AI Mode）的多模態更新從現在起可用，可透過安卓（Android）和蘋果（iOS）系統上的谷歌應用（Google app）使用。

“人工智慧模式（AI Mode）建立在我們多年視覺搜尋工作的基礎之上，並更進一步，”谷歌搜尋產品副總裁Robby Stein表示。“藉助Gemini的多模態能力，人工智慧模式（AI Mode）能夠理解影像中的整個場景，包括物體之間相互關聯的上下文以及它們獨特的材質、顏色、形狀和佈局。”

谷歌表示，此次更新使用了一種“fan-out technique”，針對它所識別的影像及其內的任何物體發出多個查詢，以提供“非常細緻入微且與上下文相關”的回覆。這使得它能夠做到諸如識別影像中展示的書籍、為評分較高的類似書籍提供建議，以及回答問題以進一步篩選推薦內容等事情。

搜尋人工智慧模式（AI Mode）是谷歌對Perplexity和ChatGPT搜尋的回應，這是一種類似聊天機器人的體驗，它利用從谷歌搜尋索引中的所有內容提取的人工智慧生成的摘要來回應查詢。

人工智慧模式（AI Mode）上個月專門面向Google One AI Premium訂閱使用者推出，不過僅在實驗室（Labs）範圍內。現在，谷歌表示，它已經開始讓美國“數百萬更多”的實驗室（Labs）使用者（不僅僅是付費的人工智慧高階訂閱使用者）使用人工智慧模式（AI Mode）。