
成為多模態時代的原生 AI 入口,體驗真的有明顯改變嗎?
作者|張勇毅
作為 2025 年動作最多的 AI 產品之一,夸克近期在釋出了「AI 超級框」後,又帶來了新的 AI 多模態入口————拍照問夸克。
作為手機相比其他 AI 硬體來講,拍照是讓手機自始至終留在 AI 最前線的原因,圍繞手機相機這個入口,不斷湧現出優秀的 AI 原生應用。
在夸克上線 拍照問夸克時,我剛好在臺灣出差。就在上週,夸克 App 不僅登頂臺灣地區 App Store 工具排行榜,甚至還登上了免費應用榜第二名,意外成為寶島使用者們追捧的熱門應用,甚至在臺灣島內引發了關於 AI 產品的不小話題度。

不少臺灣使用者在實際體驗過夸克後,在社交媒體分享,認為夸克 AI 深度思考功能在旅遊出行、健康諮詢、投資置業、法律諮詢,以及很多學生黨提到的拍照搜題解析等方面都能給到優質回答參考,幫助提升決策效率,是繼 DeepSeek 之後的又一大陸 AI「神器」。
因此機緣巧合之下,我帶著剛剛風靡臺灣的夸克,開啟了一場臺灣之旅,想看看夸克這次能給我的體驗帶來哪些改變。
01
從使用者角度來看,直接使用相機作為與 AI 應用交流的工具,顯然也確實要比純文字輸入要便捷許多,但過去數年相機內容識別領域似乎並沒有孵化出真正意義上的「爆款產品」,AI 產品給普通使用者留下最刻板的印象,仍然是一個「更聰明的聊天機器人」。
這也是夸克 AI 相機與其他產品的最大不同之處。夸克 AI 相機的產品互動理念,其實高度趨同 「AI 超級框」,更像是將我們熟悉的文字與大模型互動的體驗,遷移到相機中,作為「新入口」。
夸克 AI 相機的能力也是提供了一個解讀物理世界的統一入口,例如博物館、展覽等場所,一直是 AI 相機聚焦的核心使用者場景——這也恰好是大多數人旅遊最常見的場景所在。

搜圖本身就是夸克一直以來的優勢領域,對於最關鍵的識別物體「是什麼」這件事上,夸克有著幾乎是市面上最好的識別準確度,這一點在 AI 相機中也有體現。
在參觀博物館時,對於這樣經常會拍很多照片的場景,我經常會忍不住拍攝很多照片,所謂「拍圖一時爽修圖火葬場」,這對於後期處理圖片來講經常就是一件很頭疼的事。
由於夸克 AI 相機支援一次上傳/拍攝最多 10 張圖進行智慧交叉分析,因此我可以直接讓它根據我提供的一組圖片,識別並總結多圖中的所有展品內容,自動幫我生成一個可以發朋友圈/小紅書的文案。

你甚至可以把同一個場景拍攝的兩張圖同時傳給夸克 AI 相機,讓它來決定哪個更適合發朋友圈,哪一個發小紅書,能獲得更多的點贊。

在我的體驗中,夸克 AI 相機的多圖識別另一個「高光時刻」,是在點餐時,我可以一口氣將選單上的每一頁都用 夸克 AI 相機先給拍下來,然後以一種類似「逛淘寶新增購物車」一般的體驗,線上下點餐。甚至可以直接將夸克的回覆,展示給店員,讓夸克全流程幫我完成點餐這件事。你還能在點完餐後,要求夸克根據現有的點餐資訊,幫我整理出這頓飯攝入的熱量。

對於一個更加聰慧的 AI 相機來講,在完成使用者的基本需求的同時,更大的想象空間還在於如何主動判斷那些使用者隱藏在照片背後,無法更好的用語言形容的問題。
在我的體驗中,給我的體驗帶來變化最大的,是夸克 AI 相機能準確識別臺灣現實世界複雜場景,並進行深度推理的能力。
這一能力的一個體現,在夸克 AI 相機對於模糊照片資訊的搜尋上。例如我在社交媒體上看到一個非常著名的、適合拍飛機的地點,但原圖實際上非常模糊。直接扔給傳統的 AI 影像識別 App,效果往往不甚理想。
按照近兩年 AI 影像識別產品的常規思路,應該是先「提升圖片清晰度」然後再全網檢索類似風格的圖片,進行深度搜索。但夸克依託對原圖的檢索匹配能力,準確識別到了正確圖片原圖拍攝地址。

對已經非常模糊的網路圖片,夸克 AI 相機可以透過「溯源」的方式,直接找到原本的釋出來源|圖片來源:極客公園
除了多圖識別,夸克 AI 相機還藉助本身的模型能力,在更精準的資訊獲取的同時,實現了更智慧的意圖識別,理解我在拍攝同時的提問意圖,智慧推薦對應功能。
例如我在抖音上看到臺灣本土有哪些比較好拍的街景,我可以直接截圖下來,扔進夸克 AI 相機裡,它就會智慧推薦這附近的著名景點。
在當地的很多博物館中都有有趣的文創小玩具,但有一個問題是太貴,但我可以直接順著這個問題問下去: 例如直接提問我在淘寶上怎麼買到同款玩具,AI 相機就可以立即透過我拍到的紀念品樣式,透過接入的淘寶拍立淘能力,給我推薦類似玩具的淘寶在售連結。
除了好用的原圖識別,夸克 AI 相機透過多輪圖片問答,讓你可以針對一些基於圖片產生的複雜問題,進行連續追問和深度對話。在短暫的上手、理解了 AI 相機的這套互動邏輯之後,你大機率還能舉一反三,用這套公式去解決更多以往文字互動難以高效解決的問題。
例如我在上傳某家餐廳相關的資訊後,就能根據此前的圖片中上傳的資訊,持續進行深度的提問,並且在後續的提問中,隨時可以進行補充圖片、並繼續追加提問更多細節。
02
從一週對夸克「拍照問夸克」的實際體驗中,我也逐漸理清了是什麼讓夸克 AI 相機,相比以往相機識別類 App 更加好用的「秘訣」。
從拍照識別到 AI 相機這個概念,更像是從「Know-What」到「Get it Done」的一個產品形態躍遷——我們其實已經在過去 1-2 年看到過不少類似產品都在依託 AI 能力,完成這樣類似「鯉魚躍龍門」一般的變遷。
在今年推出「AI 超級框」之後,夸克在 AI 相機上的佈局,本質上也是一種類似「AI 超級框」的產品形態躍遷。透過結合多模態視覺理解和深度思考模型,將手機相機入口升級為全場景智慧體入口。
顯然,作為透過手機感知世界資訊的主要優勢,影像表達的方式更加便捷,無論是拍攝眼前畫面還是上傳相簿圖片,都能夠更直接地與物理世界互動並快速獲取資訊,在實際體驗後我也會覺得,「拍照問夸克」本身就代表了一種 AI 應用互動體驗的一種趨勢。
夸克 AI 相機的「好用」,不僅是因為其對應場景下百億級語料和專業文庫等支援,確保影像解析和意圖識別精準度行業領先;同時藉助過去夸克文搜圖時代積累下的大量圖片資料庫和對圖片的語義理解,夸克 AI 實物識別的任務處理中,能提供比同類產品更精準的資訊反饋,以及主動提供更加精準匹配使用者潛在需求的服務。
其次,與「AI 超級框」一脈相承的,還有 Agent All in One 的理念。透過把夸克長期以來積累的搜尋能力、學習能力,在 AI 相機背後,作為可呼叫的獨立 Agent。

在 AI 相機中,夸克此前的掃描、學習、醫療以及 PPT 等功能都被整合進統一入口|圖片來源:極客公園
在 AI 相機中,將圖搜、掃描、截圖等多個功能作為獨立 Agent 智慧呼叫。透過整合夸克已有的優勢 Agent,如解題、醫療、文創和掃描王等,夸克在一個 AI 相機的入口,就能一站式呼叫多種 Agent 能力。
在將相機升級為智慧體入口後,用一個「拍照問夸克」按鈕承接工作、學習、生活、購物、創作等幾乎無限的需求。大幅提升大模型能力在「相機」這一場景下的可用性,才是夸克「技術護城河」的核心所在。
03
當前,AI 應用為王的趨勢已經變得愈發明顯,但真的想要打造爆款,甚至是改變使用者使用相機乃至搜尋引擎的習慣,真正在比的,其實是 UI 之下,大模型廠商對 Agent 的整合能力。
從基礎模型到最終產品,大模型廠商還有很多工作要做。在實際使用體驗之後我更加確信,想要讓看似簡單的一個「拍照搜尋」真正變成「AI 相機」,絕不只是做一個多模態大模型那樣簡單。
這個過程,或許不如做一款模型來的「性感」,但對於使用者體驗來講同樣重要。這就是「拍照問夸克」能力想要交付給使用者的真正核心體驗。
無論是「從單模態到多模態」,還是「從物體識別到 Agent 新入口」,其實最終的重點都落在了,如何在使用者的剛需場景中,透過自主決策理解使用者意圖,滿足使用者延伸出來的各種碎片化需求。
對夸克與阿里來講,這樣的能力,在未來的 AI 多模態能力、乃至無法更多依賴文字輸入的 AI 贏家終端競爭中,都會顯得至關重要:尤其是今年已經有夸克與天貓精靈合作研發 AI 眼鏡的訊息流出,已經可以想象,當前夸克在 AI 入口領域的理解與優勢,都可以無縫延伸到智慧眼鏡乃至更多 AI 智慧硬體上。
這樣面向使用者的產品塑造能力,是讓夸克能夠數次打造出 AI 產品爆款概念的關鍵所在,也是近期夸克 AI 搜尋框在臺灣走紅、乃至走向世界的底層能力。