【年度專題】AI+AR，將促成下一代計算平臺的飛躍

文/VR陀螺萬里

近期百度公佈了2023年百度沸點年度關鍵詞，不出意外，生成式AI赫然在列。

去年一年當中，各大科技巨頭相繼釋出了其AI大模型，GPT-4、LLaMA、PaLM2、Runway Gen 2、文心一言、Meta AI、Gemini……AI大模型產品無疑是目前科技圈最重要的“興奮劑“，而其更新迭代速度也讓很多人眼花繚亂。

目前AI已然成為電子消費市場的核心訴求之一，這點在我們今天要聊的AR眼鏡市場也同樣如此。

在早些時候，AR眼鏡的重要議題仍停留在“AR眼鏡能否成為下一代計算平臺？”而到了現在，社會更關注的議題已經變成“未來眼鏡形態的智慧終端能否成為AI的絕佳載體？”

無論是新的計算平臺，又或是新的AI計算終端，AR眼鏡都成為了其中不容忽視的關鍵一環。

本文將回顧2023年以來一眾AR廠商關於AI應用場景的探索，並展望“AI+AR”兩者的發展趨勢。

圖源：VR陀螺

AI+AR是眾望所歸，當前AR眼鏡的

AI能力仍集中於語音互動

從2023這一年的發展來看，AI對於AR眼鏡的重要性已無需多言。關於這點我們可以先從AR行業大咖發聲中略窺一二：

Meta CEO 扎克伯格：我認為智慧眼鏡將成為未來的一個重要平臺……之前團隊不少人認為智慧眼鏡只有當真正實現3D全息圖、內建顯示器等才會真正普及，但是這需要很長的時間。如今得益於AI的進步，內建的AI助手將能看到你所看到的，聽到你所聽到的，AI將與其他AR功能同樣重要。

Snap CEO Evan Spiegel：我相信我們都在腦海中對自己想要創造的東西有一個願景。然而，通常情況下，這些工具不夠複雜，無法讓我們將想象的影像、影片或AR體驗變為現實。我認為AI將有助於彌合我們的想象力和我們可以在手機或AR眼鏡上實際創造的東西之間的差距。

圖源：Snap

雷鳥創新 CEO 李宏偉：我們相信，AI 會是 AR 眼鏡上第一個 Killer APP……AI 和 AR 的結合可以給未來的映象世界打造非常好的內容基礎。未來元宇宙的內容很大程度上會是 3D 內容，3D 內容的產生比較複雜，而 AI 大模型可以在這一方面發揮特別重要的作用。

李未可科技創始人兼CEO 茹憶：AR眼鏡有望成為“下一代計算終端”，而AI的互動能力，也將成為AR眼鏡的核心能力。二者的深度結合，將使AR眼鏡成為一個真正意義上無縫融入人們生活的智慧裝置，而不僅僅是一個離頭最近的玩具。同時，在AI 和AR的深度融合方面，李未可正在打造的是 AI Agent，它也並非是一個更智慧的助理或是更方便的互動模式如此簡單，AI Agent 將是融合手機上所有Apps 的能力，成為 AR眼鏡的一個系統。

圖源：李未可科技

如果回顧2023年所釋出的AR眼鏡產品，可以發現其中大多數產品都與AI進行了靠攏，並且嘗試基於AI為使用者帶來更優秀的使用體驗。如果展開來看，其中不乏隱性的AI能力構建，比如基於AI演算法提升語音識別準確率、在互動場景中透過AI提升手勢識別以及SLAM的魯棒性等。而對於使用者而言，最容易感知的莫過於AR廠商基於AI為我們帶來的新功能以及場景探索。

2023 AR眼鏡及其AI玩法盤點（圖源：VR陀螺）

以下是常見的AI功能玩法：

語音助手：這是目前AR眼鏡裝置最為常見的AI體驗，當裝置接入ChatGPT或者類似的大型自然語言模型後，眼鏡支援上下文語意理解，並且能夠以更趨近於真人的方式回覆使用者。舉例而言，李未可Meta Lens S3搭載了大型語言模型AI系統，你可以透過語音的方式與裝置閒聊、獲得一些健身、旅遊行程方面的建議等。你可以面向裝置詢問各種五花八門的問題，有時候還會獲得一些意想不到的回覆。

Meta Lens S3的“吐槽垃圾桶”功能

（圖源：VR陀螺）

物體識別：這也是AR眼鏡常見功能之一，較為典型的產品是Ray-Ban Meta，它將在今年引入建築識別、選單/路牌翻譯等功能。國內雷鳥X2、ARKnovv A1等產品也內建了識物功能，不過基於當前體驗來看，裝置的物體識別準確率還有待提升。

海外的Envision Glasses則另闢蹊徑為眼鏡開發了一項人臉識別功能，它可以識別生活中親朋好友的面孔，用以解決一些患有視障或者臉盲症的使用者群體的社交問題。

雷鳥X2識圖功能（圖源：VR陀螺）

生活/辦公助理：目前已經有部分AI智慧終端顯露出了“AI Agent"的苗頭，在這一方面Ai Pin走在了前列。Ai Pin與使用者的社交生活進行了深度繫結，如使用者可透過語音指令驅動裝置向親友傳送符合心意的聊天回覆；AI可以幫助使用者快速整理郵件並提取有價值的資訊；AI可以提供生日禮物購買建議並快速下單等。

除Ai Pin外，我們也可以從Rokid裝置中看到類似的用例。Rokid在去年Rokid Jungle活動期間亮相了空間搜尋功能，當用戶搜尋網頁、影片等內容時，系統會根據資訊的權重呈現出不同的排列方式，該功能不但兼顧了AR的使用直覺，同時也透過AI功能進一步提升了使用者對於資訊的獲取效率。

圖源：Rokid

圖生圖：目前AR眼鏡裝置關於“AI生成內容”的玩法仍以文生文體驗為主，文生圖、文生影片等體驗則相對稀缺。ARKnovv A1是目前為數不多的支援AI圖生圖的眼鏡產品，眼鏡可以對其拍攝畫面進行“二創”以生成風格多樣化的圖片，並支援匯出到社交平臺。該功能背後依賴於開源大模型Stable Diffution。

ARKnovv A1的AR創作功能（圖源：VR陀螺）

多模態AI是眾望所歸

全天候AI是北極星指標

如果說2023年是“AI+AR”的小試牛刀，那麼2024年便是其進一步爆發的節點。有訊息指出，在新的一年中，華為、科大訊飛等更多廠商會進一步入局AR眼鏡市場，以實現市場佔位。從功能來看，預計“AI+AR”將會迎來以下新變化：

多模態AI

目前AR眼鏡所採用的多為單模態AI大模型，這使得產品的玩法相對單一，難以實現更復雜的多元資訊處理能力。未來我們有望看到多模態AI在眼鏡終端的進一步應用落地。

所謂多模態AI，指的是能同時處理文字、影像、音影片、程式碼等多種資訊的人工智慧，它的資訊處理方式更接近於人類的“所看、所聽、所想”。近期谷歌所釋出的Gemini正是多模態AI的代表之一，從演示影片中我們可以發現Gemini可以“理解”使用者在紙上所畫的內容，並能結合使用者的對話交流給予相應的反饋。

Gemini演示影片（圖源：谷歌）

無獨有偶，Meta也正在為Ray-Ban Meta引入多模態AI能力，去年年底扎克伯格展示了基於智慧眼鏡的一個服裝搭配使用場景：當眼鏡鏡頭對準衣服，AI不僅可以識別襯衫的樣式，並且還能進一步給出相應的穿搭建議。在這麼一個簡單的場景中，其實需要呼叫自然語言處理、圖片識別、推理等多種能力，這些都是單模態AI所難以實現的。

可以預見，未來多模態AI將有望成為AR眼鏡的標配，甚至我們可以進一步推測：AR眼鏡產品的攝像頭將會成為至關重要的模組之一，攝像頭或許會在AR眼鏡上率先落地，其優先順序甚至會高於光學螢幕。

圖源：Meta

更強的生產力屬性：

除智慧手錶、智慧手機以外，AR眼鏡同樣是一個絕佳的隨身攜帶可穿戴式裝置。當前智慧手機主要作為使用者資訊中樞、智慧手錶從中探索出來的核心應用場景是資訊輔助以及健康檢測。AR眼鏡的殺手級應用無疑是“AI Agent”，因為它具備了與使用者一樣以第一視角感知、記錄世界的能力（這些是其他裝置所欠缺的）。隨著AI能力的提升，AR眼鏡無疑會化身為更強大的私人助理。

未來AI+AR將會更為深度的參與到我們的工作以及學習流程，比如谷歌去年上線的Google Lens搜題答題功能，藉助AI可以快速分析一些K12課程題目並且給予解答；此外，在會議場景中，在AI技術的幫助下，我們有望使用AR眼鏡快速生成會議紀要等。

圖源：谷歌

LBS玩法的進一步落地：

走出戶外一直都是AR眼鏡所倡導的核心價值之一，當前的AR眼鏡已不乏相應的探索，比如ARKnovv A1的探店、 Ray-Ban Meta的建築識物等。

而李未可科技Meta Lens系列產品更是直接選擇從騎行、徒步、城市旅遊等大戶外場景切入，透過AR+LBS以為這類使用者群體構建更好的運動體驗。

如Meta Lens S3內建的 AI 助手可在騎行時起到領航員的作用；在CityWalk場景下，眼鏡除導航外還可以識別街景資訊，併為使用者介紹沿途景點和推薦美食。除此之外，Meta Lens 3配備了一枚拍攝按鈕，方便使用者能在旅途過程中透過第一視角記錄生活。

圖源：李未可科技

隨著光學以及AI等技術的升級，未來AR眼鏡有望進一步拓寬其LBS娛樂玩法。如扎克伯格曾在Meta Connect 2023期間提到了一個“網球裁判”的眼鏡用例，在網球運動中，如果雙方對於球是否出界等意見有分歧，則可以進一步參考AI的意見。

目前Snap、谷歌、蘋果等廠商都在積極完善其地圖服務，如Snap的基於地圖的社交、蘋果近期對地圖AR導航功能加大了投入，未來這些LBS體驗也會進一步遷移到AR眼鏡終端。

圖源：蘋果

全天候AI：

基於續航方面考慮，目前AR眼鏡的AI功能都需要基於喚醒詞或者按鍵的方式啟用，這種體驗方式距離真正的“AI Agent”顯然還有很遠距離。在理想情況下，AI應該能夠全天候陪伴我們，隨時響應我們的需求，並且它還能像計步器一樣透過不斷記錄使用者所觸達的外在資訊最終讓產品更瞭解我們。

Meta CTO Andrew Bosworth也曾表達了類似的願景：“未來眼鏡將會擁有功耗足夠低的感測器，它能夠檢測到觸發意識的事件，從而觸發人工智慧，這才是我們真正的夢想。”目前距離全天候AI顯然還有很長的路要走，這是值得未來持續努力的重要方向。

如今的AR眼鏡類產品續航普遍在4小時以內，而Meta Lens 3表現會稍好，達到了6-8小時。為了解決全天候使用的問題，Ray-Ban Meta等產品採用的是結合充電盒補電的方式，而Ai Pin則設計了電池外接磁吸方案，可進行快速換電。

圖源：Meta

潛在的問題：

算力、隱私與產品形態之爭

無可否認，AR眼鏡仍處於非常早期的階段，反映在出貨量上，AR產品國內只有數十萬臺區間，遠不及智慧眼鏡的零頭；反映在產品形態方面，其仍處於探索期，產品百花齊放，如包含了分體式、一體式方案，其中又涉及了觀影、資訊輔助、拍攝等場景的探索。

AR眼鏡仍未成熟，發展路上仍需要解決諸多問題：

算力問題：

以一體式AR眼鏡為例，其搭載的主處理器晶片種類頗多：如INMO Go搭載的是炬芯科技ATS3085晶片、雷鳥X2搭載的是驍龍XR2、MYVU探索版搭載的是驍龍SW5100等。

高通於去年釋出了專門面向於AR眼鏡的最新晶片平臺驍龍AR1，這是一款低功耗晶片，並且採用第三代Hexagon NPU，支援終端側部署視覺搜尋、即時翻譯等AI能力。目前Ray-Ban Meta以及雷鳥X2 Lite已經搭載該處理器，不排除今年會有更多眼鏡產品採用該方案。

不過另一邊，伴隨著高通XR2 Gen 2以及AR1的釋出，我們也可以預見未來較長一段時間頭顯以及眼鏡裝置功能的分野：頭顯具備更強的效能，用以支撐更復雜的遊戲應用體驗，而AR眼鏡（特別是一體式AR眼鏡）則會更聚焦於AI資訊輔助、拍照等輕量化玩法。在算力薄弱的情況下如何進一步引入具有龐大引數的AI模型會是一大考驗。