
近日,在杭州市餘杭區經濟高質量發展大會上,靈伴科技創始人祝銘明火了。當他用AR眼鏡完成"賽博翻頁"的瞬間,這位前阿里AI實驗室掌門人直接引爆了科技圈——其創立的Rokid以平均3個月一輪的融資節奏狂攬超13億資本,2023年更以10.8億美元估值躋身獨角獸行列。他打造的AR眼鏡矩陣已滲透工業元宇宙和消費級市場,既為油氣電力行業提供5G防爆頭戴裝置,又推出全球最輕消費級眼鏡實現觀影辦公場景突破,業務版圖橫跨B端解決方案與C端人機互動革命。
而這位被稱"矽谷鬼才"的創業者,2024年曾登上混沌的講臺,用《AI+AR,人機互動產品的探索與實踐》預判了今天的虛實融合浪潮。
授課老師 | 祝銘明 杭州靈伴科技有限公司(Rokid)創始人兼執行長

AI時代資訊展示和互動將遭遇瓶頸
AI時代是科技發展到今天為數不多的一次巨大時機,人與科技的關係正在發生180度的轉換,科技開始為人服務。其中必然有一些深層次的代價,諸如倫理問題、安全性問題、資訊準確性問題、主導權問題。但純粹從人機互動和人機體驗的角度看待,AI會帶來一個前所未有的變化。它的本質變化在於人們不需要透過學習科技去享受科技,而是從第一天起,科技就反過來了解我們、學習我們,學會為我們服務。
但是,人類獲得資訊的效率越來越高,當同時獲取文字資訊、影像資訊、影片資訊甚至更復雜的空間資訊時,就會發現資訊的展示和互動變成了瓶頸。
提到人機互動的多模態,就不能僅僅指語音,也一定包括視覺以及讀腦等技術。資訊終端和資訊科技的核心問題就是解決兩個問題;第一,如何讓人們更自然、更方便、更平等地獲得資訊;第二是如何更豐富、更有效、更自然地展現與這些資訊的溝通。人們經歷的所有資訊終端的革命,都會在二者裡找到對映,這就是Rokid要去做的事情。

Google glass的啟發
Rokid自成立第一天起,主要做兩件事:第一件事是AI,第二件事是AR。2012年Google glass釋出會上,我第一次見到眼鏡形態的產品,當時就認為這個產品的潛力很大,但技術上還需要演進。2014年Rokid成立,進行了一系列的技術演進。大家可以想象一下5年以後,掏出手機看資訊將成為輔助行為,不再是主要行為了。如果變成我們每個人戴的眼鏡就擁有這種展現力,將會是一次巨大的進步。


VST&OST:兩種技術方向
技術的研究方向也很有意思。2024年2月,Apple發售Vision Pro,方案路線是VST,Video See Through。這一方案路線認為脫離接觸是不對的,還是要跟真實世界進行互動。發展路徑就是在前面加一個攝像頭,把外面的世界用攝像頭記錄下來,然後傳到產品之中顯示出來,這種的視覺效果更好。
Rokid的方案路線是OST,Optical See Through,希望人們用肉眼看到真實的世界。
今天,VST跟OST並行發展,沒有誰對誰錯。VST有個好處,當人們想隔絕世界的時候,可以選擇進入數字世界,不想的時候可以拿下來再進入真實世界。但它的問題在於,個人不會有什麼感覺,而旁觀者會感覺唐突,因為個人進入數字世界時是一種隔離的狀態。OST的好處是,它總體會讓你感覺跟周圍的環境沒那麼唐突,表現出來更自然,它的壞處是技術還沒有VST那麼完整。但如果放長遠看,未來也許是OST的天下。
我個人認為,未來真正的玩家會同時擁有VST和OST,不同的場景選擇用不同的產品,大家自己去思考哪個產品更合適。


AR產品的不同發展路徑
AR的發展經歷了不同的時代,從工具時代到內容時代,大家可以看到整個的象限:

我們最終的目的是希望走到第一象限,即日常佩戴,內容也很豐富。這是理想狀態,還需要5年到10年的時間去發展。Rokid現階段有不同的產品,比如第三象限是典型重工業使用的,Rokid基本上形成了壟斷。在第二象限裡面,全國大概200多個省級博物館都有Rokid眼鏡。
我覺得,第三象限最終可能還會繼續存在,因為不同場景有不同的特殊需求,但是其他兩個象限都會被第一象限合併掉。如果發展到日常佩戴體驗非常好的一天,就只會剩下一、三象限,第三象限就會變成特別專業的,如X-Craft,人類歷史上第一個登上太空服役的AR眼鏡就是Rokid的產品,使用在天宮一號上面。但是重工業領域使用的產品與老百姓日常生活關係不大,所以平時人們關注的更多的仍是第一和第二象限的東西。
AR的產業發展,其實可以理解為移動網際網路產業重新做一遍。所以,大量的技術、生態以及硬體、軟體、材料等等都有機會重新去煥發,最後有一個巨大的一個變化,顯示、晶片、光學、聲學到材料、外觀、設計諸多的東西都會不斷地發展,這是非常值得關注的。

AR時代:五個重要的組成
AR時代由五個重要的部分組成,即感知、理解、互動、協同、數字內容創作。
第一部分是感知,透過半導體、感測器技術感知這個世界的原始資訊。
第二部分是理解,感知到這個世界之後是如何去理解它,理解原始資訊與周圍環境的關係。
第三部分是互動,即資訊的展現方式。過去,人們組織和展示資訊的方式實際上受硬體技術約束。人類跟其他動物一個巨大的區別是人具有抽象能力。我們對資訊的展現和組織能力有限,所以我們的抽象能力非常好。人類花了幾萬年時間做了一件事,就是把真實的世界抽象成符號。資訊展示方式的變化是技術變革引發的,隨著技術的變革,內容的展現方式、組織方式就會不同。短影片領域有一個概念叫瀑布流,瀑布流就是解決使用者因螢幕有限而只能一張一張看的問題,到了AR時代,當你的能力擴張到十幾倍二十倍的時候,整個商機、資訊展現和互動方式都會發生質的變化。
第四部分是協同,即可以不在同一空間進行協作。最典型的例子是電影《Kingsman》,所有人戴上一個眼鏡就可以開會,實際上他們不在現場,有的是真人,有的是數字人。
第五部分是數字內容創作,即追求更大空間更為立體生動的展現方式。有一個遊戲叫掌中寶,會生成內容很詳實的虛擬生物形象,甚至動物的肌肉組成、骨骼化石和生長環境。但是數字內容創作十分困難,平面的創作已經很不容易,立體的創作更難,成本要更高,所以數字內容創作一定要注意保護產權,防止被盜版。

預見AR+AI時代的來臨
互動是要解決人對資訊的平等獲取和自由獲取。當人們要記住一堆概念,掌握一些流程,並透過一系列的培訓,才能夠獲得資訊服務的時候,這是不公平的,這些流程都在不斷地拋棄所有人。所以Rokid提出了Leave Nobody Behind,讓每一個人都享受科技。
理論上來講,戴上Rokid眼鏡後,如果對某一件衣服感興趣,使用者只需要盯著它一會,這件衣服的資訊就都出來了,避免使用者詢問的尬尷,甚至使用者還可以做比價。未來,大家不需要透過學習,眼睛看在哪兒,就可以獲取哪裡的資訊。
Rokid在2021年推出了一個技術,為各個高檔小區的保安配備眼鏡。因為保安的流動率很高,而保安是所有業主使用者體驗的第一層,很多業主剛和保安熟悉了,過段時間又換了個人,就很麻煩。如果保安帶上Rokid的眼鏡,從很遠的地方就可以知道業主來了,知道他們住在哪棟樓,就可以和業主主動打招呼,即使這個保安是新來的。這種方式會改變整個的社群關係,非常有趣。
所以,當我們去體驗和理解一個產品的時候,我並不希望大家過多地去思考技術是什麼,能力是什麼,而是要考慮場景是什麼,如果有一個產品可以為保安和業主提供服務,即使這個保安不喜歡戴眼鏡,他也會選擇一副。當產品的能力和體驗好到一定程度的時候,人是不會拒絕一副眼鏡的。
在今天的AR時代,人跟真實世界會有一個巨大的變化。現在很多人在聊天或者對話的過程中,手機一響就會去看,實際上每個人並不知道自己已經跟這個世界產生了一種非此即彼的關係,當人進入數字世界時,不得已要與物理世界割裂。有的時候兩個人坐的只隔了一張桌子,也習慣於透過網路資訊進行表達,這就是改變。
Rokid是一家軟體平臺公司,為什麼要做硬體?因為軟體和系統平臺需要紮實的硬體做基礎,才能展現它自身的能力,這個行業我們做的太早了,那時候找不到如此基礎的東西,只能由自己來構建。有些人會提出,可以等技術成熟之後再去做,這是大部分的創業者和從業者的思考,但實際上,從來沒有一個完善的技術像魔法一樣突然出現在大家面前,一定要帶著發展的眼光去看,要接受所有技術的不成熟,唯一思考的問題就是當技術、產品不完美的時候,用什麼樣的場景去匹配它。
AR技術最早來自於軍方,現在阿帕奇直升機上,駕駛員頭盔上有個裝置,看著哪裡導彈和槍就攻擊哪裡,威力非常大。二三十年前這一技術的成本是多少?僅顯示屏大概就20萬美金。Rokid透過多年技術的沉澱,對於產品和消費也起到了積極作用,我們在消費端的產品僅僅賣3000多元,這是一個巨大的變化。Rokid的技術,從最早的科研、軍方到工業、展陳,從toB到B2C到toC,它經歷的時長大概是多少?是從2019年到2024年的4年多的時間。未來整個行業進入一個爆發期,所以2024年之後的世界發展要看AI+AR,一定要相信,這個時代已經到來了。

好產品就是比使用者預期高一點的產品
作為CEO,我的主要時間都花在產品上,而不是在賣東西上。從一個Idea的產生到最後產品的出現,中間要經歷千差萬別的很多東西,甚至有可能最後的產品跟開始的Idea完全不一樣。
例如,公司原來的AR Studio前面是有個攝像頭的,但是我發現使用者真正在使用過程中使用手勢的時候,因為抬得太高導致上臂不舒服,最後我們決定把攝像頭下調20度,這樣操作可以讓使用者保持更久的時間。這就是一個典型的例子。
我每天的工作,就是解決成千上萬的問題,並且要做各種細小的決策,這就是做產品的人的樂趣,同時也是我的痛苦。樂趣是永遠有很多東西等著去解決,痛苦的是永遠不知道解決了這個問題會帶來其他哪些問題。
很多人會拋掉使用者談鑑賞力,比如拼多多,到底是消費降級還是消費升級?沒有一個絕對標準,還是要把使用者放進去。鑑賞力就是直面使用者需求,在解決使用者的需求的情況下,考慮如何做得更好。
對於很多創業者而言,大部分人連第一個問題都沒回答好,根本沒有解決好使用者的問題,更談不上在解決了使用者問題的基礎上做得更好。大部分真正解決使用者問題的人,通常都已經做的很好了。對於創業者而言,要關注的是目標使用者是誰,使用者對產品的期待是什麼,如果你做的產品比使用者的期待更高,使用者就會感覺不錯。對於使用者來講,比期望值稍微高一點就是最好的產品定義,這不是一個絕對的概念。這裡的前提是,你要清楚使用者的期望值在哪。低於使用者的期望值,只能走低價策略,降低期望值最簡單的方式就是降低價格。例如,同樣買一個電視,你的電視螢幕有點小,但是價格只有1000塊錢,使用者也會選擇忍讓購買,這就是降低使用者的期望值。但這不是Rokid想做的事,我們希望在明確目標使用者期望的情況下,做的比使用者的期望值高一點,但不要高太多。
埃隆·馬斯克說的第一性原理,這就是我們的第一性原理。使用者需求的基本線到底在哪?拋掉品質,拋掉其他的因素,使用者到底需要一個什麼樣的東西?先給自己一個業務產品的定位,如果你定得低,就要降低使用者的期望值,拉高基本線是很難的,因為人群消費和自身的觀念以及過去的經歷是有關係的,沒有辦法突然透過一個品牌、一個產品,將使用者變成另外一個層級的人。所以,在定義好使用者和基本線的情況下,把產品做得超出一點點,比如超過10%,可能是一個比較不錯的務實想法。
在今天的市場裡面,比如淘寶或者Amazon上看我們的產品,你會發現它的定價都遵循了這個決定。我們做過很多實驗,最後發現這個價格總體是不錯的。Rokid有很多技術,可以把產品打扮得很酷,但是我們對消費者產品定義的很簡單,叫個人的私享助理,私人享受的一個伴侶。使用者可以在家用它看球賽,在高鐵上自己看電影,戴上它並沒有脫離跟外面的接觸,但同時也在享受自己的東西。
我們在產品上做了三件事:
第一件事,超大的螢幕。
第二件事,非常容易使用。我們消費端的產品跟家裡的遙控器一樣容易操作。
第三件事,內容足夠豐富。使用者在消費端可以找到抖音、B站等所有產品,以及海外版本的Google、Ecosystem。
雖然Rokid的定位非常簡單,但實際上Rokid已經進入了空間計算時代,多屏互動、手勢識別、空間互動等等,但如果把這些東西放在這裡,就會離原來的使用者基本線過遠,所以現在還在B2C的一個階段。
對於創業者而言,要直視基本線的定義,不要回避它。創業者會有一些Ego,對產品有自己的定義,這個Ego可以有,但要基於自己真實的客觀使用者,基於你能服務的使用者人群,和跟你最匹配的人群。