在vivo開發者大會(VDC)開幕的幾個月前,vivo的研發團隊在深圳福田的辦公室測試了一項新功能:讓手機內建的AI智慧體像人一樣訂餐廳。
和大部分AI應用不同,研發團隊設計了一個大膽的構想:使用者透過文字或語音下達指令,AI可以像真實使用者一樣,自己開啟App,搜尋並選擇對應的餐廳,自行撥打餐廳電話訂位。整個流程在使用者看來,就像有一隻看不見的手在操作手機。
一旦這個設想可以實現,理論上人在手機上能完成的操作,都可以交給AI完成。
vivo的思路是從訂位和點外賣這兩項相對基礎且高頻的場景開始。在點咖啡這個功能中,AI像人一樣熟練的進入了商家小程式,按照指令選擇了對應的杯型,甚至識別並關閉了促銷廣告。
這次技術探索,在今年10月10號召開的vivo開發者大會上首次亮相。
和去年一樣,兩屆開發者大會的主題都是“同心同行”,但內涵卻有所差異。去年vivo釋出了自研的藍心大模型與藍河作業系統,第一次將AI兵工廠中的軍火集中批次展示。一年之後,vivo打算直觀的向開發者與消費者解釋,複雜的引數和程式碼帶來了什麼改變。
這是vivo嘗試用AI重構使用者體驗的365天,也是他們重新理解AI的365天。
重建規則
和許多被AlphaGo驚醒的公司一樣,vivo對AI的大規模投入始於2017年。
周圍是這項戰略最主要的執行者,他在vivo工作了15年。2017年,周圍受命帶隊vivo的人工智慧研發團隊,在這個團隊組建前,他和其他高管走訪了國內外各大高校,意識到學術界在人工智慧上的探索,正在孕育產業化的想象空間。
ChatGPT出現後,vivo對生成式AI的投資更加堅決。相比新技術的開發,手機廠商更注重如何將新技術應用於終端產品,並帶來更好的使用者體驗和附加值。ChatGPT像AlphaGo一樣,直觀的展現出了大模型的應用前景。

vivo的副總裁、OS產品副總裁、AI全球研究院院長周圍
和研究機構不同,vivo是一家消費電子公司,周圍則是硬體公司中軟體團隊的負責人。因此,他需要思考的不是單獨的應用或研發專案,而是AI在公司戰略中的定位,以及具體的執行策略。
在“過飽和投入”的原則下,vivo以大模型為中心,開始迅速補齊自身在底層技術環節的短板,代表性成果是去年VDC上一口氣釋出的三個引數量級,一共五款大模型。

2023年,vivo公佈自研通用大模型矩陣“藍心大模型”
然而,伴隨自研大模型在各種榜單上頻頻刷臉,模型引數無止境的擴張,坐擁數十篇頂級期刊論文和數百項發明專利研發團隊,卻一度陷入迷茫。
同樣的尷尬也發生在產業界,經歷瞭如火如荼的百模大戰,社會輿論對生成式AI的熱情似乎迅速冷卻。而身為AI落地最核心的終端載體,AI手機的革命性也許久停留在精心剪輯和渲染的演示影片。
2023年的VDC結束後,vivo的AI團隊曾做了長時間的使用者調研,希望搞清楚使用者需要什麼樣的AI功能,但答案不外乎兩類:一種是使用者自己也說不清楚;另一種是過於超前,放在五十年後都屬於科幻電影的素材。
作為團隊負責人,周圍帶隊技術攻堅的履歷無可指摘,但面對難以量化極度朦朧的使用者需求,他也需要反覆思考。
一個關鍵問題是,除了少數經典的釘子戶機型,市場上大部分手機,實際上都是貨真價實的“AI手機”。
最典型的例子是蘋果在2019年推出Deep Fusion:使用者按下快門鍵拍照時,iPhone其實在短時間內連拍了9張照片,演算法會在不到1秒的時間裡,將這些照片“畫素對畫素”的精確疊合,最終合成一張最優質照片。
從2017年的A11處理器整合NPU(Neural network Processing Unit)模組開始,AI就迅速介入了手機中大大小小的功能服務,從翻譯、修圖到相簿檢索與推薦演算法,只要不是太老的手機,基本都擁有從軟體到硬體完整的AI功能。

A11處理器中首次出現了NPU
在這個背景下,如果要讓AI脫離對原有功能本身的強化,而是塑造全新的改變,需要的是研發、組織和管理體系的重整。
2022年之前,vivo的研發思路是以功能性模組為基本單元,將分散在作業系統的各個功能分門別類進行開發。比如開發文件掃描、證件掃描、文字提取等功能,然後整合在相機、相簿等系統功能裡。第三方開發者也可以透過介面,開發各種功能性模組。
而當大模型以一種通用技術底層的形態出現,周圍意識到類似“專案制”的研發策略已經難以為繼,團隊需要的是一個與大模型適配的“規則”,並在規則的框架下完成各種技術實現。
按照周圍的說法,在沒有明確應用方向的前提下,那就先給高樓打好地基,修成什麼樣再說。
如果說以藍心大模型為代表的一系列底層技術是高樓的地基,那麼去年VDC結束的時候,他就應該認真思考,高樓應該修成什麼樣了。
理解直覺,重構互動
開發者大會上,周圍展示了OriginOS 5新的互動方式:使用者長按螢幕會喚醒AI助手,在螢幕上圈選任意的內容,AI就會開始識別選定內容。使用者將圈定內容拖動,AI會根據目標應用提供下一步服務。

OriginOS 5中,AI接入拖拽互動
按壓、圈選、拖放是智慧機時代使用者早已習慣的互動邏輯,裝置會根據預先設定好的互動邏輯完成對應的操作。但多模態大模型可以透過訓練理解使用者各種動作背後的意圖,周圍的目標是基於大模型的能力,構建一種新的互動規則。
vivo的企業文化中,有一條是虛心學習其他公司的長處,蘋果之類的優秀公司,一直是其內部反覆研究的物件。
iPhone並不是第一個採用觸控式螢幕的手機,但它與功能機的差別在於,後者只是將物理按鍵的互動邏輯原封不動的轉移到了觸控式螢幕上。而蘋果基於觸控這個互動方式,重新定義了一套互動邏輯。
舉例來說,帶有觸控式螢幕的功能機在執行返回操作時,只是在螢幕上添加了一個可以觸控的返回按鈕,但iPhone設計了滑動返回的互動邏輯。配合其他的零部件,開發者基於全新的互動邏輯,創造了水果忍者和憤怒的小鳥。
周圍把基於新技術構建的互動邏輯稱為“規則”,他提煉出的關鍵詞是“直覺”。

vivo在多年前組建了一個演算法團隊,試圖透過演算法讓使用者拍出來的照片更美。但“美”這個字難倒了整座辦公樓的演算法工程師——什麼是美?
把飄渺的詞彙變成可以感知的產品是消費電子公司的核心工作,vivo內部“影像認知部”的成立很大程度來源於此,這個部門專門負責定義影像的“美”,接著由演算法或硬體部門把這種審美技術實現,成為消費者可以使用的功能。
在AI團隊的搭建過程中,vivo遇到了類似的問題——作為負責人,周圍需要把複雜的使用者需求和設計藍圖高度抽象,同時要確保抽象的概念能準確指引團隊的研發流程。
除了AI,周圍還負責Origin OS的開發和迭代,過去幾年,他對系統研發的提出的一個詞語是“流暢”,這個詞又可以衍生出重新整理率、圖層等一系列技術指標,指引團隊的開發。
過去一年裡,周圍想了很多詞來概括自己腦海中關於AI那個不太清晰的概念,比如自然、優雅等等,但他認為最貼切的是“直覺”,即“這件事應該是這樣的”——手指收攏影像會縮小,手指張開頁面會放大。
依照這個原則,vivo的開發團隊想到了一個方向:AI可以像人一樣操作手機,像人一樣開啟App,選擇選單和功能,而不是透過各種各樣的後臺介面。
讓AI幫使用者買咖啡,是研發團隊在這個方向指引下一次大膽的探索。周圍稱之為“手機智慧體”,相比原有功能的強化,手機智慧體的核心是基於使用者的習慣和意圖,可以主動進行識別與操作。
在開發者大會的演講中,周圍把手機智慧體和自動駕駛類比,兩者的確存在相同之處。
特斯拉對純視覺技術路線的執著固然有成本的考量,但依照馬斯克頻繁唸叨的第一性原理,既然人類駕駛員依靠視覺就能判斷距離,那麼只要有足夠大的訓練量,演算法也可以依靠攝像頭作出判斷,不需要雷達的輔助。
這種相似性反映也啟發了vivo的思路:利用AI創造新的互動方式,但這種互動沒有破壞使用者原有的、早已習慣的互動邏輯。
2019年,周圍曾提出了一個大膽的設想:讓AI成為真正的智慧助手,扮演手機和App之間的一個重要角色。這個思路與後來AGI的構想相當類似,只是在當時過於超前。
但今天,vivo離他們的目標已經非常接近了。
挖足夠深的地基
去年7月,《紐約時報》曾探訪谷歌實驗室, 完整記錄了基於RT-2模型的機器人智慧閃現的瞬間:
桌子上放著恐龍、鯨魚、獅子三個塑膠玩具,工程師讓單臂機器人“撿起滅絕的動物”,機器人拿起了恐龍。這裡的難點不是機器人的抓取動作,而是它能識別三種動物,還能理解什麼是“滅絕的動物”。

基於RT-2模型的Google機器人
周圍將AI帶給手機最大的改變概括為“系統記憶能力”,即AI不僅能執行使用者的指令,還可以理解使用者的行為。在今年開發者大會現場,他舉了一個與谷歌機器人類似的例子:
使用者可以對AI助手說,找出去年我和小貝在北京環球影城的照片,祝他生日快樂。
核心問題在於,AI需要理解“北京”和“環球影城”的含義,並在相簿中準確的識別,而不是檢索手機中檔名包含“北京”和“環球影城”兩個關鍵詞的檔案。同樣,AI還要理解“小貝”是誰,把照片和通訊錄裡的號碼對應起來。

OriginOS 5中,由AI完成的影像記憶
這些設想伴隨多模態大模型的出現已經不是問題,但對一家手機公司來說,把論文和程式碼變成可以使用的功能遠沒有那麼簡單。
首當其衝的是隱私問題——模型會讀取使用者的隱私資料,意味著關鍵資料和演算法無法在雲端處理,繼而對手機效能提出了挑戰,也是vivo“藍科技”矩陣中多個技術方案誕生的契機。
2021年,vivo與聯發科達成戰略級技術合作,對vivo自研影像晶片V1和聯發科當時的旗艦移動處理器天璣9000測試聯調,目的在於提高兩者的相容性,最大程度釋放兩者效能。
隨後,雙方的合作成為了“藍科技”板塊之一“藍晶晶片技術棧”,研發重心也轉向了以更強的算力和更低的功耗,並在軟體層面提高對算力的利用效率,保證大模型在終端的正常運作。
與之對應,vivo透過藍河作業系統,讓大模型融入系統的底層設計中,實現從應用到工具鏈的全方位突破。

今年的開發者大會,vivo公佈藍河作業系統2
今年的開發者大會上,vivo釋出了新的30億引數藍心端側大模型3B,思路依然是基於30億引數這個端側大模型“黃金尺寸”,在確保隱私安全的前提下,保證終端的使用者體驗。
暫時拋開“藍晶”、“藍心”、“藍河”這些傳播用途的修飾,vivo呈現出的是以一種系統性的軟硬體研發能力,來指引各個技術條線的研發。

何為系統性的軟硬體結合?即透過軟硬體的協同能力,提高產品真實的體驗而非單純的引數。
2020年之前,手機品牌的技術投資趨勢,大多體現為藉助零部件更新增加產品賣點。大多數品牌的研發策略都開始向體系化的創新轉變。
舉例來說,當相機畫素堆到5000萬甚至1億以上,對於拍照體驗的改善會快速遞減。此時,產品開發思路將注意力轉向演算法,透過降低快門延遲、加快成像速度等提高拍照效能。邊際遞減同樣出現在快充場景,品牌們不約而同掏出曾經的120W快充,反而藉助軟體的執行策略的最佳化來降低功耗。
在開發者大會上亮相的OriginOS 5、藍河作業系統2和升級後的藍心大模型,也是這一轉變的體現。

vivo的“藍科技”矩陣
一座5層的建築,需要一場誓師大會和工程師們大幹三個月,但一幢百層的高樓,起決定作用的是地基的深度。
2024年的開發者大會上,vivo展示了這座大廈第一層的模樣。
尾聲
開發者大會開始前,周圍曾提醒同事,團隊對“手機智慧體”的定位不是顛覆或革命,而是一種“探索”。
產業界喜歡把技術創新的長期主義形容為馬拉松,其實不完全準確。因為馬拉松有規劃完整的路線和清晰明確的終點,但創新往往既無線路可尋,也沒有明確的目標以供參考。
長期主義是vivo管理層很多決策的出發點,他們同時創造了一個非常vivo特色,也更貼切的詞彙:埋頭種因。
在無法預知終點的長跑中,大部分可量化的目標都沒有意義。而大多數看似橫空出世的創新,往往都是在反覆的探索中,一點點描摹出來的。
全文完,感謝您的耐心閱讀。
作者:李墨天
編輯:張澤一
視覺設計:疏睿
責任編輯:李墨天

