AI重塑手機，vivo的“非顛覆式”創新答卷

在vivo開發者大會（VDC）開幕的幾個月前，vivo的研發團隊在深圳福田的辦公室測試了一項新功能：讓手機內建的AI智慧體像人一樣訂餐廳。

和大部分AI應用不同，研發團隊設計了一個大膽的構想：使用者透過文字或語音下達指令，AI可以像真實使用者一樣，自己開啟App，搜尋並選擇對應的餐廳，自行撥打餐廳電話訂位。整個流程在使用者看來，就像有一隻看不見的手在操作手機。

一旦這個設想可以實現，理論上人在手機上能完成的操作，都可以交給AI完成。

vivo的思路是從訂位和點外賣這兩項相對基礎且高頻的場景開始。在點咖啡這個功能中，AI像人一樣熟練的進入了商家小程式，按照指令選擇了對應的杯型，甚至識別並關閉了促銷廣告。

這次技術探索，在今年10月10號召開的vivo開發者大會上首次亮相。

和去年一樣，兩屆開發者大會的主題都是“同心同行”，但內涵卻有所差異。去年vivo釋出了自研的藍心大模型與藍河作業系統，第一次將AI兵工廠中的軍火集中批次展示。一年之後，vivo打算直觀的向開發者與消費者解釋，複雜的引數和程式碼帶來了什麼改變。

這是vivo嘗試用AI重構使用者體驗的365天，也是他們重新理解AI的365天。

重建規則

和許多被AlphaGo驚醒的公司一樣，vivo對AI的大規模投入始於2017年。

周圍是這項戰略最主要的執行者，他在vivo工作了15年。2017年，周圍受命帶隊vivo的人工智慧研發團隊，在這個團隊組建前，他和其他高管走訪了國內外各大高校，意識到學術界在人工智慧上的探索，正在孕育產業化的想象空間。

ChatGPT出現後，vivo對生成式AI的投資更加堅決。相比新技術的開發，手機廠商更注重如何將新技術應用於終端產品，並帶來更好的使用者體驗和附加值。ChatGPT像AlphaGo一樣，直觀的展現出了大模型的應用前景。

vivo的副總裁、OS產品副總裁、AI全球研究院院長周圍

和研究機構不同，vivo是一家消費電子公司，周圍則是硬體公司中軟體團隊的負責人。因此，他需要思考的不是單獨的應用或研發專案，而是AI在公司戰略中的定位，以及具體的執行策略。

在“過飽和投入”的原則下，vivo以大模型為中心，開始迅速補齊自身在底層技術環節的短板，代表性成果是去年VDC上一口氣釋出的三個引數量級，一共五款大模型。

2023年，vivo公佈自研通用大模型矩陣“藍心大模型”

然而，伴隨自研大模型在各種榜單上頻頻刷臉，模型引數無止境的擴張，坐擁數十篇頂級期刊論文和數百項發明專利研發團隊，卻一度陷入迷茫。

同樣的尷尬也發生在產業界，經歷瞭如火如荼的百模大戰，社會輿論對生成式AI的熱情似乎迅速冷卻。而身為AI落地最核心的終端載體，AI手機的革命性也許久停留在精心剪輯和渲染的演示影片。

2023年的VDC結束後，vivo的AI團隊曾做了長時間的使用者調研，希望搞清楚使用者需要什麼樣的AI功能，但答案不外乎兩類：一種是使用者自己也說不清楚；另一種是過於超前，放在五十年後都屬於科幻電影的素材。

作為團隊負責人，周圍帶隊技術攻堅的履歷無可指摘，但面對難以量化極度朦朧的使用者需求，他也需要反覆思考。

一個關鍵問題是，除了少數經典的釘子戶機型，市場上大部分手機，實際上都是貨真價實的“AI手機”。

最典型的例子是蘋果在2019年推出Deep Fusion：使用者按下快門鍵拍照時，iPhone其實在短時間內連拍了9張照片，演算法會在不到1秒的時間裡，將這些照片“畫素對畫素”的精確疊合，最終合成一張最優質照片。

從2017年的A11處理器整合NPU（Neural network Processing Unit）模組開始，AI就迅速介入了手機中大大小小的功能服務，從翻譯、修圖到相簿檢索與推薦演算法，只要不是太老的手機，基本都擁有從軟體到硬體完整的AI功能。

A11處理器中首次出現了NPU

在這個背景下，如果要讓AI脫離對原有功能本身的強化，而是塑造全新的改變，需要的是研發、組織和管理體系的重整。

2022年之前，vivo的研發思路是以功能性模組為基本單元，將分散在作業系統的各個功能分門別類進行開發。比如開發文件掃描、證件掃描、文字提取等功能，然後整合在相機、相簿等系統功能裡。第三方開發者也可以透過介面，開發各種功能性模組。

而當大模型以一種通用技術底層的形態出現，周圍意識到類似“專案制”的研發策略已經難以為繼，團隊需要的是一個與大模型適配的“規則”，並在規則的框架下完成各種技術實現。

按照周圍的說法，在沒有明確應用方向的前提下，那就先給高樓打好地基，修成什麼樣再說。

如果說以藍心大模型為代表的一系列底層技術是高樓的地基，那麼去年VDC結束的時候，他就應該認真思考，高樓應該修成什麼樣了。

理解直覺，重構互動

開發者大會上，周圍展示了OriginOS 5新的互動方式：使用者長按螢幕會喚醒AI助手，在螢幕上圈選任意的內容，AI就會開始識別選定內容。使用者將圈定內容拖動，AI會根據目標應用提供下一步服務。

OriginOS 5中，AI接入拖拽互動

按壓、圈選、拖放是智慧機時代使用者早已習慣的互動邏輯，裝置會根據預先設定好的互動邏輯完成對應的操作。但多模態大模型可以透過訓練理解使用者各種動作背後的意圖，周圍的目標是基於大模型的能力，構建一種新的互動規則。

vivo的企業文化中，有一條是虛心學習其他公司的長處，蘋果之類的優秀公司，一直是其內部反覆研究的物件。

iPhone並不是第一個採用觸控式螢幕的手機，但它與功能機的差別在於，後者只是將物理按鍵的互動邏輯原封不動的轉移到了觸控式螢幕上。而蘋果基於觸控這個互動方式，重新定義了一套互動邏輯。

舉例來說，帶有觸控式螢幕的功能機在執行返回操作時，只是在螢幕上添加了一個可以觸控的返回按鈕，但iPhone設計了滑動返回的互動邏輯。配合其他的零部件，開發者基於全新的互動邏輯，創造了水果忍者和憤怒的小鳥。

周圍把基於新技術構建的互動邏輯稱為“規則”，他提煉出的關鍵詞是“直覺”。

vivo在多年前組建了一個演算法團隊，試圖透過演算法讓使用者拍出來的照片更美。但“美”這個字難倒了整座辦公樓的演算法工程師——什麼是美？

把飄渺的詞彙變成可以感知的產品是消費電子公司的核心工作，vivo內部“影像認知部”的成立很大程度來源於此，這個部門專門負責定義影像的“美”，接著由演算法或硬體部門把這種審美技術實現，成為消費者可以使用的功能。

在AI團隊的搭建過程中，vivo遇到了類似的問題——作為負責人，周圍需要把複雜的使用者需求和設計藍圖高度抽象，同時要確保抽象的概念能準確指引團隊的研發流程。

除了AI，周圍還負責Origin OS的開發和迭代，過去幾年，他對系統研發的提出的一個詞語是“流暢”，這個詞又可以衍生出重新整理率、圖層等一系列技術指標，指引團隊的開發。

過去一年裡，周圍想了很多詞來概括自己腦海中關於AI那個不太清晰的概念，比如自然、優雅等等，但他認為最貼切的是“直覺”，即“這件事應該是這樣的”——手指收攏影像會縮小，手指張開頁面會放大。

依照這個原則，vivo的開發團隊想到了一個方向：AI可以像人一樣操作手機，像人一樣開啟App，選擇選單和功能，而不是透過各種各樣的後臺介面。

讓AI幫使用者買咖啡，是研發團隊在這個方向指引下一次大膽的探索。周圍稱之為“手機智慧體”，相比原有功能的強化，手機智慧體的核心是基於使用者的習慣和意圖，可以主動進行識別與操作。

在開發者大會的演講中，周圍把手機智慧體和自動駕駛類比，兩者的確存在相同之處。

特斯拉對純視覺技術路線的執著固然有成本的考量，但依照馬斯克頻繁唸叨的第一性原理，既然人類駕駛員依靠視覺就能判斷距離，那麼只要有足夠大的訓練量，演算法也可以依靠攝像頭作出判斷，不需要雷達的輔助。

這種相似性反映也啟發了vivo的思路：利用AI創造新的互動方式，但這種互動沒有破壞使用者原有的、早已習慣的互動邏輯。

2019年，周圍曾提出了一個大膽的設想：讓AI成為真正的智慧助手，扮演手機和App之間的一個重要角色。這個思路與後來AGI的構想相當類似，只是在當時過於超前。

但今天，vivo離他們的目標已經非常接近了。

挖足夠深的地基

去年7月，《紐約時報》曾探訪谷歌實驗室，完整記錄了基於RT-2模型的機器人智慧閃現的瞬間：

桌子上放著恐龍、鯨魚、獅子三個塑膠玩具，工程師讓單臂機器人“撿起滅絕的動物”，機器人拿起了恐龍。這裡的難點不是機器人的抓取動作，而是它能識別三種動物，還能理解什麼是“滅絕的動物”。

基於RT-2模型的Google機器人

周圍將AI帶給手機最大的改變概括為“系統記憶能力”，即AI不僅能執行使用者的指令，還可以理解使用者的行為。在今年開發者大會現場，他舉了一個與谷歌機器人類似的例子：

使用者可以對AI助手說，找出去年我和小貝在北京環球影城的照片，祝他生日快樂。

核心問題在於，AI需要理解“北京”和“環球影城”的含義，並在相簿中準確的識別，而不是檢索手機中檔名包含“北京”和“環球影城”兩個關鍵詞的檔案。同樣，AI還要理解“小貝”是誰，把照片和通訊錄裡的號碼對應起來。

OriginOS 5中，由AI完成的影像記憶

這些設想伴隨多模態大模型的出現已經不是問題，但對一家手機公司來說，把論文和程式碼變成可以使用的功能遠沒有那麼簡單。

首當其衝的是隱私問題——模型會讀取使用者的隱私資料，意味著關鍵資料和演算法無法在雲端處理，繼而對手機效能提出了挑戰，也是vivo“藍科技”矩陣中多個技術方案誕生的契機。

2021年，vivo與聯發科達成戰略級技術合作，對vivo自研影像晶片V1和聯發科當時的旗艦移動處理器天璣9000測試聯調，目的在於提高兩者的相容性，最大程度釋放兩者效能。

隨後，雙方的合作成為了“藍科技”板塊之一“藍晶晶片技術棧”，研發重心也轉向了以更強的算力和更低的功耗，並在軟體層面提高對算力的利用效率，保證大模型在終端的正常運作。

與之對應，vivo透過藍河作業系統，讓大模型融入系統的底層設計中，實現從應用到工具鏈的全方位突破。

今年的開發者大會，vivo公佈藍河作業系統2

今年的開發者大會上，vivo釋出了新的30億引數藍心端側大模型3B，思路依然是基於30億引數這個端側大模型“黃金尺寸”，在確保隱私安全的前提下，保證終端的使用者體驗。

暫時拋開“藍晶”、“藍心”、“藍河”這些傳播用途的修飾，vivo呈現出的是以一種系統性的軟硬體研發能力，來指引各個技術條線的研發。

何為系統性的軟硬體結合？即透過軟硬體的協同能力，提高產品真實的體驗而非單純的引數。

2020年之前，手機品牌的技術投資趨勢，大多體現為藉助零部件更新增加產品賣點。大多數品牌的研發策略都開始向體系化的創新轉變。

舉例來說，當相機畫素堆到5000萬甚至1億以上，對於拍照體驗的改善會快速遞減。此時，產品開發思路將注意力轉向演算法，透過降低快門延遲、加快成像速度等提高拍照效能。邊際遞減同樣出現在快充場景，品牌們不約而同掏出曾經的120W快充，反而藉助軟體的執行策略的最佳化來降低功耗。

在開發者大會上亮相的OriginOS 5、藍河作業系統2和升級後的藍心大模型，也是這一轉變的體現。

vivo的“藍科技”矩陣

一座5層的建築，需要一場誓師大會和工程師們大幹三個月，但一幢百層的高樓，起決定作用的是地基的深度。

2024年的開發者大會上，vivo展示了這座大廈第一層的模樣。

尾聲

開發者大會開始前，周圍曾提醒同事，團隊對“手機智慧體”的定位不是顛覆或革命，而是一種“探索”。

產業界喜歡把技術創新的長期主義形容為馬拉松，其實不完全準確。因為馬拉松有規劃完整的路線和清晰明確的終點，但創新往往既無線路可尋，也沒有明確的目標以供參考。

長期主義是vivo管理層很多決策的出發點，他們同時創造了一個非常vivo特色，也更貼切的詞彙：埋頭種因。

在無法預知終點的長跑中，大部分可量化的目標都沒有意義。而大多數看似橫空出世的創新，往往都是在反覆的探索中，一點點描摹出來的。

全文完，感謝您的耐心閱讀。

作者：李墨天

編輯：張澤一

視覺設計：疏睿

責任編輯：李墨天

dignews.cc

AI重塑手機，vivo的“非顛覆式”創新答卷

重建規則

理解直覺，重構互動

挖足夠深的地基

尾聲

相關文章

國產手機王炸黑科技來了！自動定餐，還能識別手語了…

30年的厚積薄發，造就vivo進軍機器人行業的“底氣”

AGI掀起作業系統底層革新，解密vivo全棧自研OS背後Rust殺手鐧

手機巨頭的又一新戰場：vivo亮劍家庭機器人賽道

使用者需求為槳，vivo的新航程

北京/杭州/上海內推|阿里通義實驗室招聘通用Agent技術方向研究型實習生

北京內推|微軟亞洲研究院機器學習組招聘電池大模型方向開發實習生

北京/杭州內推|阿里通義實驗室招聘通用RAG/AI搜尋方向演算法專家

北京/杭州/上海內推|阿里通義實驗室招聘大模型方向研究型實習生

最強小屏、影像滅霸、救命黑科技！vivoX200三杯齊發，最低4299起