iOS19還沒來,我提前在iPhone上體驗到了蘋果最新的AI|附安裝教程

都 2025 年了,還有誰沒用上蘋果 AI?
本來,只有我們國行 iPhone 使用者在苦等,但沒想到,海外也沒好到哪去。去年 WWDC 上蘋果畫的那些 AI 大餅,iPhone 使用者都快到 iOS 19 還沒吃完。
釋出會看得熱血沸騰,現實裡卻心灰意冷。
就在我以為蘋果今年大機率也「穩中擺爛」的時候,突然發現蘋果最近低調開源了一款小模型:FastVLM。

模型 GitHub 下載地址:https://github.com/apple/ml-fastvlm

沒搞釋出會,也沒在官網上大張旗鼓宣傳,本來我也沒太在意,但當技術部老哥將這款模型在頂配 iPhone 16 Pro Max 跑起來後,我承認有些坐不住了。
一句話概括,這個模型很「蘋果」。
模型啟動速度極快,識別影像的能力也不錯,全程本地執行,沒有云端那一套操作,看起來不驚豔,但用起來……有點意思。
我承認,有那麼一瞬間,我覺得蘋果 AI 又支稜起來了。

作為一組可以在 iPhone、iPad、Mac 等裝置上本地執行的視覺語言模型(Vision-Language Model), FastVLM 包括三種引數量級:FastVLM-0.5B、1.5B 和 7B。
普通使用者也能將其部署到 iPhone 上,只是需要一定的技術門檻。蘋果研究團隊在 GitHub 提供了完整的安裝教程,有技術基礎的使用者可以參考:
🔗 https://github.com/apple/ml-fastvlm/tree/main/app
我用 iPhone 跑這款「蘋果味」的模型,結果……
實測下來,7B 的大模型雖然聰明,但真不太聽使喚,動不動就發熱、閃退。於是我們只能退而求其次,把體驗重心放在了更輕量的 0.5B 和 1.5B 上。
但說實話,即便是這兩個「小號」模型,實際體驗依然帶來了不少驚喜。
比如昨天下班路上,我隨手用手機對準了地鐵站的售票機,FastVLM-1.5B 幾乎瞬間就完成了場景解析,並對圖片進行文字描述,真·所見即所得,絲毫不卡頓。
螢幕顯示的 TTFT(Time To First Token)僅為 1211 毫秒。也就是說,從發出請求到模型返回第一個 Token,整個流程用時不到 1.3 秒,互動手感相當絲滑。
不僅如此,日常生活中常見的物體,比如花草植物、城市高樓,FastVLM 均能輕鬆識別。
即使是一些略帶抽象的玩偶,也能做到有效識別。
特斯拉汽車的倒影也觀察到了,雖然沒有具體說出電腦螢幕上的豬豬俠的名字,但也能大致識別出基本特徵。
當然,它也不是沒有短板,英文識別準確率挺高,但中文嘛,還有待最佳化,比如「注意行人,減速慢行」識別為了「禁止行人進入,限制通行」,意思也大相徑庭。
FastVLM-0.5B 的響應速度更快,TTFT 基本可以維持在 1000ms 以內,幾乎是剛對準事物,就已經開始輸出。
你聽過不少「系統級最佳化」這個詞,真正能將它做成產品體驗差異的廠商,屈指可數。FastVLM 的處理能力與響應速度便是蘋果一個典型的例子。
FastVLM 是蘋果自研的端側視覺語言模型(VLM),整個棧從底到頂都由自家搞定,底層依託自研 AI 框架 MLX 構建,並基於全新視覺編碼骨幹網路 FastViT-HD。
FastViT-HD 的設計核心就是如何在極限算力下榨出最多的效能。
蘋果研究團隊的做法是融合了卷積和 Transformer 架構,一邊保低延遲,一邊保表徵能力,並透過多尺度特徵融合與新增下采樣階段,大大減少了視覺 token 數量。同時,它支援原生高解析度輸入,避免傳統 ViT 架構中的切塊策略。
結果就是,在蘋果公佈的測試中,FastViT-HD 的 TTFT(Time To First Token)比同類模型快了 85 倍,在實際對比 ConvNeXt 等架構時,推理速度也快出了 2 到 3 倍。
而且重點來了,正如論文所提到的,這是跑在 M1 MacBook Pro 上的真實資料,換句話說,FastVLM 從一開始就已經為消費級終端的實際部署做好了準備。
FastViT-HD 的另一個操作也很「蘋果」。
傳統做法是先把 token 一股腦生成出來,再靠後處理把低價值的剪掉,本質上是補救方案,而 FastViT-HD 屬於原生設計的前置最佳化,能直接輸出少量高質量的視覺 token,無需再經過額外的 token 剪枝或採樣流程。
ViT 慢的根源在於 self-attention 的二次複雜度,token 數量越多,計算負擔越大。而 FastViT-HD 在 256×256 解析度下,僅輸出 16 個 token,既提升了推理速度,又顯著降低資源消耗,真正實現了「邊跑邊理解」。
此外,FastVLM 還在演算法層面引入了帕累托最優曲線(Pareto frontier)。
通俗來說,開發者可以據此找到「效能最強 × 延遲最小」的模型搭配組合,避免過去那種憑經驗試錯的方式,這對於部署在不同算力層級的終端裝置極具指導意義。
在模型訓練上,FastVLM 用了更少資料卻能達到更強效果。
論文顯示,FastVLM 在多個 TextVQA、MMMU、SeedBench 等基準測試中;在訓練資料僅為其他方法的 1/3~1/5 情況下,仍可實現堪比甚至超越主流模型(如 MM1、Cambrian-1)的效果。
那麼,這麼一個又快又小、還能本地執行的模型,蘋果究竟是拿它來幹嘛的?答案可能藏在蘋果的下一塊螢幕裡:智慧眼鏡。
GPT-4V 塞不進智慧眼鏡,但它可以
據外媒 9to5Mac 報道,FastVLM 或將部署到蘋果智慧眼鏡。
這並非空穴來風,過去一年,關於蘋果智慧眼鏡的訊息陸續湧現。據彭博社記者 Mark Gurman 的最新說法,蘋果計劃在 2027 年前後推出一款輕量級智慧眼鏡。
為此,蘋果正在研發一顆專用於智慧眼鏡的低功耗晶片 N401,主打多攝像頭排程與 AI 支援,預計將在 2026 年底或 2027 年進入量產。
換句話說,這將是一臺 AI-first 的裝置。
在這樣的裝置上,雲端模型幾乎無用武之地,反而依賴類似 FastVLM 這樣的視覺語言模型作為感知層的基礎設施,並且,你無法把一個 GPT-4V 塞進智慧眼鏡裡,但 FastVLM 可以。
FastVLM 快、小等特點,更像是為裝置形態的收斂所服務:
體積小,適合部署在端側;
響應快,符合智慧眼鏡的場景感知;
以及無需聯網,資料不出本地,天然安全。
儘管蘋果在去年 WWDC 大會上所畫的大餅至今尚未實現,但這並不妨礙蘋果是有野心的,去年蘋果 WWDC 就已經明確傳遞出一個訊號:AI 不再只是功能級的補丁,而是要被深深嵌入到系統底層。
和許多 AI 公司以 API 為介面、以呼叫為主線不同,蘋果的目標不是打造一個「有 AI 的產品」,而是「將 AI 變成產品本身的一部分」,乃至成為 OS 的底層組成。
這種思路,也契合蘋果長期的產品策略,也就是從硬體定義軟體,再用系統定義體驗。
今年,這一趨勢仍在持續推進,並顯現出「端側優先」更強的導向。這不僅體現在 iPhone 上,也開始蔓延至 iPad、Mac,乃至尚未亮相的新一代智慧硬體形態。
而在蘋果公司即將成立 20 週年的重要節點,外界自然開始關注是否會有新的硬體形態破殼而出,比如傳聞已久的可摺疊 iPhone、更輕薄的 Vision Pro,以及上文所說的智慧眼鏡。
儘管這些裝置大機率不會在 WWDC 上以「新品釋出」的形式正式亮相,但蘋果一貫的風格,便是在系統與開發者生態中埋下伏筆。
這些看不見的地方,才是 WWDC 真正值得關注的訊號。
相應地,從底層架構上來看,FastVLM 具備開放性、模組化,這也意味著能夠被系統原生元件、第三方 App,乃至未來的智慧眼鏡系統一鍵調取使用。
事實上,這類「視覺理解 + 語言推理」的功能,並不是什麼新鮮事。
最近 OPPO 就與階躍星辰合作推出了「一鍵問屏」功能。使用者只需拍一張圖,小布助手便能自動識別影像中的關鍵資訊,完成智慧視覺搜尋、問答和推理任務。
在模型層面,位元組最近釋出的輕量級多模態推理模型 Seed1.5-VL,就憑藉僅 532M 的視覺編碼器和 200 億語言引數,在多個基準測試中的測試成績與許多頂級模型不相上下,而且支援帶圖深度問答。
從功能體驗來看,FastVLM 與上述產品相比似乎並無明顯差異。但其真正的底層支點,其實來自蘋果在 2023 年推出的一項關鍵基礎設施:AI 框架 MLX。
MLX 是蘋果首次系統性地開源一整套深度學習框架,專為蘋果晶片打造。儘管 M 系列晶片早已建立起硬體效能優勢,但此前一直缺乏自家統一的 AI 程式設計生態,而 MLX 補上了關鍵一環。
MLX 在形式上類似「PyTorch」,補齊了軟體層的原生 AI 生態;能夠鼓勵開發者直接在 MacBook 上訓練與部署模型,在記憶體管理、模型編譯與執行效率方面表現出色。
基於這樣的邏輯,我們甚至可以重新理解蘋果生態中各類裝置的角色:
iPhone 是一個通用智慧終端、Watch 是一個健康監測中心、Vision Pro 是一個空間計算平臺,那麼未來的蘋果智慧眼鏡也將更往原生執行 AI 模型的智慧終端靠近。
不是提供一個超級 App,不是拼 API 市場份額,蘋果選擇為未來五到十年的硬體形態鋪路。
FastVLM 的引數可以更新,效能可以迭代,但蘋果要表達的,不是模型本身的競爭力,而是模型將如何成為系統的一部分、裝置的一部分,甚至成為你生活的一部分。
而這,正是下個月 WWDC 2025 大會最值得關注的動向。
文 | 李四
我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)
更多崗位資訊請點選這裡🔗

相關文章