「網際網路之父」蒂姆·伯納斯-李 1990 年設計的基本互動模式——透過超連結(Hyperlink)實現網頁之間的跳轉,以及後面輸入網址、等待載入、回到上一頁等邏輯,在今天巋然不動。
都 2025 年了,我們還在用同樣的姿勢,對著螢幕傻傻地等待頁面載入。
過去十年,我們見證過許多號稱「要顛覆瀏覽器市場」的瀏覽器,Arc 也是其中被譽為全村最有希望的種子選手,但卻在擁有百萬級使用者,燒掉 1.5 億美元后,母公司 The Browser Company 宣佈停止更新,黯然退場。
去年,在完成 5000 萬美元融資後,他們決定將重心轉向開發一款名為 Dia 的原生 AI 瀏覽器。
創始人 Josh Miller 表示,Dia 要構建一種完全不同型別的瀏覽器——一個更加主動、更強大、更以 AI 為中心、更加符合最初願景的瀏覽器,可以稱它為網路瀏覽器的 iPhone,或者「網際網路計算機」。
Arc 瀏覽器在其早期和公測階段使用了邀請碼制度,顯然 The Browser Company 從中嚐到了甜頭。
最近,這款名為 Dia 的瀏覽器終於上線,採用邀請碼制,開始小範圍開放體驗。體驗裝置有一定限制,目前適用於配備 Mac M1 晶片或更高版本的 macOS 14+。
在各家都在競相將 AI 融入離使用者最近的瀏覽器,Dia 的表現能否脫穎而出,AI 又該如何重塑瀏覽體驗,這些都是我們想要探究的問題。
APPSO 讀者福利🎁 我們也在文末準備了一些邀請碼,掃碼即可抽取。
Google+Perplexity,Dia 想用 AI 改變瀏覽器?
Dia 的主頁非常簡潔,只有一個最為尋常不過的搜尋框,甚至可以說清爽得有些不像樣,但這也許正是瀏覽器最理想的樣子:提問、獲取答案、結束。而不是塞滿熱搜榜單,分散你的注意力。
輸入問題後,Dia 會彈出一個候選視窗,提供 Google 和 Chat 兩個選項。
顧名思義,前者直接跳轉到常規搜尋引擎頁面,後者則類似於 Perplexity 等 AI 搜尋引擎,既能呼叫 Dia 自帶的大模型直接給出答案,擁有獨自的歷史聊天記錄,遇到複雜問題時,也會聯網搜尋。
「現在的寵物能坐高鐵了嗎」「馬斯克現在管理著多少家企業」,Dia 的回答質量屬於不太穩定的那種,同一問題的幾次回答,都在正確和出錯之間反覆橫跳。
用英文提問,回答質量也不會顯著提升,甚至它就把星鏈誤認為獨立公司。實測下來,Dia 偶爾會在回答中附上圖片;用中文提問時,有時也會意外觸發英文回答。
輸入框底部,你還能看到「Personalize Dia」,設定崇拜物件、喜歡的學習方式,以及 Dia 的回答風格,可以幫助 Dia 快速瞭解自己,起到調教 AI 人設的作用。
隨手上傳一個網際網路梗圖,Dia 也能夠輕鬆識別表情包的言外之意。文件總結很到位,10 萬字被梳理得清晰明瞭,但值得注意的是,文件大小限制在 100M 內,且實測不支援上傳 Doc 格式文件。
左上角會顯示出現了兩個 ChatGPT, 應該是 Bug
值得注意的是,Dia 瀏覽器使用的是 Chromium 引擎的特定版本。Chromium 是一個開源專案,許多現代瀏覽器(包括 Chrome)都基於它構建。
互動設計是 Dia 的一大亮點。傳統 AI 外掛主要以側邊欄、懸浮窗的形式呈現,涵蓋 AI 聊天、翻譯、網頁總結等。右上角的 Chat 可以看作一個閹割版的 AI 外掛,雖然功能稍顯單薄,但在互動體驗上卻做得不錯。
劃詞後,右側就能直接提供查詢或解釋功能,整體操作流暢順滑。
比如在知乎看到有人推薦線性代數書籍,我本來想評論一句「不明覺厲」,但寫到一半卡住了,怎麼辦,這時候,放到游標處,游標就會變藍變粗,點選會自動調出右側 Chat 介面。
接著我簡單描述了「看不懂,但我大受震撼」的想法,Dia 就會瀏覽完整個頁面,並給出幾個評論方案。
這些建議甚至模仿了知乎熱評區的輕鬆語氣,簡潔直白又人性化。確認無誤後,點選「Insert」就能自動插入擴寫左側評論。
沒時間看影片,總結影片內容也可以。這裡有個小技巧,也能讓它給出總結影片的字幕。不過,我讓其生成 Word 或 PDF 文件後,卻沒有後續反饋。
另外,Dia 還能透過點選「View 選單-Add Split View Pane」在瀏覽器內實現快速「分屏」,最多可同時分出 4 塊螢幕。
不過,這個功能實用性有限:它僅顯示搜尋結果,點選具體網頁仍會跳轉到全屏模式,屬實有點「中看不中用」。
Arc 曾常被吐槽無法遷移 Chrome 書籤,現在吸取教訓的 Dia 提供了一鍵匯入書籤功能,支援無痛遷移。
沒有像 Arc 那樣「劍走偏鋒」,Dia 選擇了更常規的橫向標籤頁設計。你可以在輸入框裡新增各類網頁標籤,也能一口氣將所有標籤加入對話上下文,提升多標籤頁的資訊聯動能力。
類似 ChatGPT 呼叫 GPTs 的方式,Dia 也支援透過 @ 呼叫各個網頁標籤。
玩法很樸素,我挑選了過往幾篇關於 Ai Pin 的文章,並讓其總結 Ai Pin 值得吐槽的點,很快就得到了清晰的答案。
瀏覽器 2.0 時代已經開始,而 Web,遠未走向死亡
2010 年,克里斯·安德森(Chris Anderson)與邁克爾·沃爾夫(Michael Wolff)在《連線》雜誌共同撰寫了《Web 已死,Internet 永生》一文。
文章犀利地指出,全球資訊網(Web)在誕生二十年後正逐漸走向衰退,其原因在於傳統的 Web 瀏覽模式逐漸被更簡單、更流暢的服務所取代,尤其是應用程式(App)的崛起,更簡潔、高效,能夠直接滿足他們的需求。
比如,開啟一個新聞 App 就能立刻瀏覽頭條,而無需在瀏覽器中輸入網址、等待頁面載入。這種「App 優先」的趨勢在過去十年中幾乎主導了網際網路產品的開發邏輯。
然而,生成式 AI 的崛起重新將產品開發的焦點拉回到 Web 模式。這種轉變看似出人意料,卻又合情合理。
AI 互動本質上是以文字/對話為核心,Web 介面天然支援複雜的文字輸入輸出,且能便於分享結果和協作。
生成式 AI 模型計算需求大、迭代速度快。在不確定哪種 AI 應用場景最有價值的探索期,Web 平臺能以最小成本覆蓋所有裝置使用者,加速產品市場匹配驗證。
並且,相比下載 App 的心理和實際成本,Web 版本讓使用者可以「即點即用」,減少了使用者嘗試的障礙,這對於像 ChatGPT 這樣天然陌生的產品也尤為重要。
瀏覽器的基本形態和功能已經維持了近三十年。1989 年,蒂姆·伯納斯-李(Sir Tim Berners-Lee)在 CERN 工作時,建立了全球資訊網(WWW),以滿足科學家、大學和其他研究機構之間共享資訊的需求。
網頁瀏覽器應運而生,但它的設計初衷是圍繞文件展開的,這一底層邏輯至今沒翻篇。
到後來的 Netscape Navigator,再到如今的 Chrome、Safari、Firefox 和 Opera,瀏覽器的核心元素(標籤頁、位址列、收藏夾)表面形態不能說毫無變化,但也變化不大。
過去,我們透過搜尋引擎獲取資訊的方式是這樣的:輸入關鍵詞,得到十幾個甚至幾十個結果頁面,然後一個個點選,瀏覽,判斷,篩選,最終從海量資訊中找到自己需要的那一小部分。
這個過程就像在圖書館裡翻閱一摞摞的書籍,耗時且低效。在那個年代,找到資訊的能力本身就是一種技能,甚至催生了「高階搜尋技巧」這樣的教程和課程。
後來,搜尋引擎變得更加智慧,介面設計和效能有所最佳化,比如標籤頁從單一視窗變為多工管理工具,位址列也整合了搜尋功能,可這些變化,說到底還是修修補補,算不上脫胎換骨。
在沉浸式、空間計算和對話式 AI 方興未艾的當下,我們仍然被迫使用基於 30 多年前文件正規化設計的瀏覽器。與其說這是介面問題,倒不如說是整個資訊互動模式的不匹配。
AI 的狂飆突進,給瀏覽器體驗的重塑撕開了一道口子。去年,AI 外掛熱潮席捲而來,Kimi、Monica 等玩家紛紛入局,帶來了一些新玩法:不用離開頁面,就能獲取答案、完成任務,效率直線上升。
從目前體驗上看,仍處於半成品的 Dia 在側邊欄互動、劃詞解釋等細節上有些亮點,但說到底還是沒跳出 AI 外掛的範疇,更多是對現有功能的整合和打磨。
Josh Miller 曾表示,傳統瀏覽器的介面需求已經不再那麼迫切,其底層結構將決定我們的未來。「大多數人以為我們在造瀏覽器,」Miller 在一次對話中說,「其實我們造的是一個基於瀏覽器的系統。」
他的野心,是把瀏覽器從單純的內容展示工具,變成一個類似作業系統的存在,管理個人偏好和行為,在系統層面實現跨裝置的 AI 體驗,而不用在每個應用裡重複設定。
在早期演示中,Dia 就展示了瀏覽器如何代表人類執行任務。
例如,Dia 透過自己瀏覽亞馬遜,找到這些物品並將它們新增到購物車中。這正是瀏覽器能做到的事——利用它對你所有 Web 應用和瀏覽資料的訪問許可權,替你完成任務。
儘管,如今的 Dia 距離這一目標尚有差距,但這種從被動響應到執行理念的轉變,卻與當下大火的 Agent 不謀而合。
在 OpenAI 推出的 Operator,以及智譜最新發布的「沉思」Agent 中,我們也看到瀏覽器開始代替使用者採取行動,比如預訂機票、比較產品價格、填寫表單,甚至完成線上購物。
為了更好地瞭解這一趨勢,不妨再來看看 OpenAI 前 AI 大神 Andrej Karpathy 提出的「LLM 作業系統」設想:
LLM 作為核心:LLM 是整個系統的中心,類似於傳統作業系統中的 CPU,負責處理核心任務和協調其他元件。
儲存體系:包括上下文視窗(類似 RAM),用於儲存當前正在處理的資訊。
檔案系統:用於長期儲存資料,類似於傳統計算機的硬碟。
向量資料庫(embeddings/vector databases):用於儲存和檢索嵌入向量,是 LLM 進行語義理解和檢索的重要基礎。
瀏覽器:作為 I/O 外設之一,用於訪問網際網路資源,獲取即時資訊。
多模態工具:支援處理文字、影像、音訊等多種資料型別。
其他工具:如程式碼直譯器、計算器等,用於輔助 LLM 完成複雜任務
從根源上講,瀏覽器自誕生之初便緊密貼合人類需求,為人類而生的屬性貫穿始終。傳統瀏覽器依賴的 UI 自動化工具(如 Selenium)本質上是對人類操作的映象模擬。
與圖形化介面和手動操作有所不同,AI Agent 需要透過程式碼訪問和解析資料與網頁進行自動化互動,而動態載入的內容、複雜的頁面結構,以及反爬機制(如驗證碼)的普遍應用,都是亟待解決的幾道難關。
瀏覽器服務商 Browserbase 創始人 Paul Klein 也曾給出一些技術思路:
開發開源、高效的瀏覽器,減少瀏覽器啟動時的等待時間和安裝所需的資源量,提升執行速度和部署便利性。
利用 LLM 快速定位網頁資料,VLM 基於截圖識別元素,支援自然語言互動,無需複雜指令碼,即使面對混淆或動態內容也能適應。
提供更可靠的 SDK 和 API 開發工具,簡化開發流程,提高 AI Agent 使用體驗。
更理想的狀態是,AI Agent 與瀏覽器/網站則需要透過標準化協議直接通訊,跳過視覺互動環節,基於資料介面(如 API、底層協議)實現自動化操作,完成從 「人→介面→資料」 到 「機器→協議→資料」的直連。
這段時間頻繁出現在大眾視野的 MCP,正是解決傳統「人→介面→資料」模式瓶頸的一種方案。它透過客戶端-伺服器架構,將 AI Agent(主機/客戶端)與外部資源(伺服器)連線起來,用協議取代了介面操作。
簡單來說,你可以把 MCP 想象成一個「萬能介面」,就像電腦上的 USB-C 介面一樣。這個介面讓 AI 模型能夠輕鬆地連線到各種外部資源,比如檔案、資料庫、線上服務等。
透過 MCP,AI 助手不僅能獲取資料,還能直接對資料進行操作,比如讀取檔案內容、更新資料庫記錄等。
瀏覽器會繼續服務人類,但會越來越適配 AI 的需求。人類下達命令,Agent 高效執行的協作模式將成為未來的常態。
從早期的命令列介面(CLI),到圖形使用者介面(GUI),再到如今邁向人機純自然語言互動以及機器與機器的協議層互動,技術在複雜化,但互動方式卻在不斷簡化。
現在,瀏覽器 2.0 時代已經開始,而 Web,遠未走向死亡。
「
AI 不會以應用程式的形式存在,也不會是一個按鈕。我們相信它將是一個全新的環境——建立在 Web 瀏覽器之上,」Dia 的官網如是說。
下載地址:
https://www.diabrowser.com/download
我們正在招募夥伴
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)