在早期演示中,Dia 就展示了瀏覽器如何代表人類執行任務。
例如,Dia 透過自己瀏覽亞馬遜,找到這些物品並將它們新增到購物車中。這正是瀏覽器能做到的事——利用它對你所有 Web 應用和瀏覽資料的訪問許可權,替你完成任務。
儘管,如今的 Dia 距離這一目標尚有差距,但這種從被動響應到執行理念的轉變,卻與當下大火的 Agent 不謀而合。
在 OpenAI 推出的 Operator,以及智譜最新發布的「沉思」Agent 中,我們也看到瀏覽器開始代替使用者採取行動,比如預訂機票、比較產品價格、填寫表單,甚至完成線上購物。
為了更好地瞭解這一趨勢,不妨再來看看 OpenAI 前 AI 大神 Andrej Karpathy 提出的「LLM 作業系統」設想:
LLM 作為核心:LLM 是整個系統的中心,類似於傳統作業系統中的 CPU,負責處理核心任務和協調其他元件。
儲存體系:包括上下文視窗(類似 RAM),用於儲存當前正在處理的資訊。
檔案系統:用於長期儲存資料,類似於傳統計算機的硬碟。
向量資料庫(embeddings/vector databases):用於儲存和檢索嵌入向量,是 LLM 進行語義理解和檢索的重要基礎。
瀏覽器:作為 I/O 外設之一,用於訪問網際網路資源,獲取即時資訊。
多模態工具:支援處理文字、影像、音訊等多種資料型別。
其他工具:如程式碼直譯器、計算器等,用於輔助 LLM 完成複雜任務
從根源上講,瀏覽器自誕生之初便緊密貼合人類需求,為人類而生的屬性貫穿始終。傳統瀏覽器依賴的 UI 自動化工具(如 Selenium)本質上是對人類操作的映象模擬。
與圖形化介面和手動操作有所不同,AI Agent 需要透過程式碼訪問和解析資料與網頁進行自動化互動,而動態載入的內容、複雜的頁面結構,以及反爬機制(如驗證碼)的普遍應用,都是亟待解決的幾道難關。
瀏覽器服務商 Browserbase 創始人 Paul Klein 也曾給出一些技術思路:
開發開源、高效的瀏覽器,減少瀏覽器啟動時的等待時間和安裝所需的資源量,提升執行速度和部署便利性。
利用 LLM 快速定位網頁資料,VLM 基於截圖識別元素,支援自然語言互動,無需複雜指令碼,即使面對混淆或動態內容也能適應。
提供更可靠的 SDK 和 API 開發工具,簡化開發流程,提高 AI Agent 使用體驗。
更理想的狀態是,AI Agent 與瀏覽器/網站則需要透過標準化協議直接通訊,跳過視覺互動環節,基於資料介面(如 API、底層協議)實現自動化操作,完成從 「人→介面→資料」 到 「機器→協議→資料」的直連。
這段時間頻繁出現在大眾視野的 MCP,正是解決傳統「人→介面→資料」模式瓶頸的一種方案。它透過客戶端-伺服器架構,將 AI Agent(主機/客戶端)與外部資源(伺服器)連線起來,用協議取代了介面操作。
簡單來說,你可以把 MCP 想象成一個「萬能介面」,就像電腦上的 USB-C 介面一樣。這個介面讓 AI 模型能夠輕鬆地連線到各種外部資源,比如檔案、資料庫、線上服務等。
透過 MCP,AI 助手不僅能獲取資料,還能直接對資料進行操作,比如讀取檔案內容、更新資料庫記錄等。
瀏覽器會繼續服務人類,但會越來越適配 AI 的需求。人類下達命令,Agent 高效執行的協作模式將成為未來的常態。
從早期的命令列介面(CLI),到圖形使用者介面(GUI),再到如今邁向人機純自然語言互動以及機器與機器的協議層互動,技術在複雜化,但互動方式卻在不斷簡化。
現在,瀏覽器 2.0 時代已經開始,而 Web,遠未走向死亡。
「
AI 不會以應用程式的形式存在,也不會是一個按鈕。我們相信它將是一個全新的環境——建立在 Web 瀏覽器之上,」Dia 的官網如是說。