

本週,初創公司 Browser Use 宣佈完成 1700 萬美元融資,由 Felicis Ventures 領投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pioneer Fund 等跟投。
不少公司已經在嘗試開發智慧體工具來自動處理各類線上任務。Browser Use 就是其中之一。這款由 AI 大模型驅動的瀏覽器自動化代理,僅靠兩名創始人,從構想到在 Hacker News 上釋出,僅用了四天,然後在短短幾個月裡拿下 1,700 萬美元融資。更令人驚訝的是,這個專案的核心,僅僅是 8000 行開原始碼。
這家公司是“閃電創業”,從零開始,在幾個月的時間裡迅速崛起。
Browser Use 的故事始於蘇黎世聯邦理工學院的學生專案之家加速器,這是 Gregor Zunic 和 Magnus Müller 的創意。Müller 本人一直致力於網路抓取工具的研究,並於 2024 年結識了Žunič,當時二人正在攻讀資料科學碩士學位。
網際網路作為世界上最大的非結構化資訊來源,對於 AI 代理而言,其“可讀性”至關重要。網路資訊不斷更新,使其成為新鮮資訊的重要來源。然而,對於 AI 代理來說,瀏覽網頁並非易事,需要完成移動滑鼠游標、點選按鈕、填寫表格等複雜任務。
目前,AI 代理領域正迅速升溫,吸引了大型科技公司和創新型初創公司的紛紛入局:
-
OpenAI 的 Operator,於 2025 年 1 月釋出,面向 ChatGPT Pro 訂閱使用者($200/ 月),專注於消費級 Web 自動化
-
Convergence 的 Proxy,於 2024 年 12 月釋出,英國初創公司,提供免費試用(每天 5 次會話),或 $20/ 月的無限訪問
-
Google 的 Project Mariner,仍處於預覽測試階段,使用者需加入候補名單申請訪問
-
Anthropic 的 Computer Use,於 2024 年 10 月釋出, 預計將很快釋出更新
-
Microsoft 的 OmniParser V2,於 2025 年 2 月釋出,是一個開源專案,用於將 UI 截圖轉換為結構化資料,使 LLM 能夠更好地解析和互動網頁
然而,Magnus Müller 認為,當前大多數 AI 代理依賴於基於計算機視覺的方法來“觀察”和瀏覽網頁,這種方法存在速度慢、成本高,且效果不穩定的問題。
“許多代理依賴於視覺系統,試圖透過螢幕截圖來理解網站,但這種方式常常出現問題。”他解釋道,“我們將網站轉化為代理能夠理解的結構化內容。這意味著我們可以以更低的成本重複執行相同的任務。”
簡單來說,Browser Use 的核心技術是將每個網站轉化為大型語言模型能夠以確定性方式處理的結構化文字。透過這種方式,AI 代理可以準確理解每個網頁上的可用選項,從而更輕鬆地做出決策。這家初創公司聲稱,其技術能夠顯著提升 AI 代理的網頁瀏覽速度和 UI 互動的精確度。
Müller 回憶,他們對現有技術的深刻反思,催生了將網路抓取與資料科學相結合,以提升 AI 代理網頁任務執行能力的創新想法。這成為了 Browser Use 技術發展的最初起點。
最初,Browser Use 還只是一個週末實驗,聯合創始人 Gregor Žunič 曾在 X 上分享道:“我們的初衷是探索大模型能否像人類一樣瀏覽網頁。令人驚喜的是,僅僅四天,我們就構建了一個初始原型,並將其釋出在了 Hacker News 上。”

Žunič 透露,這個想法最初源於一次午餐時的頭腦風暴,但很快被他們視為值得一試的研究方向:“我們可以先構建一個原型,放在 Hacker News 上,看看社群的反饋。” 沒想到,原型釋出後獲得了熱烈反響,這促使兩位創始人迅速成立公司,幾個月後便透過 Y Combinator 加速器獲得了早期融資。
Browser Use 目前有兩個版本,一個是 Cloud Version,相比 OpenAI 的 Operator($200/ 月),Browser Use 的定價僅為 $30/ 月。一個是開源版本,免費併兼容多個 LLM 模型,包括 Gemini、Sonnet、Qwen 以及 DeepSeek-R1,並採用 MIT 許可。

有網友指出,這個專案僅有約 8000 行程式碼。從 GitHub 來看,該專案主要採用 Python 編寫,其中 8.2% 的程式碼為 JavaScript。例如,較長的服務檔案 service.py 有 1239 行程式碼,而用於構建 DomTree 的檔案,含 1072 行 JS 程式碼。
Browser Use 在本質上是將網站的按鈕和元素拆分成更易於智慧體理解的“類文字”格式,這有助於智慧體理解不同選項並自主做出決策。它能夠提取網站中的元素(按鈕、小部件等),讓 AI 模型與 Web 內容互動。該工具可以管理多個瀏覽器選項卡,設定儲存檔案和執行資料庫操作等,同時支援滑鼠與鍵盤輸入。
由於 Browser Use 基於網路爬取,它的功能裡還包括應對爬蟲相關挑戰的部分。網站內容的頻繁變動可能導致自動化指令碼失效,而這通常是在問題發生後才被發現。與此同時,許多網站會採用防爬蟲措施,要求使用者更換 IP、解決驗證碼,並模擬人類行為以避免封禁。此外,使用 LLM 進行網頁抓取時,還可能遇到速率限制、解析錯誤以及 API 金鑰管理等問題。而在執行有價值的任務時,使用者通常需要頻繁登入,輸入使用者名稱和密碼,這對許多人來說也是一個困擾。
為了解決這些問題,Browser Use 提供了代理輪換功能,幫助使用者避免 IP 被封禁,並支援持久會話,確保使用者僅需登入一次即可持續使用。
他們的釋出略晚於 OpenAI Operator,但根據他們的自述,Browser Use 在 WebVoyager 基準測試中取得了 89.1% 的成功率,覆蓋了 586 項不同的網頁任務,高於 OpenAI Operator 的 87%。

目前,這個開源專案已有 50,000 個 GitHub 星星,也是增長最快的開源 AI 專案之一。
值得注意的是,Browser Use 的走紅似乎也帶有一定的偶然性。
其中一次爆發式增長,是在 AI 智慧體平臺 Manus 宣佈推出的時候。當時一篇關於 Manus 使用 Browser Use 的帖子在 X 上獲得了超 240 萬瀏覽量和大量轉發。Browser Use 成為 Manus 用於執行各類任務的組合之一,例如點選網站選單和填寫表格。
這讓 Browser Use 的產品日均下載量從 3 月 3 日的約 5000 次增長至 3 月 10 日的 2.8 萬次,一週內增長超過五倍。這次爆發式增長,使 Browser Use 迅速成為行業焦點。。
“那幾天簡直是瘋狂。”Žunič回憶道,“我們成為了 GitHub 上最熱門的程式碼倉庫,下載量和使用者轉化率都達到了前所未有的高度。”
“我們的願景是打造一個基礎層,讓開發者能夠在此之上構建瀏覽器智慧體。我們相信,到今年年底,Web 上的智慧體數量將超過全球人口。”Žunič展望道。
這聽起來可能過於樂觀,但部分分析師預測,未來幾個月 AI 智慧體的市場確實會迎來大幅增長。根據 Research and Markets 公佈的資料,該行業有望在 2029 年達到 420 億美元。德勤則預計,到 2027 年,將有半數使用 AI 方案的企業部署 AI 智慧體。
根據 Felicis Ventures 投資人 Astasia Myers 的說法,該公司過去幾年來一直在積極關注 AI 智慧體領域,而 Browser Use 似乎是擴大該公司投資組合的絕佳機會。她強調稱,之所以決定出手資助,也是看中了 Browser Use 優秀的創始團隊及其開源優先的指導思想。
Myers 在採訪中總結道,“我們認為 Web AI 智慧體將成為下一個真正有助於實現端到端自動化人工任務的前沿。Web AI 智慧體將成為靜態預訓練大模型之間的動態橋樑,幫助這些模型在不斷變化的數字環境中始終堅持以文字為學習中心。”
參考連結:
https://www.ycombinator.com/companies/browser-use
https://venturebeat.com/ai/the-rise-of-browser-use-agents-why-convergences-proxy-is-beating-openais-operator/
https://techcrunch.com/2025/03/23/browser-use-the-tool-making-it-easier-for-ai-agents-to-navigate-websites-raises-17m/
宣告:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。
今日好文推薦
在 AI 大模型重塑軟體開發的時代,我們如何把握變革?如何突破技術邊界?4 月 10-12 日,QCon 全球軟體開發大會· 北京站 邀你共赴 3 天沉浸式學習之約,跳出「技術繭房」,探索前沿科技的無限可能。
本次大會將匯聚頂尖技術專家、創新實踐者,共同探討多行業 AI 落地應用,分享一手實踐經驗,深度參與 DeepSeek 主題圓桌,洞見未來趨勢。
