
新智元報道
新智元報道
編輯:桃子
【新智元導讀】AI組隊自主開發時代來臨!OpenAI Operator和Replit Agent組隊程式設計,僅在5個提示90分鐘內完成了應用程式的開發。
無需人類插手,AI智慧體聯手AI智慧體竟完成了程式開發。
這簡直太瘋狂了!
最近,AI開發者Lamar將OpenAI Operator和Replit Agent配對後,讓其構建應用程式。
最不可思議的是,在實現過程中,僅僅用了5個提示,兩個AI智慧體竟像人類一樣,互相合作、交換憑證,並開始測試。
最終,他們在90分鐘之內完成了開發。

可以看到,左邊OpenAI Operator光速執行搜尋的同時,右邊Replit Agent也在快速構建程式碼。
這個帖子瞬間在全網爆火,影片已有140萬瀏覽量。

OpenAI總裁轉發後激動表示,「AI智慧體互動的初體驗」。

開源Brower-Use構建智慧體
無獨有偶,另一位開發者Shubham Saboo構建了一個自主3D Python遊戲視覺化智慧體團隊,僅使用了瀏覽器和 DeepSeek R1完成。

這個團隊由4個AI智慧體組成,它們在瀏覽器中自主合作——編寫、執行並可視化遊戲。
有網友表示,不知是否有開源模型,能夠做這件事。

開發者給推薦了一個Browser Use的專案,這是專為控制AI瀏覽器打造的。

專案地址:https://github.com/browser-use/browser-use
它能夠實現,將自己想要的物品加入購物車,然後結賬。
再比如,讓它閱讀簡歷並找到機器學習相關的工作,儲存到一個檔案中,然後在新標籤頁中開始申請。
或者,讓AI用谷歌郵箱給父親寫一封信,感謝他所做的一切,並將文件儲存為PDF。

又或是查詢許可證為cc-by-sa-4.0的模特,並按Hugging Face上的最喜歡排序,將前5名儲存到檔案中。
快速啟動
使用pip(Python>=3.11):
pip install browser-use
安裝playwright:
playwright install
啟動你的智慧體:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
將你想使用的提供商的API金鑰新增到.env檔案中。
OPENAI_API_KEY=
使用UI測試
你可以透過一個UI倉庫來測試瀏覽器使用,或者簡單地執行gradio示例:
uv pip install gradio
python examples/ui/gradio_demo.py
除了Browser Use,另一位網友還推薦了微軟團隊開發的OmniParser V2的專案,也是利用AI操控螢幕幫人類完成複雜任務。
這兩者開發的主要區別在於,OmniParser V2是圖形使用者介面自動化和螢幕解析,輸入的是UI截圖,輸出的是大模型的結構化資料。
而Browser Use主要用在debug和程式碼導航,輸入程式碼或程式執行文字,輸出的是debug觀點和導航。
兩者側重各有所不同,可依據實際使用場景擇優選擇。

AI自主開發,震驚全網
2025年,幾乎所有科技大廠將賭注壓在了智慧體之上。
在巴黎AI行動峰會上,圖靈獎得主Yann LeCun表示,Meta將在明年推出,帶有顯示屏和肌電介面的智慧眼鏡。
完全增強現實眼鏡將在幾年內問世,屆時,我們每個人都會管理一支由人類級智慧的AI智慧體組成的團隊。

奧特曼在通常會議中表示,如果AI智慧體只需50美分的計算成本,就能完成5000美元的工作,那麼AI帶來的經濟機會規模將是「瓶裝閃電。
學術界,也將智慧體的研究作為一個重點。
前段時間,來自斯坦福團隊研究人員透過多智慧體強化學習(multi-agent RL),訓練LLM掌握戰略性社交推理,結果發現,使勝率比標準強化學習提升一倍。

論文地址:https://www.alphaxiv.org/abs/2502.06060
1997年:深藍(Deep Blue)擊敗卡斯帕羅夫(Kasparov)
2016年:AlphaGo精通圍棋
2025年:斯坦福研究人員攻克《Among Us》

另有微軟團隊開源了OmniParser V2,可以將任何大模型轉換為能夠使用計算機的智慧體。

以上demo中,兩個AI分工協作的強大能力,讓許多人窺見了另一個未來。

AI研究員David Shapiro表示,這比人們想象的要重要得多。人類發現了「分工」這一概念,改變了人類文明。
從來都不會是一個智慧體單打獨鬥,而是無數智慧體協作,「分而治之」去搞定任何任務。

一位教授表示,「這只是未來瘋狂場景的一瞥,成百上千的AI智慧體協作解決極其複雜的問題,或執行通常需要整個組織的任務——速度和效率是現在的成千上萬倍」。

AI智慧體時代已經到來!

參考資料:
https://x.com/gdb/status/1891047216611037229?s=46
https://x.com/DeryaTR_/status/1890922993028591998


