點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
點選進入—>【論文投稿和垂直方向】交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
轉載自:新智元 |編輯:編輯部 HNYZ
AI/CV重磅乾貨,第一時間送達
點選進入—>【論文投稿和垂直方向】交流群
AI/CV重磅乾貨,第一時間送達
點選進入—>【論文投稿和垂直方向】交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
【導讀】OpenAI給開發者的深夜大禮:一套全新API和工具上線,智慧體的開發更簡單了!從此無需從不同來源拼湊各種底層API。一個全新API、三個內建工具,以及一個開源SDK,讓智慧體開發進入next level。
Manus掀起的智慧體風暴,再次逼急了OpenAI。
凌晨,OpenAI突然開啟線上直播,正式放出開發者自主構建智慧體的大禮包——
一個全新API、三個內建工具,以及一個開源SDK。

具體包括:
-
全新Responses API:將Chat Completions API簡單性與Assistants API工具使用功能相結合,用於構建智慧體 -
內建三大工具:網路搜尋、檔案搜尋和計算機使用 -
全新Agents SDK:用於編排單智慧體和多智慧體工作流程 -
整合視覺化工具:用於追蹤和檢查智慧體工作流程執行情況
以往,開發者構建一款智慧體應用,需要從不同來源拼湊各種底層API。
這個過程不僅耗時耗力,就像搭積木一樣「搖搖欲墜」,如果一個環節出錯,搭出的智慧體系統隨時可能崩盤。
而現在,OpenAI推出的Responses API和一系列工具,直接簡化了核心智慧體的邏輯、編排和互動。
與o1 Pro、Deep Research、Operator不同,Responses API是一個「統一API」,可支援多輪互動和工具呼叫。


其中,「網路搜尋工具」可讓模型即時訪問網際網路資訊,與驅動ChatGPT Search是同一個工具,在Simple QA中,經過微調後的GPT-4o拿下90%高分,GPT-4o mini得分為88%。

「檔案搜尋工具」曾在Assistance API中推出,便捷上傳、分塊、嵌入文件,以及RAG。現在,新增了兩個新功能「元資料過濾」和「直接搜尋端點」。
「計算機使用工具」在API中被稱為Operator,並配備了專門的計算機使用模型(CUA),跟ChatGPT中的Operator使用的是同一款。
結果顯示,模型在多項基準測試中重新整理了SOTA——OSWorld中成功率38.1%,在WebArena中達到58.1%,在WebVoyager基於網路的互動中達到87%。

從今天開始,計算機使用工具研究預覽版,將向3-5級的特定開發者開放,輸入價格3美元/每百萬個token,輸出價格12美元/每百萬個token。
另外,奧特曼開源的諾言終於兌現了一部分——Agents SDK,簡化多智慧體工作流管理。
OpenAI還預告,未來幾周和幾個月裡,還計劃釋出更多工具和功能,進一步簡化和加速在平臺上構建智慧體應用。
OpenAI現場演示:幾大全新工具,構建更強大智慧體
ChatGPT中已經推出的兩個智慧體,我們並不陌生。一個是可以瀏覽網頁、完成各種任務的Operator,一個是能針對任何主題生成詳細報告的Deep Research。
但現在,OpenAI希望把這些工具和更多工具以API的形式釋出給開發者。
過去一年裡,OpenAI也已經推出了高階推理、多模態互動、新的安全技術等全新功能,這就已經打好了構建智慧體所需要的複雜多步驟任務的基礎。
然而,有很多客戶卻反饋說,這些功能很難直接轉換為可以直接工作的智慧體,而是需要大量的大量的提示詞迭代和自定義編排邏輯,而且缺乏足夠的可見性和內建支援。
而今天這套全新工具,將把智慧體構建帶入next level。
首先介紹的,就是網路搜尋工具。
它允許OpenAI的模型訪問網際網路上的資訊,保證使用者得到的結果是最新的和準確的。

網路搜尋工具與驅動ChatGPT Search的是同一個工具,它在底層由一個經過微調的模型驅動,此模型就是經過微調的GPT-4o 或4o mini。
它非常擅長處理從網路獲取的大量資料,找到相關的資訊片段,並在響應中清晰地引用它們。
在Simple QA中,GPT-4o達到了90%的最佳水平。

接下來介紹的,是檔案搜尋工具。
負責展示的OpenAI研究者表示,這是自己最喜歡的工具。
去年,OpenAI就在Assistance API中推出了檔案搜尋工具,為開發者提供簡便的方式來上傳、分塊和嵌入文件,並且輕鬆實現RAG操作。
而今天,他們在檔案搜尋工具中推出兩個新功能。
第一個是元資料過濾。此功能讓使用者可以為檔案新增屬性,輕鬆篩選出與查詢最相關的內容。
第二個是直接搜尋端點。這樣我們就可以直接搜尋您的向量儲存,而無需先透過模型過濾查詢。
也就是說,我們可以使用網路搜尋來處理公共資料,用檔案搜尋來處理私有資料了。
第三個介紹的,就是Computer Use工具。

它是API中的Operator,可以讓你控制正在操作的計算機,比如一個虛擬機器,或者僅有圖形使用者介面而沒有API訪問許可權的傳統應用程式。
如果想要自動化這類任務,並在此基礎上構建應用程式,就可以直接使用Computer Use。

Responses API
另外,OpenAI還希望從基本原則出發,為這些工具設計最佳的API。
2023年推出的Chat Completions和GPT-3.5 Turbo中,所有的API互動都僅限於文字輸入和輸出。
此後,OpenAI又引入了多模態功能,包括影像、音訊。
此外,像o1 Pro、Deep Research Operator這樣的產品,都需要在後臺執行多輪模型互動和多次工具呼叫。
因此,他們希望構建一個足夠靈活的API基礎介面,能支援多輪互動和工具呼叫。
這個新的API,就被命名為Responses API。
在此前的Chat Completions中,只需選擇上下文,選擇一個模型,就能獲得響應。

而接下來,研究者將展示如何用Responses API構建一個個人造型師助手。
然後就可以直接問它:現在時尚圈的最新流行趨勢是什麼?

不過,它還應該瞭解使用者的個人喜好。
為此,他們建立了一個向量儲存庫,裡面記錄了團隊成員的日常穿搭記錄。在操作中,可以篩選向量儲存中的檔案,只顯示與目標使用者相關的內容。
然後就可以問造型助手:Ilan喜歡穿什麼,你能總結一下嗎?它立刻給出了準確的總結。

但是要打造一個更好的助手,我們還需要讓他能從網上獲取最新資料。為此,就要新增網路搜尋工具。
接下來,他們考驗了是否能用檔案搜尋工具,來了解Kevin小哥的穿衣喜好,然後用網路搜尋工具找到附近讓他感興趣的商店。
模型呼叫了檔案搜尋工具,瞭解Kevin的穿衣風格,然後呼叫網路搜尋工具,根據他的位置——東京,尋找他喜歡的商店。
讓人驚喜的是,模型只用了一次API呼叫,就在東京找到了好幾家巴塔哥尼亞專賣店,完全符合Kevin的品味。


但是,這還不夠!一個稱職的個人造型助手,應該可以直接幫你購物。
為此,他們添加了Computer Use工具,要求助手幫Kevin買一件黑色巴塔哥尼亞夾克。
在電腦本地執行Docker容器後,把截圖發給模型,它就會分析計算機的狀態,發出下一步指令。
研究者執行操作後,再拍一張截圖發給模型,它就會迴圈操作,直到任務完成。

Agents SDK
在實際開發任務中,應用會更復雜,比如我們需要開發一個客服智慧體,它要能處理退款,還能回答常見的客服問題、處理訂單和賬單。
為此,OpenAI去年已經發布了一個名為Swarm的SDK,讓智慧體的協同排程變得簡單。
今天,他們家決定將Swarm升級為Agents SDK。
研究者Ilan介紹說,自己曾投入大量時間合作企業和開發者,幫他們構建智慧體,也親身體會到看似簡單的想法想落地卻十分複雜。
Agents SDK的理念就是:保持簡單,同時用直觀簡便的方式構建更復雜強大的功能。

比如接下來的考驗就是,不小心訂了太多件巴塔哥尼亞的衣服,所以需要退貨。
本來,可以直接新增一個退貨工具,在提示詞中指示就能實現了,但這就存在一個問題:業務邏輯都混在一起,會讓智慧體更難測試。
而如果採用多智慧體指令碼,就能獨立開發和測試各個模組。
為此,他們專門引入了一個退貨智慧體。Swarm中特別受歡迎的標準Python函式,都被引入了Agents SDK。

現在,他們已經有了一個造型師智慧體,和一個退貨智慧體,然後需要實現一個簡單卻強大的概念——任務交接。
它的強大之處就在於,一個智慧體處理對話後,將其轉交給另一個智慧體時,對話內容保持不變,只需在後臺替換指令和工具,這就能為對話的每個環節載入上下文。
整個流程是這樣的:分類智慧體將任務轉到了客服智慧體,然後客服智慧體主動呼叫了getPastOrders函式,讓我們看到了Kevin所有的巴塔哥尼亞商品。
本來這種情況需要手動新增除錯語句的,但Agents SDK的一大優勢就是內建了監控和追蹤功能。

在儀表盤中,我們可以看到所有具體交接的過程
以上展示的,都是Agents SDK 提供的開箱即用功能,它甚至還配置了安全防護機制和生命週期事件處理。
而且,它是一個開源框架。只需執行pip install openai-agents,就可以安裝使用了。
在結束之前,Ilan實際執行了一下退款操作。
「你知道嗎?抱歉了,Kevin。把這些都退掉吧。」Ilan打趣的說。「那我穿什麼呀?Kevin要被凍著了,」現場大家都笑了出來。
「是啊,讓我們看看。商品還真不少。好了,退回這麼多巴塔哥尼亞的商品確實需要點時間。」Ilan開始執行退款。
他在智慧體中打出了「get rid of all of them」指令。幾秒鐘後,Kevin的巴塔哥尼亞就全都退款成功了。


「那麼系統內部是如何運作的?如何進行除錯?如何更深入地瞭解整個過程?」Kevin問道。
對此,Ilan回答說,「我們可以透過追蹤介面來檢視所有這些資訊。這提供了一種非常簡潔直觀的方式來構建這類應用。」
統一API,4行程式碼即可上手
Responses API是OpenAI最新的API基礎元件,旨在利用OpenAI內建的工具構建智慧體。
它結合了Chat Completions的簡單性與Assistants API的工具使用能力。隨著模型能力不斷發展,他們相信Responses API將為開發者構建具備自主能力的應用提供更加靈活的基礎。
透過一次Responses API呼叫,開發者即可藉助多個工具和模型互動回合,解決日益複雜的任務。

作為開始,Responses API將支援新的內建工具,包括網頁搜尋、檔案搜尋和計算機使用。
這些工具旨在協同工作,將模型與現實世界連線起來,從而更高效地完成任務。
此外,它還帶來了若干易用性改進,比如統一的基於專案的設計、更簡單的多型機制、更直觀的流式事件,以及SDK輔助功能(例如response.output_text),以便輕鬆獲取模型生成的文字輸出。
Responses API專為那些希望在應用中輕鬆結合OpenAI模型和內建工具的開發者設計,避免了整合多個API或外部供應商的複雜性。
這個API還使得資料更易於儲存在OpenAI平臺上,以便開發者透過追蹤(tracing)和評估(evaluations)等功能衡量智慧體的效能。
此外,他們也特別提醒,即使資料儲存在OpenAI上,他們的模型預設也不會使用企業的資料進行訓練。
從今天起,所有開發者均可使用Responses API,且無額外使用費用——相關的token和工具呼叫將按照他們定價頁面上的標準費率計費。
下圖是Responses API呼叫文字模型的價格。全部模型的定價可以參考他們的定價頁面。

地址:https://platform.openai.com/docs/pricing
如需瞭解更多,可以檢視Responses API快速入門指南。

地址:https://platform.openai.com/docs/quickstart?api-mode=responses
2年磨一劍
OpenAI的研究員Atty Eleti還在X上分享了設計Responses API的故事。

如今,模型不再侷限於文字,而是多模態——能處理影像、音訊,甚至更多。
他們具備了智慧體的能力,可以呼叫一個或多個工具,甚至在「說話」之前會「思考」。
這些變化,讓OpenAI過去兩年開發的Chat Completions API和Assistants API的短板暴露無遺。

Atty還貼出了一張加班圖
Chat Completions API是一個無狀態的API,每次呼叫都需要傳遞全部上下文,對於多模態資料效率極低。而且,它也不支援工具呼叫,流式處理的實現異常複雜
Assistants API雖然支援工具,但由於設計過於複雜,高抽象帶來的學習曲線讓人望而卻步。後臺處理的架構雖然強大,卻犧牲了速度。
由此,Responses API誕生了,它是OpenAI過去兩年經驗結晶,集合了前者簡潔性和後者強大功能,既容易上手,又能滿足複雜需求。
只需4行程式碼,即可上手Responses API,檔案搜尋、網路搜尋、函式呼叫、結構化輸出功能,只要一個引數就搞定。

這對現有API意味著什麼
· Chat Completions API
OpenAI依舊為Chat Completions API新增新模型和功能。不需要使用內建工具的開發者,可以放心使用Chat Completions。
只要新模型的功能不依賴於內建工具或多次模型呼叫,就會持續在Chat Completions中釋出這些新模型。
不過,Responses API是Chat Completions的超集,且具備相同出色的效能,因此,對於新的整合,OpenAI建議開發者優先選擇Responses API。
· Assistants API
根據開發者在Assistants API測試版期間的反饋,OpenAI將其關鍵的改進融入到了Responses API,使其更加靈活、快速且易於使用。
目前,OpenAI正致力於實現Assistants API與Responses API之間完整的功能對齊,包括對Assistant和Thread等物件,以及Code Interpreter工具的支援。
當這一程序完成後,OpenAI計劃正式宣佈棄用Assistants API,預計在2026年中停止使用。屆時,他們將提供清晰的遷移指南,幫助開發者從Assistants API平穩遷移到Responses API,同時完整保留所有資料並遷移應用程式。
在OpenAI正式宣佈棄用Assistants API之前,仍將繼續為其提供新的模型更新。
Responses API中的內建工具
網路搜尋
當使用GPT-4o和GPT-4o mini模型時,網路搜尋功能可作為內建工具,並支援與其他工具或函式呼叫進行組合使用。
值得一提的是,Responses API中的網路搜尋,使用的是和「ChatGPT搜尋」同款的模型。
基於此,開發者可以獲得快速、最新的答案,並附帶來自網路的清晰相關引用。
constresponse = await openai.responses.create({
model: "gpt-4o",
tools: [ { type: "web_search_preview" } ],
input: "What was a positive news story that happened today?",
});
console.log(response.output_text);
在早期測試中,開發者利用網路搜尋構建了各種應用場景,包括購物助手、研究智慧體和旅行預訂助手——所有需要網路即時資訊的應用。
API中使用網路搜尋生成的響應包含源連結,如新聞文章和部落格文章,讓使用者能夠深入瞭解更多資訊。透過這些清晰的內聯引用,使用者可以更直觀地獲取資訊,同時內容所有者也獲得了接觸更廣泛受眾的新機會。
任何網站或釋出者都可以選擇在API的網路搜尋中顯示。
目前,所有開發者都可在Responses API預覽版中使用網路搜尋工具,並且還可以在Chat Completions API中直接使用微調搜尋模型gpt-4o-search-preview和gpt-4o-mini-search-preview。
價格方面,GPT-4o搜尋每千次查詢起價30美元,4o mini搜尋每千次查詢起價25美元。
檔案搜尋
檔案搜尋工具支援多種檔案型別、查詢最佳化、元資料過濾和自定義重排序,可以提供快速、準確的搜尋結果。
而且,透過 Responses API,只需幾行程式碼就能完成整合。
在經過改進的檔案搜尋的加持下,開發者可以輕鬆地從大量文件中檢索相關資訊。
constproductDocs = await openai.vectorStores.create({
name: "Product Documentation",
file_ids: [file1.id, file2.id, file3.id],
});
constresponse = await openai.responses.create({
model: "gpt-4o-mini",
tools: [{
type: "file_search",
vector_store_ids: [productDocs.id],
}],
input: "What is deep research by OpenAI?",
});
console.log(response.output_text);
檔案搜尋工具可用於多種實際場景,包括使客服人員輕鬆訪問常見問題解答、幫助法律助理為專業人士快速參考往期案例,以及協助程式設計智慧體查詢技術文件。
同樣的,所有的開發者都可以在Responses API中使用檔案搜尋工具。
此外,OpenAI還為向量儲存API物件添加了新的搜尋端點,可以直接查詢資料用於其他應用程式和API。
價格方面,每千次查詢為2.50美元,檔案儲存費用為0.10美元/GB/天,首個GB免費。
計算機使用(CUA)
為了構建能夠完成計算機任務的智慧體,開發者可以在Responses API中使用計算機使用工具,該工具由支援Operator的計算機使用智慧體(CUA)模型提供支援。
如前所述,這個研究預覽版模型在多項基準上重新整理了SOTA。
內建的計算機使用工具能夠捕獲模型生成的滑鼠和鍵盤操作,讓開發者能夠將這些操作直接轉換為環境中的可執行命令,從而實現計算機任務的自動化。
constresponse = await openai.responses.create({
model: "computer-use-preview",
tools: [{
type: "computer_use_preview",
display_width: 1024,
display_height: 768,
environment: "browser",
}],
truncation: "auto",
input: "I'm looking for a new camera. Help me find the best one.",
});
console.log(response.output);
開發者可以使用計算機使用工具,來自動化基於瀏覽器的工作流程,如執行網路應用程式的質量保證或在傳統系統中執行資料錄入任務。
對於那些缺乏API和標準化資料的企業,就可以利用計算機使用工具自動化複雜的運營流程。
在最近與一家主要社群服務組織的試點專案中,Luminai僅用幾天時間就實現了申請處理和使用者註冊流程的自動化——這是傳統 RPA(機器人流程自動化)經過數月努力都難以實現的。

在去年透過Operator推出CUA之前,OpenAI進行了廣泛的安全測試和紅隊測試,解決了三個關鍵風險領域:濫用、模型錯誤和前沿風險。
為了應對透過API將CUA功能擴充套件到本地作業系統帶來的風險,他們又進行了額外的安全評估和紅隊測試。
研究人員還為開發者添加了多重防護措施,包括防止提示詞注入的安全檢查、敏感任務的確認提示、環境隔離工具,以及增強對潛在違規行為的檢測。
儘管採取了這些防護措施,但模型在非瀏覽器環境中仍可能出現意外錯誤。
例如,CUA在OSWorld中成功率僅為38.1%,這表明該模型在作業系統任務自動化方面尚未達到高度可靠性。因此在這些場景中,OpenAI建議還需要有人類的監督。
開源Agents SDK
除了構建智慧體的核心邏輯併為其提供工具訪問許可權以確保實用性外,開發者還需要管理智慧體工作流程。
全新Agents SDK簡化了多智慧體工作流程的管理,較2024年釋出的實驗性SDK Swarm有了顯著改進。
目前,Swarm在GitHub上已經有19k星,已被開發者社群廣泛採用,並在多個客戶中成功部署。

專案地址:https://github.com/openai/swarm
此次,Agents SDK的改進包括:
-
智慧體:易於配置的LLM,具有清晰的指令和內建工具 -
交接:智慧體之間的智慧控制轉移 -
防護機制:可配置的輸入輸出驗證安全檢查 -
追蹤和視覺化:透過視覺化智慧體執行軌跡來除錯和最佳化效能
from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
defsubmit_refund_request(item_id: str, reason: str):
# Your refund logic goes here
return"success"
support_agent = Agent(
name="Support & Returns",
instructions="You are a support agent who can submit refunds [...]",
tools=[submit_refund_request],
)
shopping_agent = Agent(
name="Shopping Assistant",
instructions="You are a shopping assistant who can search the web [...]",
tools=[WebSearchTool()],
)
triage_agent = Agent(
name="Triage Agent",
instructions="Route the user to the correct agent.",
handoffs=[shopping_agent, support_agent],
)
output = Runner.run_sync(
starting_agent=triage_agent,
input="What shoes might work best with my outfit so far?",
)
Agents SDK適用於各種實際應用場景,包括客戶支援自動化、多步驟研究、內容生成、程式碼審查和銷售潛客開發。

例如,Coinbase使用Agents SDK快速開發並部署了 AgentKit,這是一個讓AI智慧體能夠無縫連線加密錢包和各種區塊鏈活動的工具包。
Coinbase僅用幾小時就將其開發者平臺SDK的自定義操作整合到了一個功能完備的智慧體中。
AgentKit的精簡架構簡化了新增新智慧體操作的流程,讓開發者能夠更專注於有價值的整合,而不是消耗在複雜的智慧體配置上。
Agents SDK可與Responses API和Chat Completions API協同工作。
同時,該SDK也支援其他提供商的模型,只要它們提供Chat Completions型別的API端點。開發者現在就能將其整合到Python程式碼庫中,Node.js支援也即將推出。
在設計Agents SDK 時,OpenAI團隊從社群中其他優秀專案獲得啟發,包Pydantic、Griffe和MkDocs。

2025年,無疑是智慧體元年。
OpenAI最新動向,已經釋放出了一個清晰的訊號,標誌著ChatGPT和開發者工具從簡單問答系統,升級為能在現實世界中實際行動的助手。
參考資料:
https://x.com/OpenAI/status/1899476049584599462
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
