


編譯:haozhen
編輯:siqi

三週前,OpenAI 推出了 Deep Research,這是 OpenAI 的第二個 Agent,可以透過搜尋多個網站,在 5-30 分鐘內完成全面的 online research,並綜合引用輸出詳細的報告。
本文是 Sequoia Capital 對 OpenAI Deep Research 負責人 Isa Fulford 和 Josh Tobin 的專訪編譯整理, 兩位成員詳細分享了 OpenAI 在構建 Deep Research 時的技術細節和產品思路,以及目前他們說觀察到的 use case。
Deep Research 源於 OpenAI 內部對模型 long-horizon 任務的處理能力的探索,團隊長期的目標是在未來更夠給到使用者一個終極 Agent:網路搜尋、使用計算機或完成其他希望 Agent 完成的任務自然地 All-in-one。
Deep Research 在產品層面也做了專門最佳化,例如,和我們在 DeepSeek 的分析判斷中提到的一樣,Deep Research 也透過清晰的引用和 CoT 來增強使用者信任。此外,團隊還設計出了一個澄清流程(clarification flow),即確保對任務理解的一致性。Deep Research 在資訊查詢和梳理上比 AI 搜尋和 ChatGPT 都要強,但現階段 Deep Research 從已有資訊中提煉出新的見解的效果不佳,還不能做出新的科學發現。
💡 目錄 💡
01 OpenAI 的第二個 Agent
02 Agent 能力來自模型端到端的訓練
03 Deep Research 的優勢
04 Deep Research 的使用場景
05 Agent 會在 2025 年嶄露新頭角
01.
OpenAI 的第二個 Agent
Deep Research 是一個能夠搜尋多個線上網站並生成非常全面報告的 Agent,可以完成人類需要花費數小時才能完成的許多工。Deep Research 在 ChatGPT 中執行,回答問題的時間大約在 5-30 分鐘之間,因此能夠進行更深入的研究,並能比普通 ChatGPT 更詳細、更加具體地回答問題。之前 OpenAI 已經推出了 Operator,Deep Research 是 OpenAI 的第二個 Agent,OpenAI 未來還會發布更多的 Agents。

起源
大約一年前,OpenAI 內部開始採用 reasoning 正規化,並想要訓練模型能夠在回答之前進行思考的這個行為,這個嘗試取得了很大成功。
一開始,OpenAI 將重點領域放在了 Math 和 Science,但發現這種新的推理模型體系還解鎖了更長時間跨度任務的處理能力,即涉及到了 Agent 的能力。
與此同時, OpenAI 意識到,很多工的完成需要大量的 online research 或外部 context,需要有很強的推理能力,以及對資訊來源的辨別能力,而且必須具備一定的創造力。最終,OpenAI 開發出了能夠應對這些任務的模型訓練方法。OpenAI 決定開始訓練模型執行瀏覽任務,使用了與訓練推理模型相同的方法,但應用於更貼近現實世界的任務。
Deep Research 專案最初是 Isa Fulford 和 Yash Patil 一起合作了一個原創 demo。Josh Tobin 大約 6 個月前從創業公司回來,重新加入 OpenAI,對原創性工作產生了濃厚的興趣,所以加入 Deep Research 專案。
Isa Fulford:OpenAI Post-training 團隊的 AI researcher,ChatGPT Retrieval Plugin 的主要貢獻者;
Yash Patil:OpenAI Post-training 團隊裡 core model 的成員,已經從斯坦福輟學;
Josh Tobin:曾在 OpenAI 擔任 Research Scientist,後離職成立 Gantry(一個透過分析、警報和人工反饋幫助提升 ML 的產品)。後再次加入 OpenAI,目前領導 Agents 產品 research team。
澄清流程(clarification flow)
Deep Research 有一個特殊的設計是澄清流程(clarification flow),即 Deep Research 模型在開始研究之前會向用戶提問,通常情況下, ChatGPT 只會在回答結束時提出 follow on questions 或者詢問答案是否滿意,而不會像 Deep Research 那樣在前期就進行這類行為。


這一點其實是團隊專門設計的,因為只有使用者的 prompt 非常明確和詳細,使用者才會從 Deep Research 模型中得到最好的響應。但使用者通常並不會在第一次輸入 prompt 時就提供所有的資訊,因此, OpenAI 希望確保使用者在等待 5 分鐘或者 30 分鐘後,最終得到的回答是足夠詳細和令人滿意的,所以添加了這個額外的步驟,確保使用者提供模型所需要的所有細節。
很多使用者在 X 上說他們會先與 o1 或 o1 Pro 互動,使 prompt 更加詳細,使用者對 prompt 滿意後,再將 prompt 傳送給 Deep Research。

Agent 的終極形態
實際上,過去幾個月裡 OpenAI 已經推出了三種不同的 Deep Research,這些產品都叫做 Deep Research,Josh Tobin 認為雖然這些產品各有優缺點,但產品之間的質量差異是很明顯的。歸根結底是因為模型的構建方式,以及在構建資料集時投入的努力,再加上 OpenAI 使用 O 系列模型作為引擎,使得 Deep Research 模型能夠被最佳化,創造出非常聰明且高質量的工具。
目前 Deep Research和 O3、Operator 之間還比較獨立,但 OpenAI 希望在未來,使用者能夠透過一個終極 Agent 實現網路搜尋、使用計算機或完成其他希望 Agent 完成的任務,而且還能夠以更自然的方式將所有這些功能融為一體。
02.
Agent 能力
來自模型端到端訓練
端到端訓練是模型強大的本質原因
Deep Research 的底層模型是 O3 的 fine tuned 版本,O3 是 OpenAI 最先進的推理模型,Deep Research 很多分析能力來源於底層 O3 模型。OpenAI 專門對 Deep Research 模型在複雜瀏覽任務和其他推理任務上進行了訓練,因此,Deep Research 還可以使用瀏覽工具和 Python 工具。透過在這些任務上進行端到端的訓練,Deep Research 學會了應對這些任務的策略,最終使得該模型在線上搜尋分析方面表現出色。
直觀地說,使用者提出一個請求,模型會先仔細思考這個請求,然後搜尋相關資訊,提取資訊並閱讀。模型理解這些資訊如何與請求相關後,再決定接下來搜尋什麼,以便更接近使用者想要的最終答案。Deep Research 能夠將所有這些資訊整合成一份整潔的報告,並附上指向原始資訊來源的引用。
Deep Research 能有 Agent 能力的創新之處就在於 OpenAI 對模型進行了端到端的訓練,這意味著在進行研究的過程中,很多操作是事先無法預測的,不可能透過編寫某種語言模型、程式或指令碼,來達到模型透過訓練所能得到的靈活程度。Deep Research 模型透過訓練,學會了如何對即時的網頁資訊做出反應,並根據所看到的資訊及時調整策略等,所以 Deep Research 模型實際上在進行非常創造性的搜尋,使用者可以透過閱讀 CoT 的總結髮現模型在如何決定接下來要搜尋什麼或如何繞過某些問題方面非常聰明。
Deep Research 和 AI 搜尋的差異
對於 John Collison 提出的“Deep Research 的能力有多少來自於即時訪問網頁內容,又有多少來自於 CoT”的問題,OpenAI 的兩位研究員認為, Deep Research 的突出能力是兩者組合的結果。
其他 AI 搜尋產品並不是端到端訓練的,所以在響應資訊時不會像 Deep Research 那樣靈活,也不會像 Deep Research 那樣在解決特定問題時表現得那麼有創意。

Josh Tobin 在加入 OpenAI 之前在一家初創公司工作,曾嘗試按照大多數人描述的構建 Agent 的方式來構建 Agent,基本上就是構建一個操作圖,而其中一些節點上會有 LLM 介入。雖然 LLM 可以決定接下來做什麼,但整個步驟序列的邏輯是由人定義的。
Josh Tobin 發現這是一個快速構建原型的強大方法,但在現實世界中很快就會出現問題,因為很難預見模型可能面臨的所有情境,也難以考慮可能想要採取的路徑的所有不同分支。此外,由於這些模型並沒有專門接受做決策的訓練,它們通常不是節點上最好的決策者,它們是被訓練來做一些與決策類似的事情。
這再次說明了 Deep Research 模型的真正強大之處來源於端到端直接訓練,目的是解決使用者實際需要解決的任務,所以不需要在後臺架構中設定操作圖或做節點決策,一切都是由模型本身驅動的。
更近一步,如果使用者有一個非常具體且可預測的工作流程,那麼按照上文 Josh Tobin 描述的方式來做是很有價值的。但如果需要非常靈活的處理,那麼類似 Deep Research 的方法可能是最好的選擇。
Josh Tobin 建議不應該將一些嚴格的規則硬性嵌入到模型中,如果有類似“不希望模型訪問某個資料庫”的需求,最好還是用人工編寫的邏輯來實現。人們往往認為自己可以透過編寫程式碼做得比模型更聰明,但實際上,隨著領域的發展,模型通常會比人類提出更好的解決方案。
機器學習的一個最重要的教訓就是,你得到的結果取決於你最佳化的目標。所以,如果使用者能設定一個系統來直接最佳化想要的結果,那麼會比使用者嘗試將不適配整個任務的模型拼湊在一起要好得多。所以在模型整體基礎上進行 RL 調優,可能會成為構建最強大的 Agent 的關鍵部分。
模型成功的關鍵因素之一
在於高質量資料Deep Research 模型能夠成功的關鍵因素之一是有高質量的資料集。投入到模型中的資料質量,很可能是決定模型質量的關鍵因素。在 Deep Research 專案中,Edward Sun 會對所有資料集進行最佳化。
03.
Deep Research 的優勢
Deep Research 的優勢在於,當用戶有一個詳細的需求描述時,Deep Research 能夠透過閱讀大量的網際網路內容來提供最佳答案,但如果使用者的問題比較模糊,Deep Research 也能理清想要的資訊。Deep Research 最強大的時候是使用者在尋找一組具體資訊的時候。
Deep Research 不僅能廣泛地收集關於某個來源的所有資訊,還能很好地找到一些非常冷門的事實,比如在傳統搜尋中不會出現在前幾頁的長尾內容,某部冷門電視節目其中某一集的細節資訊等。在一個有關奧地利將軍的問題中,ChatGPT 曾經給出了錯誤的答案,而 Deep Research 成功找到了正確的答案。
Deep Research 非常擅長綜合資訊,尤其是在找到一些特定的、難以找到的資訊上。不過,Deep Research 從已有資訊中提煉出新的見解的效果不佳,還不能做出新的科學發現。
04.
Deep Research
的使用場景目標使用者
Deep Research 是為任何在日常工作或生活中從事知識性工作的人員設計的,特別適合需要大量收集資訊、分析資料並做出決策的人。很多使用者將 Deep Research 應用於工作中,比如在做研究的時候,用於瞭解市場、公司、房地產等領域的情況。
Use Case
OpenAI 希望 Deep Research 能兼顧商業場景和個人生活場景,因為 Deep Research 實際上是一種非常通用的能力,既適用於工作,也適用於個人生活。Deep Research 的魅力在於能夠節省很多時間,有些任務原來可能需要花費數個小時,甚至幾天時間,但現在人們可以用 Deep Research 得到 90% 的答案。OpenAI 認為商業場景中的類似任務會更多,但 Deep Research 也會成為人們個人生活的一部分。
Deep Research 不是取代勞動力,對於知識型工作,尤其是需要花大量時間查詢資訊並得出結論的工作,Deep Research 將賦予人們超能力,使得原來可能需要 4 或 8 小時才能完成的事情可以在 5 分鐘內完成,使用者因此可以實現更多的事情。
訪談中提及的 use case 包括:醫療、投資等工作場景,購物、旅行等家庭場景,程式設計和個性化教育等。

• 醫療、投資等專業工作場景
在醫療上,Deep Research 能夠幫助尋找某種疾病的所有文獻或最近的病例,從而節省了時間。

在投資上,在 Deep Research 幫助下,投資人可以選擇對每一個可能投資的初創公司都進行研究,而不僅僅是隻研究有時間會面的公司。
在公司經營上,有一個正在考慮創辦一家消費品公司的使用者,他一直在大量使用 Deep Research 來確定特定的品牌名稱是否已經被註冊,域名是否被佔用,市場規模等各種資訊。
• 購物、旅行等家庭場景
有使用者在考慮買新車的時候,想知道下一款車型什麼時候釋出,而網上有很多猜測性的文章,因此使用者讓 Deep Research 整理相關的所有傳聞等,最後 Deep Research 整理出了一份很出色的報告,告訴使用者可能會在接下來的幾個月裡釋出新車。
在日本推出 Deep Research 時,使用者發現 Deep Research 在找到符合特定要求的餐廳方面非常有幫助,還能幫使用者發現一些本來可能找不到的東西。
使用者需要購買某個貴重物品,或者規劃一趟特別的旅行,或者需要花很多時間去思考某個問題時,使用者可能會花費幾個小時在網上查詢相關資訊,瀏覽所有的評論等,而 Deep Research 可以迅速把這些資訊整理出來,像是做一個總結報告,提供詳細和個性化的建議。
忙碌的職場媽媽往往沒時間為孩子策劃生日派對,但現在在 Deep Research 的幫助下可以快速做到。
Deep Research 在指令跟隨方面也非常出色。如果使用者不僅想要了解某個產品的資訊,還想要與其他所有產品進行對比,甚至想要檢視來自 Reddit 等網站的評論,使用者可以對 Deep Research 提出許多不同的要求,Deep Research 會一次性完成這些任務,使用者還可以讓 Deep Research 把資訊做成表格。
• 程式設計
很多人把 Deep Research 用於程式設計,這個場景並不是 OpenAI 最初所考慮在內的,但確實有很多人用來編寫程式碼、進行程式碼搜尋,甚至查詢某個包的最新文件,或者寫指令碼等,效果令人印象深刻。
• 教育
個性化教育是一個非常有趣的應用場景。如果使用者有一個想學的主題,比如需要複習生物學,或者想了解一些時事,使用者只需要提供自身不理解的部分,或者想深入研究的資訊,Deep Research 就能整理出一份詳細的報告。或許在未來可以做到根據 Deep Research 瞭解到的使用者情況,提供個性化的教育。
05.
Agent 會在 2025 年嶄露新頭角
Deep Research 未來發展方向
在產品形態上,OpenAI 希望未來 Deep Research 能夠嵌入影像,可以找到產品的圖片,也能生成圖表,並將這些圖表嵌入回答中。
在資訊來源上,OpenAI 希望能夠擴充套件模型可以訪問的資料來源,希望模型未來能夠搜尋私人資料,OpenAI 接下來會進一步提升模型的能力,使得模型在瀏覽和分析方面做得更好。
在資訊準確度上,為了讓使用者能夠信任 Deep Research 的輸出,使用者可以看到模型引用的資訊來源。在訓練模型的過程中,OpenAI 也會努力確保引用的正確性,但模型仍然有可能出錯,或者產生幻覺,甚至信任一個可能不是最可信的資訊來源。因此,這是 OpenAI 希望繼續改進的領域。
為了更廣泛地融入 OpenAI Agent 路線圖,OpenAI 希望 Deep Research 能夠擴充套件到許多不同的應用場景,將最先進的推理模型與人類可以用來完成工作或日常生活任務的工具結合起來,然後直接最佳化模型以實現使用者希望 Agent 能夠完成的結果。
現階段實際上沒有什麼能夠阻止 Deep Research 擴充套件到更加複雜的任務場景上,AGI 現在是一個操作性問題,未來還會有很多值得期待的進展。
Sam Altman 認為,Deep Research 能夠完成的任務將佔到世界上所有經濟上可行的任務的百分之幾。Josh Tobin 認為, Deep Research 並不能為使用者做所有的工作,但能夠為使用者節省幾個小時,甚至是幾天的時間。OpenAI 希望相對接近的目標是,Deep Research 和接下來構建的 Agent,以及在這個基礎上構建的其他 Agent,可以根據使用者所從事的工作型別,幫使用者節省 1%、5%、10% 或 25% 的時間。

Agent & RL
Isa Fulford 和 Josh Tobin 一致認為今年 Agent 會嶄露頭角。
RL 經歷了一個高峰,之後感覺又有點低谷,現在又受到人們關注。Yan LeCunn 曾經有一個類比,如果人們在做蛋糕,那大部分是蛋糕,會有一點糖霜,最後放上幾顆櫻桃,無監督學習就像是蛋糕,監督學習是糖霜,RL 就是櫻桃。

Josh Tobin 認為,在 2015-2016 年做 RL 的時候,以做蛋糕類比,可能是試圖在沒有蛋糕的情況下先加櫻桃,但現在,已經有了在大量資料上預訓練的語言模型,這些模型非常強大,並且知道了如何對這些語言模型進行監督微調,使模型擅長執行指令和做出人們想要的事情,現在一切運作得非常好,非常適合根據使用者定義的獎勵函式來調整這些模型,用於任何用例。


排版:楊樂樂
延伸閱讀









