OpenAI黑科技DeepResearch誕生記:一個工程師的“不務正業”如何改變AI戰爭格局

編譯 | 傅宇琪
4 月 24 日,OpenAI 宣佈所有美國使用者從此可以免費使用 Deep Research(深度研究)。這是一款集成於 ChatGPT 的 AI 研究助手,旨在幫助使用者高效地完成複雜的多步驟研究任務,生成結構化且可驗證的研究報告。那麼,Deep Research 和 o3 模型之間有什麼區別?智慧代理發展過程中存在哪些挑戰?這個模型成功的關鍵因素又是什麼?
最近,OpenAI Deep Research 負責人 Isa Fulford 在播客節目中,與主持人 Sarah 細緻分享了 Deep Research 的背後故事。她們討論了這一專案的起源、人類專家資料的作用,以及構建具有實際能力甚至品味的智慧代理所需的工作。基於該播客影片,InfoQ 進行了部分刪改。
核心觀點如下:
  • 如果你有一個非常具體的任務,認為它與模型可能已訓練的任務完全不同,或者有一個對業務流程至關重要的任務,這是嘗試強化學習微調(RFT)的好時機。
  • 理想的代理應該能夠為你進行研究並代表你採取行動。當代理的能力和安全性發生交匯時,如果你不能信任它以一種沒有副作用的方式完成任務,那它就變得沒有用處。
  • Deep Research 的下一步,應該是讓它能夠訪問私有資料,比如能在任何內部文件或 GitHub 上進行研究。
  • Deep Research 適合做有具體要求的任務,而對於更一般性的、高層次的事情不那麼適用。
Deep Research 的起源
Sarah: 你和你的團隊推出了最近最令人興奮的 AI 產品之一——Deep Research。這個產品的創意來源是什麼?
Isa: 大約一年前,我們對內部在強化學習(RL)演算法上的進展感到非常興奮。與此同時,我和我的朋友 Josh 一起做了一些副專案,我們對智慧體(agent)非常感興趣,並且想知道是否可以將相同的演算法應用於服務普通使用者每天會做的事情。我們最初考慮的兩個方向是線上瀏覽任務(online browsing)和軟體工程方面的應用,因為在很多職業中,人們確實需要做大量的研究,整合大量的資訊,然後再寫出報告。
起初,我們從數學和程式設計問題開始,因為這些問題已經有了現成的資料集,你可以用它們來訓練模型。但是對於瀏覽任務,情況就不太一樣了,因為沒有現成資料集。因此,我們實際上是從明確我們希望最終模型能夠擅長的實際產品用例開始的。我們做的第一件事就是列出一些任務,比如“我希望模型能夠找到這份產品列表,並按 Reddit 上的評論進行排序”或者“我想寫一篇關於這個主題的文獻綜述”。
Sarah: 我覺得很多人想到瀏覽和智慧體時,往往會停留在那幾個典型的、以交易為主的用例上,比如點一個漢堡之類的常見任務,但我個人並不認為這些用例特別有啟發性。你為什麼會提出這樣一組與眾不同的目標呢?
Isa: 在之前的工作中,我們希望能夠在從大量來源中合成資訊方面變得非常擅長,主要是處理只讀任務。這出於多方面原因,首先,知識工作者大多都從事這類工作,因此對這些人群來說,這將非常有用。其次,我認為 OpenAI 的總體目標是建立能夠進行新的科學發現的通用人工智慧(AGI)。我們認為,要實現這一目標,合成資訊是一個前提條件。如果你無法撰寫文獻綜述,你就不可能寫出一篇新的科學論文。因此,這與公司更廣泛的目標非常契合。
Sarah: 你們幫助創造了一個人工智慧,使我在學習上變得更好,而它本身也在學習。
Isa: 實際上,這是一個非常龐大的過程。我們最初向人們推介這個想法,沒有任何模型訓練,完全是透過提示模型和使用者介面展示這個產品的願景。在那之後,我們開始思考如何實現:如何建立資料,如何訓練模型,需要開發什麼工具來使模型有效地瀏覽網際網路,這是一個反覆迭代的過程。我們還與 RL 團隊進行了大量合作,不間斷地工作了幾個月,有足夠的時間去反覆修改和完善,而沒有太大壓力去快速交付,這感覺很好。
Sarah: 你有沒有最喜歡的、最重要的任務?
Isa: 人們會提出不同的任務,我記得其中之一是找到兩位作者共同寫的所有論文。模型可以找到其中大部分,甚至全部。另外還有一個任務,模型現在可能無法回答了,那就是找到我們一位同事的中間名。個人來說,我自己其實很早就開始用它來查詢關於產品推薦和旅行的資訊。我認為實際上有很多內部人員也在使用它,Sam 告訴我,他用它買了很多東西,每次模型出現問題時,人們都會發訊息問我們:“發生了什麼?我們需要使用模型,即使是之前那個版本。”雖然老實說,它並不是那麼好。所以,我認為這是一個很好的初步訊號。
Sarah: 關於工具和資料的建立,你有什麼可以分享的嗎?
Isa: 關於資料建立,我們使用了人工訓練師來完成其中的一部分工作。我想我們需要設計資料集來訓練模型,幫助它學習我們希望它掌握的技能。我們還必須為這些資料集制定評分標準,在訓練過程中進行評估。我們還需要為模型開發出有效的工具,確保它能夠成功完成任務。
目前,我們有一個瀏覽工具,它能夠檢視嵌入的圖片和開啟 PDF 檔案。它還可以訪問 Python 工具,進行分析、計算和繪製圖表等。在未來的版本中,我們將擴充套件工具集,模型的能力也會隨之增強。我們還需要建立資料集,使模型能夠使用所有這些不同的工具,並在訓練過程中學習如何靈活應對各種問題。這樣,模型就能在產品中解答使用者提出的新問題。
Sarah: 你對那些考慮為特定任務進行 RFT 的初創公司有什麼建議嗎?比如,什麼時候值得去做 RFT,或者是否可以嘗試採用傳統的方式,利用代理作為一個元件進行微調?
Isa: 一般來說,針對某一類任務進行訓練時,模型也能夠很好地泛化到其他領域,但如果針對某個特定任務進行訓練,模型在該任務上的表現會更好。比如,你可以訓練一個推理模型,主要處理數學、程式設計等問題,同時它也能在寫作方面表現良好。但是如果你將其專門訓練在某個特定任務上,它的表現會更為優秀。
我認為,如果你有一個非常具體的任務,認為它與模型可能已訓練的任務完全不同,並且你自己嘗試了很多次,嘗試了各種不同的提示,模型仍然表現得非常差勁,那麼這可能是一個嘗試 RFT 的好時機。比如,如果是一個基因測序任務,或者是某些與模型訓練分佈完全不同的任務,RFT 可能會有幫助。
另外,如果你有一個對業務流程至關重要的任務,提升 10% 到 15% 的效能可能是生死攸關的,可以嘗試 RFT。但如果是你認為模型表現已經不錯,但偶爾會出錯,隨著新版本模型釋出,它會逐漸改進的任務,可能就不值得花費精力去進行微調,因為模型自然會在這些任務上變得越來越好。
Sarah: 你提到過需要依賴人類專家來建立一些資料。你認為在哪些方面需要專業知識?你對瀏覽專業知識或資訊收集的理解,有哪些是之前沒有意識到的?
Isa: 我想這屬於那種幾乎每個職業都涉及的事情:你需要在某個領域提出問題或進行研究,然後從多個來源收集資訊以綜合得出答案。在這個過程中,你必須具備判斷哪些資訊源有用、哪些沒有用的專業知識。RL 的一個有趣之處在於,你不需要了解一個人如何進行整個研究過程,你只需要知道任務是什麼,結果應該是什麼。然後,模型會在訓練過程中學習如何從問題出發,得出一個好的答案。
我認為我們採取了一種相對廣泛的方法,這也是如果你在像 OpenAI 這樣的地方工作,你可以做一些大多數初創公司會被告誡不要做的事情——嘗試聚焦於一大群使用者,招募來自不同領域的專家,看看能否一次性在所有領域都取得進展,這是我們採取的方式。我們還建立了大量的合成數據集等東西,但人類資料無疑是讓這個模型成功的關鍵部分。
Sarah: 模型在這些領域中學習到的規劃能力有沒有讓你感到驚訝?模型的路徑是否讓你感到意外?
Isa: 有時候,它會使用一些我自己不會選擇的搜尋詞,或者說我們沒有教它一開始就進行規劃。有時候,模型會做出聰明的舉動,嘗試繞過你給它設定的限制,所以你必須確保它沒有“作弊”,比如嘗試使用不同的搜尋引擎,而不是你指定的那個搜尋引擎。你需要時刻留意,以防模型做出你不希望的行為。
Sarah: 那我們順便討論下模型的一些失敗情況。你是如何看待代理的累積錯誤、分心,甚至是安全性問題的呢?
Isa: 由於 Deep Research 實際上不能採取不屬於典型代理問題的行動,因此這些問題並不完全一樣。但我認為,模型的回答更加全面且耗時較長,這意味著人們可能會更信任它。因此,幻覺問題可能更嚴重。儘管這個模型比我們釋出的任何模型都少出現幻覺,但它仍然有可能出現幻覺,通常是因為它從某個來源中錯誤地推斷出某些東西。這也是我們為什麼需要引用的原因之一,因為使用者必須能夠檢查資訊的來源。
我理想的代理應該能夠為你進行研究並代表你採取行動。當代理的能力和安全性發生交匯時,如果你不能信任它以一種沒有副作用的方式完成任務,那它就變得沒有用處。例如,如果你讓它幫你做某件事,但它在過程中傳送了一封尷尬的郵件,這就不是任務的成功完成。
Sarah: 你認為人們會需要明確的防護措施嗎?你認為這些特徵可以在模型本身中學習到嗎?
Isa: 如果你使用過 Operator,我相信你已經經歷過每次確認正確操作的過程。我認為一開始這樣做是非常有意義的,你需要與使用者建立信任。隨著模型變得越來越強大,也許你會看到它成功地做了幾次事情,逐漸開始更加信任它。所以,也許你會允許它,比如傳送郵件時,不需要每次都問你。但我確實認為,當這些代理開始推廣時,我們肯定會需要有防護措施和確認機制。雖然這些不一定是最終的能力,但我們仍然希望確保有一個好的監督機制。我認為代理最終會強大到我們願意信任它們代表我們去做任何事情。
如何構建有品味的智慧代理?
Sarah: 你認為 Deep Research 作為產品會有哪些明顯的改進?
Isa: 理想的狀態可能是擁有一個統一的代理,它能夠做所有這些不同的事情。任何你會委託給同事的任務,它都應該能夠完成。
Sarah: 我們如何決定是自己去做這件事,還是讓代理去做?還是說總是先嚐試讓代理去做?
Isa: 如果是我的工作的話,我會先嚐試讓代理去做。其實這有點像每當模型變得更強大時,人類的抽象層次也會相應提高。也就是說,你要求它完成的任務層級越來越高,但仍然是“你”在啟動任務。比如說,也許一年前,我讓它為我寫一個函式,而現在,我讓它寫一個完整的檔案,或許明年它會幫我做一個完整的 PR 之類的。所以,我認為仍然是“人”掌握主動權。Deep Research 的下一步,應該是讓它能夠訪問私有資料,比如能在任何內部文件或 GitHub 上進行研究。
一切歸根結底都與檢索有關。接下來,逐步開始採取正確的行動或呼叫 API,顯然還有很多模型現在做得不完美的事情,我們需要繼續改進。我們與 RL 團隊的合作關係非常好。很多團隊會貢獻資料集,用於他們進行的大規模訓練,我們也這麼做了。隨著他們用大量計算資源訓練模型,最終它就成了我們可以繼續訓練的更好的基礎模型。所以我認為,模型的能力是不斷積累的。
Sarah: 所以這不是一個低調的研究預覽,而是一個從副專案變成了一個非常有趣的、內部提案的專案。你認為什麼樣的產品是 OpenAI 想要獨立開發的,什麼又屬於核心研究的方向呢?
Isa:OpenAI 一個很酷的地方是,即使公司在不斷擴充套件,員工還是能提出想法、驗證想法並推動其實現,我總是受到這樣的動力驅使自己,去做那些我想做的事情。比如說,關於 Deep Research,我確實經常用它來查詢各種資訊,比如旅行推薦,我幾乎是一個每天都會活躍使用的使用者。
Sarah: 有沒有看到一些使用者的使用案例?有沒有什麼方式,你會鼓勵人們使用 Deep Research?
Isa: 我一直對看到人們在我完全沒有專業知識的領域使用 Deep Research 感到很有興趣,很多不同的科學家都在分享他們如何使用 Deep Research,以及它如何幫助他們完成某些任務。對我來說,這是最有趣的,因為在我們開發它的時候,我顯然無法判斷輸出是否正確。所以看到專家們真正地驗證 Deep Research 的回答是非常有價值的。
讓我感到驚訝的是,有人開始用這個模型做程式碼搜尋和程式設計問題。比如說,他們會說,“使用最新的包來幫我寫這個檔案”。或者是資料分析方面,這也是模型已經相當擅長的領域:上傳一個檔案,然後讓它為你做一些分析或研究,最後生成一個包含數值分析的報告。
Sarah: 其實我還沒有嘗試過這個功能。是什麼讓模型在這方面特別擅長?它具備了什麼能力,能讓它完成多步驟操作、能夠進行規劃和理解任務並最終生成報告呢?
Isa: 我認為基礎模型,或者說我們從 o3 開始微調的模型,實際上是一個非常強大的模型。它在許多不同的資料集上進行了訓練,包括大量的程式設計、推理和數學任務。因此,這種繼承的能力非常強大。當你再加上瀏覽功能,它仍然能夠進行分析。
Sarah: 我們談到過關於從使用者那裡學習品味或偏好的想法。你認為 Deep Research,或者說代理模型一般如何發展才能考慮到人們的學習方式或他們的資訊獲取偏好呢?
Isa: 我認為代理的記憶功能肯定會非常重要。如果每次你讓它做一項任務時都必須重複相同的資訊,告訴它你希望它如何做任務,以及關於你的所有細節,那將會非常令人煩惱。而目前,Deep Research 確實需要這麼做。現在完成一個任務可能需要 5 到 30 分鐘,隨著任務變得越來越複雜,未來可能需要幾個小時或幾天來完成你讓模型做的任務。你肯定希望模型的研究是逐步積累的,而不是每次都從頭開始。
Sarah: 一些領先實驗室的許多人,對通向 AGI 的路線,存在一定共識,或者說對此有信心。而且,RL 的回報讓大家非常興奮,認為“這似乎行得通,我們將從中獲得真正的能力”。它的資料效率非常高,但這將是一項艱鉅的工作。告訴我一些關於構建 Deep Research 的情感體驗,以及這是否改變了你的看法。
Isa: 我覺得看到這個演算法的資料效率如此之高,真的令人印象深刻。實際上,篩選這些資料,然後確保模型能夠訪問人類在完成工作時需要的所有工具,都是挑戰。再者,要確保任務的設計能滿足人們在工作中實際需要的,並且能夠評估模型是否完成得好,也很難。而且,在預訓練階段,還有許多其他挑戰,因為你擁有更多的資料,必須處理很多不同的任務。你需要一個非常好的基礎模型才能進行 RL,對於我們的團隊來說,我們就是在做更多的 RL。所有這一切都是互相促進的,大家都能看到一條清晰的路徑,朝著具有廣泛能力的代理邁進。
Sarah: 你認為在進展上有大的障礙嗎?就像你說的,可能不完全是將其描述為 Deep Research 的下一次迭代,而是對統一代理能力的信心,覺得它會像一個同事一樣工作。是什麼阻礙了我們實現這一目標?
Isa: 我們需要解決很多非常棘手的安全問題,我們絕不會發布任何我們沒有非常高信心認為是安全的東西。當模型可以訪問你的 GitHub 庫、密碼和私人資料時,風險就大大增加了。因此,這是一個非常大的挑戰。我想,如果你希望模型能夠執行需要很多小時的任務,那麼找到高效的方式來管理上下文就變得尤為重要,這和記憶體問題有點類似。如果你做一個任務很長時間,你最終會遇到上下文耗盡的問題。那麼,處理這個問題的高效方式是什麼呢?然後就是建立資料和工具的任務,我已經說過幾次了,這確實是一項艱鉅的工作。
Sarah: 我剛剛在檢視我的查詢歷史,我的使用者請求是想看看我向 Deep Research 提出的要求和向其他模型提出的要求有哪些不同。我曾查詢過與個人品味相關的東西,我可能會說,“我喜歡這一系列書籍,原因是……我希望你給我一個長篇總結,列出你認為我應該閱讀的其他書籍,並解釋原因。”我意識到,我並沒有一個非常清晰的心智模型,來判斷什麼時候 Deep Research 應該比 o3 更好。你能給我一些建議嗎?
Isa:Deep Research 在你有非常具體或明確的問題時非常有效,也就是說,它可能不適用於一個話題的概述,而是你在尋找一些具體的資訊,並且你認為這些資訊可以透過現有的線上研究來補充。即使這些資訊也包含在模型的基礎訓練資料中,我認為能夠即時訪問這些資訊仍然非常有用。所以,我的建議是在特定的檢索或來源上進行聚焦。此外,我們已經訓練它能夠生成比普通模型更長的輸出。因此,如果你需要非常全面的資訊,有時候它甚至可能太過詳盡,不適合某些任務。
我曾經用它來找新的品牌。我會說,這些是我喜歡的品牌,幫我找到一些類似的品牌,或者找到像這件外套一樣的具體款式,類似這樣的需求。它在這方面非常擅長。相比之下,我認為基礎模型或普通模型可能會給你一些品牌,但它不會完全符合我提供的所有條件,比如“我要找到一件假毛皮外套,長度是這樣的,是這個季節的”,它是做不到的,因為它沒有最新的資訊,而且也無法一次性處理所有查詢的約束條件。如果我在找一個非常具體的東西,可能需要幾個小時才能找到,我會用它。我認為,Deep Research 非常適合做這類任務,而對於更一般性的、高層次的事情,可能就不那麼適用了。
Sarah: 在 Deep Research 的訓練過程中,是否有某個特別的成功或失敗的時刻?
Isa: 我們原本認為,訓練模型進行瀏覽任務會有效。但實際上,當我們第一次用這個演算法在一個新的資料集上訓練模型,並看到它真正有效,能夠與模型互動時,還是讓人感到非常驚訝。儘管我們本來就認為它會有效,但它的效果如此好,真的讓人有些意外。
但是有時候,它失敗的地方也讓人感到意外。有時它會做出非常聰明的舉動,然後又犯一個錯誤,我就會想,“你為什麼要這麼做,停下!”所以我認為它確實還有很大的改進空間,但到目前為止,我們對這個模型還是感到非常印象深刻。
Sarah: 我習慣了所有技術工具都能即時響應,而 Deep Research 並不是即時的,它需要思考和使用工具。那麼,它能更快嗎?
Isa: 有時候你並不需要它做非常深入的研究,但你希望它能夠做得比簡單搜尋更多。我認為我們很快會發布一些讓人們感到滿意的功能,填補這個空白。
Sarah: 我不知道該怎麼表達這個偏好,但我希望有一天能切換到這種模式:“盡你所能,在接下來的五分鐘內做到最好。”因為我會對人類說這個話。
Isa: 讓使用者自己做決定似乎是個不好的使用者體驗,模型應該更擅長判斷需要多少時間去思考。我們在訓練模型時做了一個決定,就是每次都儘量讓它有最大的思考時間。所以,我有時會問一個非常簡單的問題,只是為了測試,然後變得相當沮喪,因為它還在思考。所以,我確實認為這是一個改進的領域,即知道應該思考多久。不過,我猜在 Deep Research 中,我們會始終專注於那些需要最長時間的任務,而像 o3 或未來的版本,可能會有更好的折中方案。
Sarah: 你能想象未來 Deep Research 會花上一整天完成的任務是什麼嗎?
Isa: 現在它能在五到三十分鐘內完成一些人類專家需要幾個小時才能完成的任務。所以,我猜在一個小時內,它可以完成一些需要人類幾天才能做的事情,而在一天內,它能做一些需要人類幾周才能完成的工作。當然,要讓它達到這樣的規模會面臨很多挑戰,但你可以想象,它能夠完成一個本來需要幾周才能完成的研究專案,或者寫一篇論文之類的事情。
Sarah: 如果你要預測一年後的情,你認為代理能夠做出什麼讓人驚訝的事情,並且這些事情實際上會被髮布出來,前提是考慮到安全性問題?
Isa: 一個通用代理,能夠幫助你完成很多不同領域的任務。對我來說,我希望能夠有一個非常擅長程式設計的代理,我可以完全信任它,給它一個任務,它應該能夠幫我做出一個 PR 之類的東西,但同時可以讓它幫我預定去韓國的旅行之類的事情。我希望我們能達到一個更加統一的體驗,但我也認為這些模型的進步速度會讓大多數人感到非常驚訝。
Sarah: 你為什麼認為統一的體驗很重要?顯然,ChatGPT 是一種非常全面的體驗,但人們在不同的場景中使用的模型是不同的,比如程式設計時會使用專門的下一行補全模型。
Isa: 你可能會想要一個體驗,在某些時候你可以覆蓋或中斷模型,說“哦不,我不是這個意思。”或者你可以接管並開始自己輸入東西,尤其是在短期內,因為這些模型在許多領域還沒有達到人類的能力,但在其他領域則更強。所以,我認為這將是一個結合體:你要求模型做某事,但以程式設計為例,可能你正在使用 VS Code 或其他編輯器,模型已經在幫你做某些事情,但你也可以實際輸入並自己寫一部分。所以,我認為這會是這些元素的組合,但我個人希望它能像一個遠端同事,你可以直接要求它做事情,給它發個訊息,它就會開始工作,然後你可以審查它的工作或在某些時候提供幫助。這看起來是一個非常不錯的通用介面,你不需要考慮應該讓哪個代理去做哪個任務,你應該能夠輕鬆搞定這一切。
Sarah: 我的理解是:我更傾向於和少數人一起工作,減少管理上的負擔,因為這樣每個人都有更多的上下文資訊,我對他們的理解也更多。所以,從這個角度來看,具有普遍適用性的代理就顯得特別有吸引力。
Isa: 而且你只需要告訴它一次,它就會記住並知道你正在做的所有事情。
參考連結:
https://www.youtube.com/watch?v=qfB4eDkd_40
宣告:本文為 AI 前線翻譯整理,不代表平臺觀點,未經許可禁止對全文或部分內容進行轉載。
活動推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

相關文章