o3-mini之後，OpenAI又緊急上線DeepResearch，能連續思考半小時輸出萬字回覆！壓力給到了DeepSeek？

整理 | 華衛

今早，OpenAI 突然舉行了一場“驚喜”直播。直播中，OpenAI 宣佈，“我們正在推出一項名為深度研究（Deep Research）的功能，這是一個能進行多步驟研究的模型，它可以發現內容、整合內容，並對這些內容進行推理。它甚至會針對你的提示提出‘澄清性’問題，以確保其多步驟研究不偏離方向。”

據介紹，這項深度研究功能將於今日晚些時候在 ChatGPT 專業版中推出，並將逐步應用到 OpenAI 的其他產品中。並且，據OpenAI CEO Sam Altman 透露，免費使用者也能獲得非常少量的使用額度。

緊急推出 Deep Research，還將進一步視覺化

4 點 27 分，OpenAI 在 X 上向其 390 萬粉絲髮布了直播通知。在直播開始前，X 平臺的使用者分享了他們對即將到來的新功能的反應：“這就像 DeepSeek，但更簡潔。”“要是這東西搞砸了，就會深陷麻煩。”“從東京直播？希望這項研究能包含早起的秘訣！”“別費勁了，我們不信任你。”

三個多小時後，OpenAI 開始直播。

據介紹，深度研究功能（Deep Research）是一項全新的智慧代理能力，可針對複雜任務在網際網路上開展多步驟研究，能在幾十分鐘內完成人類需要花費數小時才能完成的工作。只需給出提示，ChatGPT 便會查詢、分析並綜合數百個線上資訊源，生成一份達到研究分析師水準的全面報告。

OpenAI 稱，這項功能由即將推出的 o3 模型的一個版本驅動，該版本針對網頁瀏覽和資料分析進行了最佳化，運用推理能力在網際網路上搜索、解讀和分析海量文字、影像及 PDF 檔案，並根據所獲取的資訊按需靈活調整。

也就是說，深度研究能獨立發現、思考並整合來自網路各處的見解。為實現這一點，OpenAI 針對需要使用瀏覽器和 Python 工具的現實任務進行訓練，採用的強化學習方法與其首個推理模型 o1 相同。o1 在編碼、數學及其他技術領域展現出令人讚歎的能力，但許多現實世界的難題需要從多樣的線上資源中收集大量背景資訊。深度研究功能則彌補了這一差距，使其能夠處理人們在工作和日常生活中遇到的各類問題。

OpenAI 強調，深度研究功能是為那些在金融、科學、政策及工程等領域從事高強度知識工作，且需要深入可靠研究的人打造的。對於那些在購買需仔細研究的商品時，尋求高度個性化推薦的精明消費者而言，該功能也很有用。

在接下來的幾周內，OpenAI 還將在深度研究功能所生成的分析報告中新增嵌入式圖片、資料視覺化以及其他分析輸出，以進一步提升清晰度並提供更多背景資訊。在 OpenAI 看來，深度研究功能朝著其開發通用人工智慧（AGI）的宏大目標邁出了重要一步。

能力重新整理全球最高分，獲專業使用者好評

驅動深度研究功能的模型在一系列針對現實問題的公開評估中創下了新高，包括最近釋出的“人類終極測試”（Humanity's Last Exam，HIE）。

在 HIE 上，OpenAI 的深度研究功能重新整理了最高分，比 o3-mini 高推理設定分數還高出一倍。據瞭解，HLE 是一項全球合作專案，問題包括 3000 多個多項選擇題和簡答題，涵蓋從語言學到火箭科學、古典文學到生態學等 100 多個學科，出題人來自 50 個國家 / 地區的 500 多個機構的近 1000 名學科專家，其中大部分是教授、研究人員和研究生學位持有者。

在實際測試中，有不少專業使用者表達了對 OpenAI 這項深度研究功能的肯定。一位研究人工智慧的沃頓大學教授 Ethan Mollick 將其與谷歌 Gemini 進行對比後表示，谷歌的同類功能只是對眾多資訊源進行彙總，OpenAI 的功能更像是讓一位見解獨到（往往近乎博士水準！）的研究人員去追蹤線索。

多倫多大學羅特曼學院戰略管理副教授、AllDayTA 聯合創始人 Kevin A. Bryan 則使用撰寫了一篇經濟學的論文初稿，對生成內容的評價是：“它僅憑一次指令能做到什麼程度呢？說實話，還不錯。老實講，我審閱過的一些論文都比不上它這次的成果。從這一步邁向大幅加快研究進度的階段，路徑已經相當清晰了。”

Bryan 表示，在試用 Operator，以及谷歌和 OpenAI 的深度研究功能後，能夠訪問受限文件以及大幅最佳化的 PDF 內文光學字元識別（OCR）功能將具有重大意義。回過頭看，那場導致谷歌圖書相關功能夭折的訴訟，似乎給人類和科學帶來了巨大損害。

第三方團隊 every 也分享了他們的測試結果，據其 CEO Dan Shipper 介紹，他們已經使用了幾天，透過撰寫公司詳盡歷史、閱讀《戰爭與和平》第一章並分析托爾斯泰對人物的描寫和反映的人性觀、梳理近期美國上市公司年報找出未披露的財務違規行為、根據幾張照片研究並搭配出一整套全新衣櫥這幾件事，得出了以下結果：

對於求知慾旺盛的人來說，它就像一把強力武器：提出一個問題，它會自主在網路（或你提供的資訊源）中搜索，整理出答案。它會透過多個步驟完成這項工作，回覆時間在 1 到 30 分鐘之間。它會給出經過深入研究的長篇報告，這些報告綜合了許多不同資訊源的內容，有時篇幅超過一萬字。
可以把它想象成一輛雙層觀光巴士，但你是唯一的乘客，而你遊覽的“城市”就是人類知識的總和。
當然，它也有侷限性：有時它不能完整說明某條資訊的來源；目前還沒有“停止”按鈕，所以如果它偏離方向，你就得重新開始。

頂尖 AI 廠商都將加入開源競爭？

對於 OpenAI 的這次釋出，有網友評價道，“想象一下，一款估值數十億美元的開源產品，卻免費滿足了客戶 95% 的需求。這時候肯定得全體總動員，才能防止投資者徹底恐慌失控。這局面就像划船，可不好應對。”

還有網友認為，“這有點像 20 世紀 90 年代 Linux 與 Windows 的競爭情況。我猜用不了多久，OpenAI、Gemini、Meta 和 Grok 都會推出輕量級開源引擎，供愛好者把玩。實際上，Grok 的引擎已經開源了。”

但據一位 X 平臺使用者指出，OpenAI 之前就用過“深度研究”這個說法。2024 年 7 月，路透社報道了一份內部檔案（經“一位知情人士”證實），其代號為“草莓”，該檔案表明 OpenAI 正在研究“類人推理技能”。這位知情人士稱，即使在 OpenAI 內部，“草莓”的工作原理也是嚴格保密的。訊息人士稱，該檔案描述了一個使用“草莓”模型的專案，其目標是讓該公司的人工智慧不僅能生成問題的答案，還能提前規劃，以便可靠地自主瀏覽網際網路，進行 OpenAI 所謂的“深度研究”。據對十幾位人工智慧研究人員的採訪，這是人工智慧模型至今尚未實現的。

“草莓”專案曾用名是 Q*，路透社去年報道稱，該專案在公司內部已被視為一項突破。知情人士稱，OpenAI 希望這項創新能大幅提升其人工智慧模型的推理能力，並補充說，“草莓”涉及一種在人工智慧模型經過超大型資料集預訓練後對其進行處理的特殊方式。

OpenAI 執行長奧特曼今年早些時候表示，在人工智慧領域，“最重要的進步領域將圍繞推理能力展開。”路透社採訪的研究人員也表示，推理能力是人工智慧實現人類或超人類水平智慧的關鍵。

參考連結：

https://openai.com/index/introducing-deep-research/

會議推薦

在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下，變革與機遇交織，挑戰與突破共生。2025 年 4 月 10 – 12 日，QCon 全球軟體開發大會將在北京召開，以 “智慧融合，引領未來” 為年度主題，匯聚各領域的技術先行者以及創新實踐者，為行業發展撥雲見日。現在報名可以享受 8 折優惠，單張門票立省 1360 元，詳情可聯絡票務經理 18514549229 諮詢。