
作者
|Jessica
郵箱
剛推出o3-mini的OpenAI沒閒著,昨天又馬不停蹄地釋出了一個新東西:能為使用者獨立工作的AI研究助手「Deep Research」。
Deep Research 是 ChatGPT 內嵌的一款增強工具,專為自動化複雜的線上多步驟研究任務而設計。不光中英文名字跟DeepSeek高度相似,就連功能也頗為相近:
使用者只需輸入提示,它就會在網際網路上快速搜尋、分析並整合上百個資訊來源,最終生成質量媲美專業研究分析師的綜合報告。
原本人類需要數小時完成的研究工作,Deep Research 在短短幾十分鐘內即可完成。其目標使用者覆蓋金融、科學、政策和工程等領域的專業人士。像是解讀10-K財報、分析實驗資料、研究法律案例、檢索技術文件等複雜任務。同時也適用於需要精細研究的消費者。當購買汽車、電器、傢俱等高價值商品難以抉擇時,Deep Research 就會提供高度個性化的消費建議。

最佳化版o3驅動 + 端到端RL訓練
官方介紹,Deep Research由一個最佳化版的 o3 模型驅動,專注於網頁瀏覽和資料分析,並基於端到端強化學習(RL)進行訓練。它能做到在網際網路上跨模態搜尋、解讀和分析大量文字、圖片及 PDF 檔案,同時根據即時資訊動態調整搜尋策略。
除網路搜尋外,它還可以分析使用者上傳的檔案並提取關鍵內容;使用Python工具製作資料視覺化圖表,將這些圖表和網站抓取的圖片整合到回覆中;為了保證研究結果的可靠性,系統也會嚴格標註資訊來源,精確引用原文中的相關段落。
1
怎麼用,誰能用?
Deep Research 的使用非常簡單:在 ChatGPT 介面選擇“Deep Research”模式後,輸入研究需求即可。如果有具體的參考資料,也可以直接上傳檔案提供更多上下文資訊。
整個研究過程會在側邊欄即時顯示進度和參考來源,通常耗時 5 到 30 分鐘。這期間使用者可以先去處理其他事務。研究完成後,系統會通知檢視報告。未來幾周內還將支援在報告中展示圖表等視覺化內容,提升閱讀體驗。
與注重即時多模態對話的 GPT-4o 相比,Deep Research 專注於深度研究,不僅能廣泛收集資訊,還會為每個結論附上詳細的源頭依據,最終生成一份完整且經過驗證的研究成果,直接滿足工作需求。
下面是一個OpenAI官網示例,展示用Deep research生成“零售業三年變革”報告的工作過程。值得注意的是,獲得指令後它還主動要求使用者澄清地域範圍與關注維度,體現出類人互動能力。
只是由於Deep Research的計算需求非常高,查詢耗時越長,所需的計算資源就越大。所以目前僅優先提供 Pro 每月100次查詢額度,預計一個月內開放給Plus、Team和Enterprise使用者。
OpenAI 還計劃推出更快、更具成本效益的小型模型版本。未來允許連線到更專業的訂閱資料來源,使輸出更加可靠和個性化。以及與能自動操作計算機的Operator結合,實現“行動—研究”閉環。
1
和DeepSeek比誰贏了?
說起來,OpenAI這款Deep Research由於命名與DeepSeek相似,又頗有趕著出來反擊的意味,著實被廣大推特網友調侃了一番。還預測今後各大模型廠商都要調轉矛頭,開啟Deep系列了。
不過與其說 OpenAI此次的靈感來源於DeepSeek,倒不如說直接做了Google的伸手黨。去年12月,Gemini訂閱版本里就集成了「Gemini 1.5 Pro with Deep Research 」功能,同樣是一款幫使用者深度研究的智慧體,也具備聯網和上傳檔案的能力,只是底座模型並非推理模型。

鑑於大家都關心OpenAI Deep Research與DeepSeek R1“深度思考+聯網功能”的技術對比。我們直接拿這個問題去問了該模式下的DeepSeek,得到以下這張表格:

可以看出,兩者在幾大維度上各有側重和優缺。Deep Research 適用於深入分析、長時推理和動態調整,尤其擅長專業級研究、商業報告和複雜資料解析。DeepSeek 更適合快速推理、程式碼生成和數學計算,主要面向開發者、學習者和基礎資訊檢索。
然而,Deep Research 真正的突破點,以及幾項在基準測試上超過 DeepSeek 的關鍵優勢,並未在上表中被突出展示——即 HLE、GAIA 和 Expert-Level Tasks。
這都是什麼意思?
HLE (Humanity’s Last Exam)翻譯為“人類終極測試”,涵蓋 100 多個學科,從語言學到航天科學、從經典文學到生態學,總計超過3,000道多選題和簡答題。旨在評估AI表現是否達到人類水平。測試時會讓AI和人類專家完成相同的任務,然後比較他們的表現,看看AI的輸出質量是否能夠媲美人類專家。
在這項測試中,Deep Research準確率高達26.6%,橫掃包括o3-mini-high(得分13%)和Deep Seek R1(得分9.4%)在內的一切競爭對手。

GAIA 測試用於評估 AI 處理現實世界問題的能力。涵蓋三個難度等級,要求 AI 具備推理、多模態理解、網頁瀏覽和工具使用等能力才能成功完成任務。這裡Deep Research 達到了當前最先進水平,並登頂外部排行榜。

不好理解的話,可以看下面這個官方掛出的level 3示例感受一下:
“1959 年 7 月 2 日,美國發布了加工水果、蔬菜及某些脫水類產品的等級標準。其中,“乾燥和脫水”類別下明確標註為“脫水”的專案,以及“冷凍/冷藏”類別中完整名稱包含該產品但未標註為“冷藏”的專案均適用該標準。截至 2023 年 8 月,這些標準中已有多少百分比(四捨五入到最接近的整數)被新版本取代?”——是不是覺得讀明白都有困難…

Deep Research在完成識別 1959 年標準、收集相關標準、查詢更新版本、評估更新比例、驗證與補充這些思考步驟後,得出6/7的標準被取代。
有推特使用者為了驗證它的綜合能力提出一系列問題,從總結歷史到分析小說,再到研判財務違規,DeepSeek都回答得不錯。但也提到Deep Research有一定限制,比如引用不完全,沒有暫停按鈕。但瑕不掩瑜,這仍然是“人類與AI協作的巔峰”。

再來是Expert-Level Tasks。在內部評估中,Deep Research 獲得領域專家認可,能夠自動化完成複雜的研究任務,將原本需要數小時的手動調查大幅縮短。這一能力使其被認證為專業領域的重要輔助工具,為專家級研究提供高效支援。
傑克遜實驗室和前紐約大學教授、人類免疫學家Derya Unutmaz使用Deep Research撰寫了一份25頁的癌症研究專利,表示質量完全過關,省下1萬美元費用。

還轉發了Deep Research媲美專業會計師的案例:一位即將搬離美國的使用者,透過它獲得了一份詳盡的稅務最佳化、法律和遺產規劃建議,而這些問題連自己的CPA都沒有解決。

Runway.com執行長Siqi Chen分享使用Deep Research研究女兒顱咽管瘤治療方案的價值,已經超過了支付給私人研究團隊的15萬美元。

當然,必須有人用Deep Research寫了一份DeepSeek的研發歷史,並對未來發展做出推斷。洋洋灑灑幾千字下來,評論是:“瘋狂”。

侷限與未來
OpenAI表示,儘管Deep Research解鎖了許多新功能,但仍處於早期階段,存在一些侷限性。包括幻覺問題(可能捏造事實或錯誤推斷)、難以區分權威資訊與傳言、可信度校準不足、以及報告和引用格式上的輕微錯誤,同時某些任務的啟動時間可能較長。不過,隨著使用者使用量的增加和模型的持續最佳化,這些問題有望在短時間內顯著改善。
現在推特上的ChatGPT Pro使用者評論區底下,已經有大批網友排隊問問題,期待幫忙用Deep Research來解答了。可以想象,等這項功能向Plus使用者開放後,OpenAI最佳化算力基礎設施有多麼迫在眉睫。在推理模型的進化帶動下,AI輔助工具的發展正在從簡單的對話助手,逐步向專業研究助手轉變。
OpenAI這一波發力,是否從DeepSeek那兒贏回一些好感,能撬動使用者的付費意願了嗎?
但這還沒結束,Sam Altman已經透露,Deep Research並不是o3-mini的one more thing,過幾天還有驚喜。
如果DeepSeek真地能讓OpenAI重新支稜起來,對於使用者來說,倒也不是一件壞事。

