5分鐘頂人類8小時!OpenAIDeepResearch訂閱全推送,端到端強化微調是關鍵


新智元報道  

編輯:KingHZ 英智
【新智元導讀】最近,OpenAI的研究團隊在採訪中表示,全新的Deep Research功能,可以為你節省幾個小時甚至幾天的時間!
Deep Research(深度研究)是繼「Operator」之後,OpenAI推出的第二個智慧體,利用模型的推理能力,綜合分析浩瀚的網際網路資訊,從而完成複雜的研究任務。
月初,OpenAI首先向ChatGPT Pro使用者開放了Deep Research功能。最近,進一步開放給了更多等級的訂閱使用者。
其中,Plus、Team、教育和企業使用者每月10次查詢機會,Pro使用者每月120次機會。
OpenAI對新功能寄予厚望:
它能在幾分鐘內完成人類需要數小時才能完成的工作
綜合知識的能力是創造新知識的先決條件。
因此,深度研究標誌著我們在開發AGI(通用人工智慧)這一更廣泛目標上邁出了重要一步。
長期以來,我們一直設想AGI能夠進行創新性科學研究。
奧特曼表示:這是他最喜歡的已釋出的功能之一。
此次更新,固然給使用者帶來了新體驗,「錢沒白花」。
但考慮到每月最多使用10次,新功能顯得「雞肋」:
考慮到同一梯隊的競爭對手,不僅類似功能推出的更早,而且免費,OpenAI這次釋出,的確算不上出彩。
那這次OpenAI都推出哪些新特性?為什麼這次落後競爭對手了呢?
技術報告發布
在X上,OpenAI連發多條訊息,介紹深度研究相關更新情況。
除更多使用者可用之外,本次更新的主要改進為:
在輸出中嵌入帶引用的圖片
更好理解和參閱上傳的檔案
然後,其他改進呢?無。
至於,沒什麼落後競爭對手,OpenAI給出的解釋是為了控制風險,保證安全:
在推出深度研究並將其提供給Pro使用者之前,我們進行了嚴格的安全性測試、準備評估和治理審查
我們還進行了額外的安全性測試,以更好地瞭解與深度研究瀏覽網頁能力相關的逐步風險,並添加了新的緩解措施。重點工作包括加強對線上釋出的個人資訊的隱私保護,並訓練模型抵抗在網際網路搜尋過程中,可能遇到的惡意指令。
在廣泛釋出深度研究之前,我們花時間進行了更多的人工探測和自動化測試,以評估特定風險
在官網釋出的系統卡(System card),OpenAI從提示注入、禁止內容、隱私、執行程式碼能力、偏見和幻覺等方面,全面測試、評估並緩解了系統安全問題。
OpenAI展示了一系列測試結果,最後認為
總體上,深度研究在準備框架(Preparedness Framework)中被歸類為中等風險,並且已採取相應的保障措施和安全緩解措施,為這個模型做好了準備。
值得關注的是,在模型自主性方面,在處理更長時間跨度和智慧體任務時,深度研究效能有所改進,尤其是在模型自主性風險相關的任務中。
比如,在SWE-Bench Verified評測中,深度研究展現了執行明確定義的程式設計任務的能力,被評定為中等風險水平。
已有網友給出了全面的總結:
上下滑動檢視
更多安全測試結果與分析,參閱OpenAI官方系統卡:
文件連結:https://cdn.openai.com/deep-research-system-card.pdf
尷尬之處在於,已免費推出相關功能的Grok-3,以安全性著稱。
紅杉採訪亮點
紅杉資本合夥人Sonya和Lauren,與OpenAI Deep Research的產品負責人Isa和Josh展開了深度對話。
當問及2025年的風口時,Isa和Josh不約而同地回答:「智慧體」。
Deep Research是OpenAI在「Operator」之後推出的第二個智慧體。透過端到端的強化學習訓練,Deep Research能像經驗豐富的研究員一樣,查資料、思考並完成全面的報告。
這不僅是節省5%時間,而是將原本需要8小時的任務縮減到5分鐘!
Deep Research無法為你完成一切,但它能為你節省幾個小時,甚至是幾天。
Isa表示:「我確信它會成為人們生活中不可或缺的一部分。」
從行業分析到醫學研究,再到計劃生日派對,Deep Research幾乎無所不能。
Deep Research不是普通的搜尋工具,它能廣泛收集有關來源的資訊,擅長在網際網路上找到小眾的事實,並整合到一個漂亮、整潔的報告中,嵌入圖表,並附上指向原始資訊的引用。
當你想尋找特定的資訊,並需要搜尋大量資料時,它才能發揮出最佳水平。它很擅長尋找和綜合資訊,但Isa不認為Deep Research當前能做出新的科學發現。

應用場景

Deep Research常被應用於科學研究、醫學研究等領域。人們用它來了解市場、公司和房地產等。
Isa的朋友正考慮創辦一家消費品公司,會用它來做競品調研,檢視特定域名是否被佔用,以及估算市場規模。
出人意料的是,使用者會用Deep Research搜尋程式碼,查詢關於某個軟體包的最新文件,並幫他們編寫指令碼。
Deep Research不僅能用於工作,在購物和旅行建議上也很有用。比如想買一輛新車時,可以請它整理一份報告。在日本釋出Deep Research功能時,它可以用來幫忙尋找餐廳。
個性化教育也是非常有趣的場景,如果想複習生物學知識,它會是個好幫手。
輸入想了解的資訊,它會為你整理出一份很棒的報告。

技術架構

驅動Deep Research的是o3模型的微調版本,o3是OpenAI最先進的推理模型。
模型針對困難的搜尋和推理任務進行了訓練,可以呼叫瀏覽工具和Python工具。透過在這些任務上進行端到端訓練,模型學會了線上搜尋和分析。
Deep Research最大的創新在於「端到端訓練」。研究的過程中,很多事是無法預測的。Isa認為沒有指令碼能像訓練出的模型那樣靈活,能對即時的資訊做出反應。
Deep Research在做有創造性的搜尋,檢視思維鏈總結會發現,它在想出下一個要查詢的內容方面非常聰明。
Josh表示「我們經常誤以為自己寫程式碼會比模型更聰明,但實際上,模型通常會提出更好的解決方案。」
強化學習微調很可能是構建強大智慧體的關鍵!
Yann LeCun有個「蛋糕比喻」,無監督學習是蛋糕,監督學習是糖霜,強化學習是頂部的櫻桃。
成功的秘訣是構建高質量的資料集,資料質量是決定模型質量的最大因素。
Josh認為「AGI」目前只是運營問題。
參考資料:
https://www.youtube.com/watch?v=bNEvJYzoa8A
https://cdn.openai.com/deep-research-system-card.pdf

相關文章