
最近,谷歌不管是大模型,還是產品,上新的動作都有點頻繁。。。
昨天,他們又宣佈把 Deep Research 背後呼叫的模型升級到了最強的 Gemini 2.5 Pro。
Gemini 2.5 Pro,就不用我多吹了吧,從 3 月 25 號釋出開始,口碑好的便是穩如老狗。現在已經成為了我每天使用最頻繁的模型之一,地位都要超過 deepseek,妥妥的新晉心頭愛。
可能是使用者使用太多,連谷歌這樣的商業巨佬都撐不住了,前幾天開始對 Gemini 2.5 Pro API 收費了(此時我默默丟出一個差評),模型從原來的實驗版 exp 變成了預覽版 preview,說是配了更高的速率,但是我在 aistutio 上用的時候感覺還是變慢了。

且不提谷歌收費的事兒,2.5 Pro 的模型效果確實厲害,X 上和 family 群裡的反饋都很強。
吐槽歸吐槽,谷歌把這麼牛的 Gemini 2.5 Pro 用到 Deep Research 這個功能上,那真的有點“王炸”的意思了。
為啥?因為 Deep Research 本身就不是一個省油的燈,它是一個強的有點 bug 的功能。
Deep Research(後面簡稱為,DR),你就理解為它是一個超級研究助理,可以自主上網衝浪,深度整合分析好幾百個網頁資料來源,最後給你生成一份結構化的研究報告。
前段時間出圈的 Manus 帶火了 AI Agent 賽道,也讓 Deep Research 又火了一把。
為啥我說 Gemini 2.5 Pro+Deep Research 是一個王炸組合。
因為模型能力是 Agent 這類產品的基石,一個強大的模型可以提供了理解、推理、生成的基礎能力,直接決定 Agent 效果,比如 Manus 背後呼叫的是 Claude。
這裡,得強調一下,現在雖然好幾家都在搞類似的功能,但‘Deep Research’這個名字和概念,最早就是谷歌在 Gemini 裡先搞出來的,好多人都以為 OpenAI 先搞出來的,其實並不是 OpenAI 他們家首創。
明明是谷歌的首創,但是因為 OpenAI 當時的示範效果太好,所以風頭都是隔壁 OpenAI 搶走了。這次谷歌一雪前恥,評估結果把 OpenAI 的按在地上摩擦。。
這是評估資料——

人類測試人員對 Gemini 2.5 Pro DR(藍色) 和 OpenAI DR(灰色)的滿意度。
可以看到,在指令響應、理解能力、完整度以及報告寫作四個方面, Gemini 2.5 Pro DR 要遠遠好於 OpenAI DR。
此外,這是一些使用者的反饋:



要知道掏錢訂閱的使用者都是非常挑剔的, 能讓他們自發的表揚,看來 Gemini 2.5 Pro 加持下的 Deep Research 確實有兩把刷子。
按照官方的說明, Deep Reasarch 的這次提升主要是下面兩點:
-
分析推理、查詢和綜合資訊和生成更具洞察力的研究報告方面有顯著提升。 -
內部測試表明,由 2.5 Pro 驅動的 Deep Research 生成的報告,其受歡迎程度超過其他領先深度研究提供商兩倍以上。
按照網友的反饋,主要的優點包括:資訊來源多、效果接近 OpenAI Deep Research。
還有不得不提的一點是——
OpenAI DR,需要訂閱 200 美元的包,但是 Gemini DR 只要不到 20 美元,只有 openAI 的 1/10。就這一點,就贏在起跑線。
當然了,按照小瑤編輯部的標準,我們是一定要親自進行測試。考慮到 Gemini Deep Research 的返回結果都是動輒幾十頁的長篇大論,我們不展示報告全部內容,只節選點評。
這次升級,aistutio 裡暫時用不了,gemini APP 和網頁端都能用了,需要是 advanced 使用者。
https://gemini.google.com/app
啟動 Deep Research 前,要手動選擇 Gemini 2.5 Pro

題目一
請客觀的評價 Meta 最近新發布的 Llama 4 相關模型。
選這個題目作為開場是因為我們剛剛寫了一篇 Llama 4 的測評,對相關內容比較熟悉,主要考察資訊收集和總結能力。
Deep Research 的第一步,是列出研究大綱,並讓使用者確定。

這個研究大綱涵蓋了官方訊息、技術細節、基準測試、模型對比、核心能力、第三方評價以及侷限性。
這個大綱你們覺得怎麼樣,反正我認為已經是非常詳細了。當然如果你覺得大綱不夠好,可以再修改。

確定了研究大綱後,就授權 Deep Research 開始研究。
部分 thinking 過程展示:


咱別的先不說,就這些搜尋網頁的個數,資訊的來源廣度就很驚豔了,統計下來,一搜索了 195 資訊源。要知道,Llama 4 本身上線也沒有幾天,這感覺把所有能搜的都搜了。

大概十幾分鐘的時間,整個報告就完成了,整體的質量我個人感覺非常好。
首先,所有基礎事實類的內容全部都提到了,沒有什麼錯誤,每一段下面都列出來了資料來源。給大家隨便挑一個例子,感受一下:

而且,我在瀏覽報告的時候發現 Gemini DR 能夠索引到一些非常細節的內容,比如下面的例子:

這裡提到了一款叫做 "Llama 4 Reasoning" 的推理模型,這個細節來自 Meta CEO 扎克伯格釋出的影片,但很少有文章提到,谷歌竟然搜到了一篇文章,而且把細節也摘出來了。

除了 Llama 4 本身的基礎資訊之外,這份報告還涵蓋了許多第三方的測評資訊,包括社交媒體上人們對它測評結果的質疑、LMArena 上的"特供模型"風波、Meta 內部的八卦都寫了進去,不可謂不全。

整個報告一共有 20 多頁,就不做更多的詳解了。總結來說,這個報告的內容非常詳實,質量非常高。
(本文最後有完整報告的獲取方法)
題目二
教育系統應該如何適應 AI 飛速發展的當今。 這裡的教育系統包括 從小學到大學,以及職場的再教育。
首先是大綱:

整體報告如下:
首先,從報告的形式上看,Gemini DR 會自動用合適的方式展示資訊,比如會自動用表格展示橫向對比的內容:

從內容上看,本報透過循序漸進的方式,從探討課程體系改革開始、逐漸深入討論教學方法創新、評估方式轉變、教育者能力發展以及倫理治理等關鍵議題。
整個報告共計 23 頁,15000 字左右,78 個有效引用,內容是非常詳細。
總之,我覺得可以直接拿去作為開題報告、提案申請書是沒問題了。
題目三:
美國最新的關稅政策,及其影響。 需要在文章中有歷史上所有主要經濟體之間關稅戰的介紹。
這是研究大綱:

整體報告如下:
這個報告也是非常詳細的介紹了關稅戰的來龍去脈,裡面涉及了很多美國的關稅政策,稅率的計算,生效時間等詳細內容。
報告也儘可能的用表格,關鍵字加粗等方式強調重要資訊。總之就是儘可能的降低閱讀門檻。
我這個非專業人士,把這個報告當作一個學習資料,確實學習到了不少內容。
下面是一些截圖:


上圖的很多內容都是昨天(4 月 9 日)的新聞,時效性也非常好。

說句題外話,這個 Gemini DR 要比美國領導人“懂王”看起來理性很多。
總結
從我們的三個簡單測試來看,Gemini 2.5 Pro 加持下的 Deep Research,確實真有那麼點東西。
老實說,在這個資訊爆炸但又渴望深度的時代,我們即使不是做科研的,但是日常都會或多或少地做著“研究”的事兒,比如就是想更深入地瞭解特朗普搞起來的關稅風波對我們普通人的影響。
Deep Research,就是給你開了一個外掛,讓你省下來大把力氣,把精力花在更高層次的思考和判斷上。
更別提,它還把獲取這種深度研究能力的門檻,用一個相對‘親民’的價格給拉了下來。
如果想詳細的查閱生成的三份報告,請在公眾號後臺回覆關鍵詞「DR」下載。


