你是否也曾榨乾過DeepSeek？

在AI大模型的廣泛應用中，我們常常驚歎於其快速生成回答的能力。然而，當面對一些需要深度檢索和複雜資訊處理的問題時，即使是強大的AI模型也可能陷入長時間的“思考”。

本文透過作者對DeepSeek的深度體驗，探討了AI在處理複雜資訊檢索任務時的表現，特別是OpenAI釋出的BrowseComp測試中，模型在面對簡單答案卻隱藏在複雜資訊中的問題時的挑戰。

———— / BEGIN / ————

在今年深度體驗AI大模型的3個月裡，我發現無論他回答的對不對，大多數時候，他基本都能在1分鐘內能生成回答（很多時候是秒答），無論回答質量如何，是否有幻覺，他都能很快給你答完就是了。

但是，有這麼一類問題，他的答案普遍簡短，有的短到只有一個單詞，長的也不超過10個單詞，卻常常讓DeepSeek深度思考五分鐘以上，過程中動不動還爆出數千字以上的思維鏈。

比如下面這個問題：

中間的思維鏈就更長了，接近5000字，我就不全截圖了。

你可以想象它在將近5分鐘裡，一直在生成思維鏈，全文包含79個wait：

還有下面這個問題，花了將近6分鐘

這兩個問題，別看題目不長，答案也都很短，大模型花了這麼久，但是依然做錯了。

這些問題，都來自一個測試，就是OpenAI在4月上旬釋出的BrowseComp：瀏覽競賽。

這個測試，主要就測一個能力：定位很難尋找的、複雜糾纏的資訊的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其實說白了，就是要看看大模型們瀏覽網頁和搜尋資訊的能力，到底強到什麼地步了？因為現有的測試比如SimpleQA，其實已經被“刷爆”了。

但是，基本上沒太多人討論這個BrowseComp，它被淹沒在4o生圖的火熱和最近的o3模型的釋出之中了。

瀏覽競賽裡的問題集的最大特點，就是答案簡單，但是，題幹一定會用最虛無縹緲的特徵描述，把簡單的答案層層包裹起來。

比如，答案是一個歷史名人，但是，題幹是這個人最冷僻、最不為人所知的資訊點，甚至是有很大誤導性的資訊點，比如這個描述同時也有很多其它人符合或者是很籠統的描述，最終，你會很難猜到這個人是誰。

比如劉備，大家都知道，如果問桃園三結義裡的大哥是誰，那就太好猜了。

如果這麼問：某河北籍男子，身高1米88，15歲外出求學，中年創業多次失敗，兒子很不成器，晚年因為要給弟弟報仇，63歲客死他鄉。

是不是難了很多？

當然，理論上，還要加入更多的限制性條件，讓答案唯一。

以上資訊，還算是很好找的，所有資訊都在一個百度百科的網頁裡都有了（因為就是我幾分鐘內現編的，如果資訊有誤請找百度）。

但問題是，在不知道答案是劉備的前提下，而且題乾的資訊給得更朦朧更誤導一點的話，大模型往往需要橫跨數十個甚至上百個網頁，才有可能定位到其中某個資訊，然後開始驗證，排除，再查詢，再驗證…最後，答錯了。

官方論文裡的另一個例題：請告訴我一篇發表在 2018 至 2023 年間 EMNLP 會議上的論文，其第一作者本科畢業於達特茅斯學院（Dartmouth College），第四作者本科畢業於賓夕法尼亞大學（University of Pennsylvania）。

答案：Frequency Effects on Syntactic Rule Learning in Transformers，EMNLP 2021

這些問題在知道答案的時候，都很容易確認，就是1分鐘的事情，但是不知道答案的話，模型就得暴力搜尋數千篇論文了。

這也是官方所謂的“驗證的不對稱性asymmetry of verification”：驗證容易，解答困難。但是，這就恰恰符合了這個測試的目標：大模型的檢索能力。

雖不算完美，卻也有效。它不是考驗模型next token predidtion的能力，畢竟題乾和答案都很短，也不太考驗推理能力，因為不太需要什麼深度研究分析（不過普遍來說推理模型的表現還是會更好），只要找得到資訊，就能回答正確。

下圖顯示了BrowseComp的整體測試結果：花的時間越久，正確率越高，這也是之前DeepSeek會花那麼久的原因之一，但是，正確率最高的模型，也就50%左右，而且嚴格來說，它還不算一個模型，而是agent

瀏覽競賽裡的問題，實在也不好編，官方說，現在攏共只有1266個問題。

官網放出了5道例題，我分別讓DeepSeek V3、R1不開聯網、R1開聯網，分別測試了5個問題，每次都新開對話視窗，一共15次測試，全軍覆沒。

（注意，這並非是說DeepSeek在整個問題集裡一道都做不對，而是正確率大機率很低）

而且，在沒有聯網的情況下，出現了前述的超長回答時間的問題，理論上，這種自我榨乾的情況不該出現，它應該早一點發現自己其實根本無法作答，然後再給出一個它認為最有可能正確的猜測即可（注：R1的表現比V3好）。

那麼，到底什麼模型表現最好呢？

很遺憾，OpenAI還只測試了自家的模型，暫時沒啥橫向可比性，雖然我認為瀏覽網頁和尋找資訊的能力，肯定是agent們包含的各種tool use能力裡最重要的一個。

新上線的o3，不提它在視覺理解方面的能力，就因為相比o1有了browsing功能（當然還有更強的推理能力），正確率提高了很多。

（o1在沒有聯網功能的情況下，僅靠內部知識庫，答對了其中10%的問題）

我的三個小心得：

1、無論現有大模型在browsing方面表現如何，它們都在飛快進步和提升；

2、一旦遇到這種要查很多資料的任務，先讓大模型做一遍，做對最好，沒做對也沒關係，它的搜尋過程和給出的回答，還是能給你節約不少時間；

3、不要只問一次，在看了它第一遍的回答後，自己找找資料，思考思考，再繼續給更多提示詞，問第二次，第三次，榨乾它，很快，你也會接近答錯了😊

———— / E N D / ————

本文來自微信公眾號：一個胖子的世界，作者：柳胖胖

👇 想第一時間掌握AI動態、工具乾貨？掃碼加入共學交流群，一起偷跑不掉隊！

———— / 推薦閱讀 / ————

dignews.cc

你是否也曾榨乾過DeepSeek？

相關文章

多模態大模型事實正確性評估：o1最強，模型普遍過於自信，最擅長現代建築/工程技術/科學

大模型數學推理資料合成相關方法

2025美國最新奧數題，讓大模型集體翻車，DeepSeekR1平均分也不到5％

更精細的解耦評估！VisualSimpleQA開創視覺語言大模型事實問答評測新正規化

驚爆老外的DeepSeek-R1到底多強？實測高考真題，仍存4個短板

DeepSeekR1遇難題142次“Igiveup”，研究還稱需增加推理時機控制機制

西安交大、港科廣開源FortisAVQA資料集，配套MAVEN模型助力魯棒音影片問答

使用DeepSeek的GRPO，7B模型只需強化學習就能拿下數獨

用極小模型復現R1思維鏈的失敗感悟

AP機考寶藏模考網站：真題模擬，100％免費