你是否也曾榨乾過DeepSeek?

在AI大模型的廣泛應用中,我們常常驚歎於其快速生成回答的能力。然而,當面對一些需要深度檢索和複雜資訊處理的問題時,即使是強大的AI模型也可能陷入長時間的“思考”。
本文透過作者對DeepSeek的深度體驗,探討了AI在處理複雜資訊檢索任務時的表現,特別是OpenAI釋出的BrowseComp測試中,模型在面對簡單答案卻隱藏在複雜資訊中的問題時的挑戰。
———— / BEGIN / ————
在今年深度體驗AI大模型的3個月裡,我發現無論他回答的對不對,大多數時候,他基本都能在1分鐘內能生成回答(很多時候是秒答),無論回答質量如何,是否有幻覺,他都能很快給你答完就是了。
但是,有這麼一類問題,他的答案普遍簡短,有的短到只有一個單詞,長的也不超過10個單詞,卻常常讓DeepSeek深度思考五分鐘以上,過程中動不動還爆出數千字以上的思維鏈。
比如下面這個問題:
中間的思維鏈就更長了,接近5000字,我就不全截圖了。
你可以想象它在將近5分鐘裡,一直在生成思維鏈,全文包含79個wait:
還有下面這個問題,花了將近6分鐘
這兩個問題,別看題目不長,答案也都很短,大模型花了這麼久,但是依然做錯了。
這些問題,都來自一個測試,就是OpenAI在4月上旬釋出的BrowseComp:瀏覽競賽。
這個測試,主要就測一個能力:定位很難尋找的、複雜糾纏的資訊的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.
其實說白了,就是要看看大模型們瀏覽網頁和搜尋資訊的能力,到底強到什麼地步了?因為現有的測試比如SimpleQA,其實已經被“刷爆”了。
但是,基本上沒太多人討論這個BrowseComp,它被淹沒在4o生圖的火熱和最近的o3模型的釋出之中了。
瀏覽競賽裡的問題集的最大特點,就是答案簡單,但是,題幹一定會用最虛無縹緲的特徵描述,把簡單的答案層層包裹起來。
比如,答案是一個歷史名人,但是,題幹是這個人最冷僻、最不為人所知的資訊點,甚至是有很大誤導性的資訊點,比如這個描述同時也有很多其它人符合或者是很籠統的描述,最終,你會很難猜到這個人是誰。
比如劉備,大家都知道,如果問桃園三結義裡的大哥是誰,那就太好猜了。
如果這麼問:某河北籍男子,身高1米88,15歲外出求學,中年創業多次失敗,兒子很不成器,晚年因為要給弟弟報仇,63歲客死他鄉。
是不是難了很多?
當然,理論上,還要加入更多的限制性條件,讓答案唯一。
以上資訊,還算是很好找的,所有資訊都在一個百度百科的網頁裡都有了(因為就是我幾分鐘內現編的,如果資訊有誤請找百度)。
但問題是,在不知道答案是劉備的前提下,而且題乾的資訊給得更朦朧更誤導一點的話,大模型往往需要橫跨數十個甚至上百個網頁,才有可能定位到其中某個資訊,然後開始驗證,排除,再查詢,再驗證…最後,答錯了。
官方論文裡的另一個例題:請告訴我一篇發表在 2018 至 2023 年間 EMNLP 會議上的論文,其第一作者本科畢業於達特茅斯學院(Dartmouth College),第四作者本科畢業於賓夕法尼亞大學(University of Pennsylvania)。
答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021
這些問題在知道答案的時候,都很容易確認,就是1分鐘的事情,但是不知道答案的話,模型就得暴力搜尋數千篇論文了。
這也是官方所謂的“驗證的不對稱性asymmetry of verification”:驗證容易,解答困難。但是,這就恰恰符合了這個測試的目標:大模型的檢索能力。
雖不算完美,卻也有效。它不是考驗模型next token predidtion的能力,畢竟題乾和答案都很短,也不太考驗推理能力,因為不太需要什麼深度研究分析(不過普遍來說推理模型的表現還是會更好),只要找得到資訊,就能回答正確。
下圖顯示了BrowseComp的整體測試結果:花的時間越久,正確率越高,這也是之前DeepSeek會花那麼久的原因之一,但是,正確率最高的模型,也就50%左右,而且嚴格來說,它還不算一個模型,而是agent
瀏覽競賽裡的問題,實在也不好編,官方說,現在攏共只有1266個問題。
官網放出了5道例題,我分別讓DeepSeek V3、R1不開聯網、R1開聯網,分別測試了5個問題,每次都新開對話視窗,一共15次測試,全軍覆沒。
(注意,這並非是說DeepSeek在整個問題集裡一道都做不對,而是正確率大機率很低)
而且,在沒有聯網的情況下,出現了前述的超長回答時間的問題,理論上,這種自我榨乾的情況不該出現,它應該早一點發現自己其實根本無法作答,然後再給出一個它認為最有可能正確的猜測即可(注:R1的表現比V3好)。
那麼,到底什麼模型表現最好呢?
很遺憾,OpenAI還只測試了自家的模型,暫時沒啥橫向可比性,雖然我認為瀏覽網頁和尋找資訊的能力,肯定是agent們包含的各種tool use能力裡最重要的一個。
新上線的o3,不提它在視覺理解方面的能力,就因為相比o1有了browsing功能(當然還有更強的推理能力),正確率提高了很多。
(o1在沒有聯網功能的情況下,僅靠內部知識庫,答對了其中10%的問題)
我的三個小心得:
1、無論現有大模型在browsing方面表現如何,它們都在飛快進步和提升;
2、一旦遇到這種要查很多資料的任務,先讓大模型做一遍,做對最好,沒做對也沒關係,它的搜尋過程和給出的回答,還是能給你節約不少時間;
3、不要只問一次,在看了它第一遍的回答後,自己找找資料,思考思考,再繼續給更多提示詞,問第二次,第三次,榨乾它,很快,你也會接近答錯了😊
———— / E N D / ————
本文來自微信公眾號:一個胖子的世界,作者:柳胖胖
👇 想第一時間掌握AI動態、工具乾貨?掃碼加入共學交流群,一起偷跑不掉隊!
———— / 推薦閱讀 / ————

相關文章