

作者 | 陳駿達
編輯 | 心緣
智東西1月21日報道,昨晚開源的DeepSeek-R1模型問世即爆火,在AI圈熱度持續發酵。不到一天,他們公佈在GitHub上的論文就獲得5000多收藏,相關話題在YC駭客新聞、Reddit和X等平臺的互動量已經過萬。DeepSeek-R1目前在Web和App端可完全免費使用,模型均開源,多領域效能比肩OpenAI o1。智東西也在第一時間上手體驗了這款模型。
英偉達資深科學家、AI Agents業務負責人Jim Fan給予了極高評價,說DeepSeek-R1不僅開源了大量的模型(正式版+6款蒸餾模型),還分享了所有的訓練細節和方法,可能是第一個充分展示強化學習(RL)飛輪效應顯著,且仍在持續增長的開源專案。

▲Jim Fan對DeepSeek-R1做出高度評價(圖源:@DrJimFan)
根據實測體驗,這款模型80多秒就能完成一道高考壓軸題,9分鐘就能寫出一段“開箱即用”的程式碼,這段程式碼渲染出的動畫生動地講解了量子力學的相關概念。它也是一名不錯的文科生,能在普通人還沒讀完題時就得出腦筋急轉彎的答案,或是將古埃及、南非原住民歷史中的細枝末節分析得頭頭是道。
如果仔細閱讀DeepSeek-R1的思考過程,就能發現它思考時的語言風格十分自然,還會隨口蹦出一些“Yeah, that works!”這樣的活潑表述。
與DeepSeek-V3相比,推理能力讓DeepSeek-R1的回答更為全面、詳實,且論證充分。它一般會以結構化的方式提供回答,並在思考和回答過程中補充大量背景資訊,不少使用者反饋這些資訊很有啟發性。
據DeepSeek官方公佈的資料,這款模型在數學、程式碼、自然語言推理等任務上,和OpenAI o1正式版的表現不相上下。

更驚人的是,DeepSeek-R1在大規模強化學習(RL)中自然湧現出了強大的推理能力和有趣的推理行為,並未進行有監督的微調(SFT)。
根據體驗結果和DeepSeek官方的介紹,DeepSeek-R1目前在通用性、多語言能力、提示工程和軟體工程能力這4大領域面臨一些挑戰,這導致它在函式呼叫、複雜角色扮演等任務上的表現還沒有達到預期水準。
DeepSeek-R1採取了釋出即上線的策略,使用者已經在DeepSeek官網與App上免費體驗這款模型,也可透過每百萬tokens輸出僅需16元(OpenAI o1價格的3.7%)的API介面使用。
下面,我們就分別從理科、文科和模型短板這三方面來看看DeepSeek-R1在實測中的表現。
開源地址:
https://huggingface.co/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d
論文地址:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
01.
83秒解答高考壓軸題
動畫解釋量子力學
理科類問題一直是推理類模型的優勢領域之一,簡單初高中的數學題已經難不住大部分推理模型了,所以我們直接給DeepSeek-R1上了一道2024年高考全國甲卷理科數學壓軸題。

DeepSeek-R1用83秒回答了這一問題,答案完全正確。美中不足的是,它的求解過程並不完全符合評分標準中的規範,漏掉了一個需要證明的點,應該拿不了滿分。

X平臺上的海外網友貢獻了一個十分有趣的用例——他將自己對量子電動力學原理的理解告訴DeepSeek-R1,讓DeepSeek-R1用直觀的視覺方式呈現出來,下方是這位網友的部分提示詞。

DeepSeek-R1提供了實現這一效果的程式碼,渲染出來的效果是這樣的:

這位網友稱,DeepSeek-R1生成這一程式碼單次耗時大約9分鐘,一次成功,沒有出現數學錯誤,僅出現視覺平面偏離的問題,他很快就修復了。這幾乎是一種“開箱即用”的體驗。
不過,DeepSeek-R1也是有能力上限的,這道美國2024年AIME數學邀請賽真題就難住了它。

DeepSeek-R1思考了足足213秒才給出回答,結果也與正確答案不符合。

下方這道2006年IMO(國際數學奧林匹克競賽)的第三題(也是最難的問題)讓OpenAI o1都束手無策,而DeepSeek-R1也沒能成功回答,從第二步開始,它的回答就與標準答案相去甚遠。


綜合體驗下來,DeepSeek-R1已經具備了不俗的理科實力,大致相當於一名優秀的大學生。考慮到它較快的響應速度和極低的價格,這一成果難能可貴。
02.
文科實力同樣不俗
推理能力提升資訊豐富度
DeepSeek介紹,自然語言推理也是DeepSeek-R1的強項之一。智東西從斯坦福自然語言推理資料集中選取了幾道題目,DeepSeek-R1基本都能在10秒內給出正確答案。

而在中文腦筋急轉彎類的問題上,智東西讓DeepSeek-R1回答了10道題目,回答用時均在10秒鐘以內,答案也都完全正確。在下方這道題目中,它不僅給出了最常見的答案,還在思考過程中分析了水蛭、跳蚤等其它動物。

▲中文腦筋急轉彎測試中的一道題目
在文字推理之外,我們也有必要對DeepSeek-R1的其它文科類能力進行測試。近期奧地利研究機構複雜性科學中心(CSH) 的研究顯示,大模型在歷史類問題上的表現普遍不佳,由於史料數量的差異,大模型很有可能混淆不同的歷史階段,最終給出錯誤答案。
比如,“古埃及有沒有常備軍”這個問題就難住許多大模型,無論其是否具備推理能力。
當智東西將上述問題傳送給DeepSeek-R1時,它的回答條理清晰,經過人工逐一查證,DeepSeek-R1對歷史事件的描述基本準確,而在時間上與部分主流表述有衝突,回答的綜合質量比較高。

而面對非洲原住民這種史料極為缺乏的群體,R1也能給出正確資訊和完整的論證。

為確保客觀,智東西也測試了DeepSeek-v3這一不具備推理能力的模型在上方問題中的表現。在大部分問題上,無論具備推理能力與否,模型都能給出正確答案,推理能力給模型帶來的主要增益在資訊豐富度、文字邏輯等方面。

03.
實測用外文思考更慢
少樣本提示會起反作用
說完了優點,那DeepSeek-R1有沒有什麼能力的短板呢?據DeepSeek官方在論文中的介紹,這款模型針對英文和英文進行了最佳化,有時模型無法按照使用者問題的語言進行思考。
比如,當我將腦筋急轉彎問題用德語輸入後,DeepSeek-R1會自動將其翻譯成中文或英文,然後再作答。這一過程會減慢DeepSeek-R1的思考速度,因為它花了大量的時間在討論德語問題的翻譯結果。最終,它的回答從蚊子變成了水蛭,據它自己介紹,這一答案參考了其它德語謎語。

同時,提示詞形式對DeepSeek-R1的表現也有很大的影響。有部分提示詞會透過提供多個示例來提升回答質量,但在DeepSeek-R1上這可能會適得其反。當智東西將下方少樣本提示詞(Few-Shot Prompt)發給DeepSeek-R1和DeepSeek-V3時,前者需要花費7秒才能得出答案,而後者用時不到1秒。

▲測試中用到的多示例提示詞
從DeepSeek-R1的思考過程來看,它在此類提示詞上出現問題的原因可能是“想太多了”。

DeepSeek-R1的論文中還寫到,這款模型的通用能力和軟體工程任務的能力目前存在短板,但在未來,他們會透過長思維鏈技術、非同步評估等來提高模型表現。
04.
結語:中國開源AI力量未來可期
DeepSeek-R1一經發布,就得到全球AI開發者的積極採用和高度評價。有人曬出自己用了數小時API後0.06美元的賬單,也有人分享蒸餾後的模型在M2晶片筆記本上高速執行的畫面。
值得一提的是,DeepSeek-R1是DeepSeek旗下首款以MIT協議開源(包含權重)的模型,不限制商用,也無需申請,還明確允許透過模型蒸餾等方式將DeepSeek-R1用於訓練其他模型。這意味著DeepSeek-R1有望在全球AI領域產生廣泛影響,也能從全球開源社群中獲得正向反饋,不斷改進模型。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
