實測華為小藝版DeepSeek，和滿血版R1有差別嗎？

春節期間，網際網路上最火的不是春晚小品，也不是春節檔電影，而是 DeepSeek。

這匹來自中國的 AI 黑馬，以極低的訓練成本實現了媲美 OpenAI o1 的效能，憑藉強大的中文能力、堪稱賽博覺醒的頓悟時刻和秉持開源精神，迅速攪動了以 ChatGPT 為首的 AI 圈。

自家人出息了，家裡的其他人肯定要撐場子，於是，在全國人民享受愉快假期的同時，程式設計師們又忙了起來。

隨著騰訊雲、秘塔 AI、阿里雲、百度智慧雲和國家超算網際網路平臺紛紛宣佈接入 DeepSeek，手機作為最常用的個人智慧終端，也迎來了它的身影。

其中，動作最快的是華為。

話不多說，作為 DeepSeek 首次整合到智慧手機的頭馬，我們第一時間進行了上手測試，來看看它的實際表現如何。

在將小藝助手升級到 11.2.10.310 版本後，DeepSeek 已正式出現在小藝助手的智慧體廣場中。

進入小藝助手 app 主介面，點選導航欄中的「發現」，就能一眼看見 DeepSeek 的存在，且從封面來看，目前接入的 DeepSeek 是 R1 的 Beta 版。

相比官方應用，華為小藝接入的 DeepSeek-R1 Beta 總體保持了小藝助手一貫的設計風格和邏輯，介面簡潔直觀，分為上下兩部分。

上半部分是 DeepSeek-R1 Beta 的自我介紹，並展示了一些預設的常見問題，供首次使用者挑選嘗試。而下半部分則是對話方塊，支援語音輸入，使用者的語音內容會自動轉化為文字並即時傳送，方便快捷。

左：小藝版 DeepSeek / 右：DeepSeek 官方應用

點選 DeepSeek-R1 Beta 的頭像，可以進入詳情頁面，在這個頁面中有更詳細的介紹：

我是基於 DeepSeek 開源版本部署的智慧體，旨在幫助鴻蒙使用者獲得深度思考體驗。

除此之外，小藝版 DeepSeek-R1 Beta 只支援簡單的設定，包括智慧體音色、清除上下文和刪除對話記錄，這意味著你沒有辦法新開對話方塊，如果想重新開始，只能清除上下文以及刪除對話記錄。

最豐富的設定居然是小藝自帶的音色

在詳細測試開始前，我們還有一些注意事項和細節，需要你提前知道：

華為小藝接入的 DeepSeek-R1 Beta 只在純血鴻蒙版本的小藝助手中提供，鴻蒙 4.3 使用者暫時無緣享受

小藝版 DeepSeek 支援招牌功能深度思考，但不提供詳細的思考過程

小藝版 DeepSeek 目前在對話方塊中沒有提供聯網搜尋功能的選項，但答案裡有時會顯示參考的線上網頁

小藝版 DeepSeek 在回答完問題後會給出一些拓展選項，以備使用者進一步追問，這是官方應用中沒有的

上下文長度略短，日常夠用

衡量 AI 的效能，有一個重要因素——長上下文長度。

上下文長度（Context Length）指的是大語言模型在處理文字時，能夠同時考慮和記住的文字長度。

例如，如果一個模型的上下文長度是 2048 個 token，那麼在生成或理解文字時，它只能「看到」最多 2048 個 token 的資訊，超出這個長度的資訊則會被模型忽略或丟失。

換句話說，如果，上下文長度不夠，可能聊著聊著，AI 就忘了你之前說過的話。

雖然小藝接入的 DeepSeek-R1 Beta 沒有公開上下文長度的資料，但我們可以設計一個簡單的辦法進行初步測試。

我準備了《三國演義》的前三回，約一萬五千字，將其輸入到華為小藝接入的 DeepSeek-R1 中，並要求其輸出最後一百個字。

重複了多次，華為小藝接入的 DeepSeek-R1 都提示：

稍等，稍等片刻再試試呢。

在將文章縮短到第一回，約四千五百個字的時候，依舊失敗。

無奈之下，我換了一篇曾經撰寫的新聞稿，並節選了約 700 字的內容，才最終得到了成功的輸出。

這個長度基本足夠日常簡單問題的交流，但想要與其暢聊人生，恐怕是個容易失憶的哲學導師。

輸出質量和滿血版 R1 有差別嗎

又到了大家喜聞樂見的環節，AI 發展至今，測試方法多種多樣，我們選擇了一系列的問題，從那些人類容易理解、但 AI 容易誤會的問題，到日常需求的應答可行性，都進行了詳細的測試。

作為曾經搞翻大半個 AI 圈的經典問題，「9.11 和 9.8 哪個大」以及「Strawberry 裡有幾個 r」已經併入了常規測試環節。

左：小藝版 DeepSeek / 右：DeepSeek 官方應用

令人意外的是，在 Strawberry 裡有幾個 r 這個問題上，華為小藝接入的 DeepSeek-R1 Beta 居然翻車了，甚至在給出了參考來源的情況下，依舊給出了兩個 r 的答案，並且在 r 出現的位置上也有錯誤。

而 DeepSeek 的官方應用則沒有任何意外，在給出正確答案的同時也準確指出了 r 的位置。

除此之外，華為小藝接入的 DeepSeek 與官方應用相比，還有一個顯著的不同——R1 模型的思考過程被隱藏了。

雖然這個過程在大多數時候並不干擾答案，但一個能夠展示思考過程的 AI，顯然讓人更有信心，同時，如果使用者希望調整問題，能夠透過檢視 AI 展示的思考邏輯來幫助理解，避免 AI 未能準確捕捉到使用者的思路。

從官方應用提供的思考過程來看，有幾個 r 依舊是個讓 AI 糾結的問題

平時用慣了 DeepSeek 的官方應用，突然失去了思考過程讓我覺得有些心裡沒底。

於是，我將電車難題交給了兩個 DeepSeek，這個涉及道德倫理的經典思考題，考驗其對複雜道德議題的理解深度，看看這個思考過程隱藏後，還能不能回答有條理的、考慮全面的答案，並避免我預設的「你怎麼選」的坑。

在這個問題上，DeepSeek-R1 Beta 並沒有出現差錯，也沒有掉進我設計的坑裡，在回答中詳細介紹了兩個選擇的後果，並分別在各種觀點和視角下進行具體分析，提示無論做出怎麼樣的選擇，都要認真思考其倫理含義和潛在影響及其後果。

簡單的道德倫理題難不住它，就嘗試一下更有難度的題，考察一下推理能力、判斷力以及對邏輯關係的理解：

「有三個人站在一座橋的一端，他們需要去橋的對面，但橋只能承受兩個人同時過橋，而且橋上只有一把手電筒。三個人的過橋速度不同：一個人過橋需要 1 分鐘，另一個需要 2 分鐘，最後一個需要 5 分鐘。每次只有兩個人可以一起過橋，而橋上必須有手電筒。問：怎麼樣才能讓他們在最短時間內過橋？」

這個測試就比較有意思了，小藝接入的 DeepSeek-R1 Beta 得出來的結論是 12 分鐘，這個答案與 ChatGPT 的結論相同，而 DeepSeek 官方 app 則得出了一個用時更短的答案，同時在思維邏輯上也給出了充足的辯論脈絡。

左：小藝版 DeepSeek / 中：DeepSeek 官方應用 / 右：ChatGPT-4o

在測試完道德倫理、邏輯數學後，我們最後測試一個更貼近普通使用場景、但對於 AI 來說很難做到自然的測試——中文寫作。

我設計了一個影片選題，並讓小藝接入的 DeepSeek-R1 Beta 幫我輸出一個簡略的臺詞，兼顧畫面設計的同時以小品形式來呈現華為 Mate X6 摺疊屏的外觀，看看在使用者提出複合型任務要求的情況下，它的表現如何：

「我要製作一期華為 Mate X6 摺疊屏的影片，展示摺疊屏外觀的同時進行中立評價，全片透過兩人小品的形式呈現，請你幫我設計臺詞，要求臺詞詼諧有趣，並保持口語化，同時需要兼顧畫面設計。」

小藝接入的 DeepSeek-R1 Beta 在短暫思考以後給了我一份完整的對話臺詞設計，從摺疊屏的不同特點出發，共設計了四個場景以及一個結尾，整體結構還算完整，且臺詞口語化做得還不錯，同時每句對白都給了相應的畫面設計，美中不足就是有趣詼諧的內容略有欠缺，沒有什麼梗，但應對日常的文字處理工作基本沒問題。

需要注意的是，如果不要求口語化，那它給出的回答用詞過於板正嚴謹，還是有些 AI 味道。