
作者:張小珺 來源:騰訊科技(ID:qqtech)
全文8451字,預計閱讀需26分鐘。
比技術更重要的是願景。
DeepSeek-R1以始料未及的速度引發了全球AI社群的狂熱,但有關DeepSeek的高質量資訊相對匱乏。
2025年1月26日,拾象創始人兼CEO李廣密,組織了一場關於 DeepSeek的閉門討論會,嘉賓包括數十位頂尖AI研究員、投資人與一線 AI 從業者,圍繞DeepSeek的技術細節、組織文化以及其出圈後的短中長期影響等,進行了探討與學習。
這場討論會試圖在有限資訊下,揭開這股“神秘的東方力量”面紗的一角。
值得注意的是,本次討論屬於民間技術交流,不代表任何具體個人及機構的觀點立場。
就像矽谷著名風投家Marc Andreessen評價DeepSeek-R1稱:“作為開源專案,這是對世界的一份深遠饋贈 (As open source, a profound gift to the world)。”因而,本次參與討論的人員也學習DeepSeek,本著開源精神,將閉門會的集體思考公開。
以下是對本場討論會的要點總結。
該總結由拾象團隊整理,作者做了少量編輯。
1
神秘的DeepSeek
“DeepSeek最重要的事是push智慧”
1. 創始人兼CEO梁文鋒是 DeepSeek 最核心的人,和 Sam Altman 不是一類人,他是很懂技術的。
2. DeepSeek 有好口碑的原因在於是第一個把復現 MoE、o1 等發出來,勝在做的早,但能不能做到最好,空間還很大。後面新的挑戰在於資源有限,只能把有限的資源放在最亮眼的地方。這個團隊的 research 能力、團隊文化還是很好的,如果再給 10萬、20 萬張卡,可能能做出更好的事情。
3. DeekSeek 從 preview 到正式釋出這段時間,長上下文能力提升很快。DeepSeek 的 Long context 10K 用非常常規的方法就能夠做到。
4. Scale.ai 的 CEO 說 DeepSeek 有 5 萬張卡,實際肯定沒這麼多,從公開資訊來看 DeepSeek 是有 1 萬張老的A100卡,可能有 3 千張禁令之前的 H800。DeepSeek 很注重合規,沒有采購任何不合規的GPU,所以卡應該很少。美國用 GPU 的方式太粗放了。
5. DeepSeek 把所有精力都放在了一個很窄的點,把後續很多東西都放棄了,比如多模態。不是單純在服務人,而是做智慧本身,可能也是成功的關鍵因素。
6. 某種意義上來說,量化可以說是 DeepSeek 的商業模式。幻方(梁文鋒創立的另一家量化投資公司)是上一輪 machine learning(機器學習) 的產物。DeepSeek 最重要的事就是 push 智慧。錢和商業化的優先順序都不高。中國需要有幾個領先的 AI labs 來探索能 beat OpenAI 的東西,智慧要走的時間很長,今年又開始分化,肯定要有新東西出來。
7. 單從技術角度,DeepSeek 作為黃埔軍校對人才擴散有很大作用。
8. 美國的 AI lab 商業模式也不好,AI 今天確實沒有什麼好的商業模式,後面可能需要跑通。梁文鋒是有抱負的,DeepSeek 不在乎形態,往 AGI 走就是了。
9. 讀完 DeepSeek 論文的感受是,很多都是節約硬體開銷的技術,在比較大的幾個 scaling 方向上,DeepSeek 的技巧可以把成本降下來。
10. 長期不會對算力有影響,但短期大家會想怎麼把 AI 做的更加有效率一點。需求還是很強的,各家都是算力不夠用的狀態。
11. 談DeepSeek的組織:
1)做投資,都選擇最高階的人才組合,但看DeepSeek的模式(團隊多是國內高校畢業的聰明年輕人),覺得大家一起磨合好,能力也能慢慢變高階。挖走一個人是否能打破優勢組合是一個問題,現在看對於 DeepSeek 的影響可能不是特別大。
2)市場上錢有很多,但 DeepSeek 核心是文化組織。DeepSeek 和位元組的 research culture 比較像,比較本質,文化好不好的衡量標準在於是否有足夠的錢和長期性,有比較重要的商業模式才能有長期性的文化,這兩家公司的商業模式都非常好。
12. DeepSeek 為什麼能追這麼快?
1)Reasoning model(推理模型)的需求是更高質量的資料和訓練。如果是長文字、多模態,從 0 開始追一個閉源模型會更困難,但純 reasoning 模型本身的架構沒有大動,reasoning(推理)是一個更好追的方向。
2)R1 能追的快的原因可能在於任務沒有特別難,RL(強化學習) 只是讓模型選的更準,R1 沒有突破 Consensus 32 的效率,同時花了 32 倍效率,相當於把原來並行做探索改成串行了,沒有提高智慧的邊界,只是變得更加容易了。
2
探索者VS追趕者
“AI類似階躍函式,追趕者算力需求少10倍”
13. AI 類似階躍函式,現在做追趕者的算力需求少了 10 倍。追趕者的算力成本一直不太高,但探索者還是要訓很多模型,大家對於新演算法和架構的探索不會停止。階躍函式背後其實是有很多人投入了很多,所以算力投入還是會一直往前,還會有很多人投在產品上。除了 reasoning 之外,還有很多方向也很費卡。探索者花費很多卡可能大家看不到,但沒有這麼多花費,可能不會有下一個階躍。也有很多人不滿足架構、RL 方法,會不斷往前推進。
14. 在探索方向的時候,花 1 萬張卡的效果不一定比 1 千張卡好,但可能會有一個門檻,即如果只有 100 張卡,那大機率做不出來,因為迭代一次方案的時間太長。
15. 推動物理學的進步,分為學校裡的研究者和產業界的實驗室,前者需要探索多個方向,不要求回報,後者更關注效率提升。
16. 探索者和追趕者角度,小公司卡很少,就需要考慮效率,而大公司考慮的是怎麼更快的得到模型,很多在 2 千卡叢集上能提高效率的方法在萬卡是不 work 的,大家會更考慮穩定性。
17. CUDA 生態優勢在運算元的多和全,而華為等國內公司突破的時候是找了一些常用的運算元,有後發優勢,假如擁有 10 萬張卡,在決定資源投入的時候,做領先者的成本很高,做追趕者效率更高,該如何抉擇。國內下一個追趕的方向是什麼,比如多模態,因為海外 GPT-5 一直遲遲沒有出來。
3
技術細節1:SFT
“在推理層面不需要做SFT了”
18. DeepSeek 帶來的最大的震撼不是開源或者低成本,而是不需要做 SFT了。(注:SFT:Supervised Fine-Tuning,有監督微調,一種重要的模型最佳化技術,它透過在預訓練模型的基礎上,使用標註好的資料進行進一步訓練,以提升模型在特定任務或領域上的效能。)但只是在推理層面,推理以外的任務可能還是需要做 SFT。圍繞這個點很值得討論的是,是不是由此提出了一個新的正規化或架構,使得訓練模型對資料的利用效率更高了?或者模型表現的迭代速度會更快?
19. DeepSeek-R1 一定程度上說明用 SFT 做蒸餾有很大好處。DeepSeek-R1 並不是完全不做 SFT,而是在第三步驟只做了 SFT,最後一步 alignment(對齊)再用了 RLHF(基於人類反饋的強化學習)。
20. R1 本質是 SFT 訓練出來的,比較特殊的是資料是用 RLHF 訓練出來的模型生成的,說明不需要用特別複雜的方法,只要有足夠好的方法,只需要用 SFT 蒸餾就行。
21. GRPO 的本質在於 base model(基礎模型)得足夠聰明,一個 prompt 生成用了 16 個 generation,得嘗試幾次才能大機率有正確的答案。不錯的 base model 加上可以 verify,是 R1 提供的思路,math 和 coding 很合適是因為這兩類任務比較容易 verify,但理論上可以在其他場景任務上做類似的過程,最終實現一個通用的 RL 模型。
22. R1 – Zero 沒有用 SFT 就出現了 CoT 的過程,CoT 會越來越長,這個湧現過程很有意義,SFT 更像是一個輔助手段,模型沒有 SFT 也能產生,有了 SFT 能很快生成。
23. 這件事說明現在很多小模型廠商可以用 SFT 去蒸餾大模型,並且效果會很好,但也沒有在 R1 的過程中完全被拋棄。
24. 一個 LLM 集合無限長的 CoT 理論上可以看成一臺圖靈機,理論上透過無限長的 CoT 可以解決極複雜的計算問題(computational problem),但 CoT 本質上只是中間搜尋結果,用一種最佳化的方式去不停 sample potential output,可能會輸出正確結果,然後讓模型往更可信的方向去推。本質上是模型為了得到這樣的結果,必須要做一些 computation,CoT 是 computation 中間必須經過的中間輸出,最終結果可以說是湧現,也可以說是它作為計算機的本質。
25. DeepSeek 的論文裡面雖然沒有提到長上下文,但體感上 R1-preview 和 R1 之間模型的 context window 提升了很多,猜測是做了一些 Long2Short CoT 的提升,包括在第三階段的 SFT 用的 CoT 最終在 generation 的時候也被去掉,最後釋出的版本可能是用了更加 clean 的 CoT 資料做 SFT。
26. SFT 的資料種類有幾種:一個是冷啟動的資料,更像是給模型一個很好的策略,給一個比較好的初始化,這樣能做的探索更好,RL 中有一個最佳化目標是和原策略更接近;另一種資料是做了 RL 之後,生成很多 data,再加上別的資料,再在 base model SFT,本質上每個 domain 有自己的 data processing pipeline 之類的,這個資料的能力是從 base model 來的,蒸餾是無損的,把多個 domain 放到一起可能會有泛化。
27. 不確定 R1 這個過程的資料效率怎麼樣。猜測 OpenAI 針對資料效率也做了類似的事情,比如 fine tuning。R1 第三階段沒有用 RL 做出來的模型作為 base 去訓練,而是去生成了資料,再去 SFT 得到 R1,資料包含 600K 的 reasoning data 和 200K non-reasoning data。第二階段的模型可能在 example 的 domain 之外但仍然需要某種 reasoning 的場景下,可能也能展示解題能力,從而得到 reasoning data。而 non reasoning data 是 V3 SFT data 的一部分,是讓 V3 腦補出了一個 CoT。800K 的資料還是挺小的,挺有效率的。
4
技術細節2:資料
“DeepSeek在資料標註上非常重視”
28. Scale.AI 不一定會失敗,現在需要在各種 domain 上做 RL,比較常用的是 math 和 coding,還是需要 expert 來標註,但資料標註可能會更復雜,但市場會存在。
29. 在 training 上,多模態資料幾乎看不出效果,或者說成本太高了,今天還沒有任何證據說有用,未來機會可能比較大。
30. DeepSeek 在資料標註上非常重視,聽說梁文鋒自己也會打標籤,在 AI 上除了演算法和技巧,資料的精確度也很關鍵,特斯拉的標註成本幾乎是中國自動駕駛的 20 倍,中國自動駕駛的資料經歷了大而全、精細化到最終發現要找開車經驗和能力特別豐富的人,這個是特斯拉一開始就在做的事。特斯拉的機器人的動作是找的小腦非常健康的人做的標註,絲滑程度很好,而中國找的人的絲滑程度很差。所以 DeepSeek 在資料標註上的投入是模型效率好的關鍵之一。
5
技術細節3:蒸餾
“蒸餾壞處是模型diversity下降”
31. 如果不去了解模型訓練中最大的技術痛點,而選擇用蒸餾的技術去避免瞭解,那麼在下一代技術提出的時候,就可能會掉進坑裡。
32. 大模型和小模型能力是不匹配的,從大模型往小模型進行蒸餾是真的蒸餾,teacher to student,如果從完全不會中文的模型蒸餾各種中文資料,效能可能會下跌。但實際上蒸餾小模型確實有很明顯的效能提升,R1 蒸餾出來後的模型再做 RL 會增長很多,因為是用和模型不匹配的資料做出來的。
33. 蒸餾的壞處是模型 diversity 下降,影響模型上限,無法超越最強的模型。但短期看,蒸餾也是一條路線。
34. 用蒸餾會有一些 hack,早期一般在 instruction 調過的模型做 RL,這個階段模型會呈現出的特徵是:先去生成沒有用的想法,然後最後突然答對,原因在於很多 RL hack 做得非常隱晦,模型可能在預訓練的時候背了很多問題,所以明面上是在思考,其實只是在靠近背的題。這就是蒸餾的隱患。如果不做標註就蒸餾,那現在做 具有可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Rewards, RLVR)的時候,就會導致模型會用更簡單的方式解決,而不是去思考這個問題 OpenAI 也沒有解決。可能是這一代技術的缺陷。
35. 長期來說,透過走捷徑的方式,而沒有自己透過願景去想怎麼做技術方案,而是直接復現,中間可能會有不知道的坑。比如在這一代技術 long context 沒有質變的前提下,解決問題的上限可能會被限制。R1-zero 可能是一個正確的方向,從頭就做 R1-zero 或不透過類 o1 的資料啟動可能更好。照著別人的技術方案可能不太好,希望更多探索。
36. 其他模型用蒸餾也能得到較好的結果,未來在模型生態裡面可能就會有老師、學生的角色區分,有能力當一名好學生也是一種可以的商業模式。
37. 在蒸餾和技術路線上,R1 帶來的震撼不如 AlphaGo,但在商業上,出圈能力比 AlphaGo 要好很多。
38. 蒸餾分兩個階段,如果只是蒸餾 o1 或者 R1,而沒有建立自己的體系和 verifiable reward,會導致大家越來越依賴蒸餾,但通用領域是不可能蒸餾的,因為 reward 無法得到,以及在蒸餾過程中特殊的 CoT 怎麼得到。而且第一階段的蒸餾都有痕跡,用 OpenAI 蒸餾的模型可能遺留了 OpenAI 大量的退火痕跡,為什麼 zero 能夠在純 RL 階段上獲得這樣的能力,和基礎模型在退完火之後具有反思能力是有直接關係。
39. 不太相信純網際網路的資料而不經過退火的模型能做到這樣的行為,因為網際網路上幾乎沒有高質量資料。
40. 目前可能只有幾個 top lab 在探索到底需要多少退火階段的資料和資料配比。蒸餾與否都是 RL 演算法的一種,SFT 是行為模仿,是無限的強化學習,但只做 SFT 的上限很低,而且會損害多樣性。
41. 一級市場上的創業公司看見 DeepSeek 還是很激動的,如果後續 DeepSeek 還能繼續迭代,對於不是大的上市公司來說,使用 AI 上會有非常大的靈活性,DeepSeek 還蒸餾了幾個小版本可以在手機上用起來,如果這個方向被證明,對於很多 AI 應用會提高天花板。
42. 蒸餾很重要的是確定目標是什麼,OpenAI 是沒有資料蒸餾的,要超過 OpenAI 是肯定不能做蒸餾。
43. 未來可能模型需要像人類一樣學會跳步回答,在固定 context 長度下,能否提高模型能力表現上限。
6
技術細節4:Process Reward
“過程監督上限是人,結果監督才是模型上限”
44. Process Reward (過程獎勵)不一定不行,但 Process Reward 可能容易被 reward hack(獎勵劫持),也就是模型沒學到什麼,但能把 reward 做的很高。如果解決數學問題,用模型生成 1000 個 generation,可能就是沒有 1 個能靠近正確答案,那用類似 RLVR 的方式是沒有辦法訓練到任何東西的,如果這時候有個還可以的 process reward,可能能接近正確方向,過程分也是有幫助的。要看解決問題有多難、過程 reward 有多可靠等。
45. 過程分在 PRM 估算中,如果和真實有偏差就很好 hack。過程監督理論上是可能的,問題在於 process 的力度,以及基於 process 力度怎麼給到 reward,現在結果監督也是用抽取出來的答案去做匹配,各家也沒有很成熟的讓模型打分而不 hack 的方案,模型自己迭代是最容易 hack 的。標過程也不難,可以列舉的,只是大家沒有做,可能是一個有前途的方向。
46. 過程監督上限是人,人很多是想不到的。結果監督才是模型的上限。
47. AlphaZero 比較有效的原因在於棋局終局的時候是可以做輸贏判斷的,而且整個 reward 是可以根據勝率計算,但是 LLM 不知道最後不停生成能不能給出答案,有點類似遺傳演算法,上限可能更高,但也有可能 hack 不到。
48. AlphaGo 到 AlphaZero 的一個優勢是圍棋的規則是固定的,現在模型從 math 和 coding 開始就是因為比較容易驗證,驗證的方法是不是足夠好會影響最後 RL 的質量。規則得足夠完善,不然模型會去 hack,模型能滿足規則,但生成的結果不是想要的。
7
其他公司為何沒用DeepSeek方法?
“大廠的模型得低調”
49. OpenAI 和 Anthropic 之前沒有做 DeepSeek 的方向是一個公司聚焦方向的問題,OpenAI 和 Anthropic 可能覺得把現有算力投入其他地方會更有價值。
50. 相比大廠,DeepSeek 可能因為沒有在多模態上做事,而是集中在語言,所以能做出成果。大廠的模型能力不弱,但得低調,不能發太多。現在多模態不是很關鍵,智慧來源主要是語言,對於提升智慧沒有幫助。
8
2025技術的分化與押注
“除Transformer能不能找別的架構”
51. 模型在 25 年會發生分化。最誘人的願景是不斷推進智慧的邊界,可能有很多突破的路徑,方法可能會發生變化,比如合成數據、別的架構。
52. 25 年首先關注新的架構,除了 Transformer 之外能不能找別的,現在已經有了一些探索,可以降低成本,在降低成本的同時也可以探索智慧的邊界;其次,RL 的全部潛力還沒有發揮出來;產品上,大家關心 agent,還沒有被大規模應用。
53. 25 年多模態可能會出現能挑戰 ChatGPT 形態的產品。
54. R1 和 V3 帶來的低成本、高效果,說明這是一個方向,和另一個擴硬體、漲引數的方向是不衝突的,國內是受到限制只能走前者。
55. 第一,DeepSeek 是從 base model 逼出來的,還是遵循 Scaling Law,第二,從蒸餾角度,DeepSeek 蒸餾還是先大後小,對於越做越大的閉源模型是好事,第三,對技術發展中,還沒有出現反規模指標,如果出現,那對於 Scaling Law 可能是一個比較大的打擊,而且開源模型的所有東西都可以在閉源模型做一遍,同時還可以降低成本,對於閉源模型也是利好。
56. 據瞭解,Meta 目前還在復現 DeepSeek 的過程中,但目前還沒有特別影響 infra 或者長期 roadmap(路線圖) 的地方出現。長期來說除了探索邊界之外,也要考慮成本,只有成本更低,才能有更多的玩法。
9
開發者是否從閉源模型遷移至 DeepSeek?
“目前還沒有”
57. 開發者是否會從閉源模型遷移至 DeepSeek?目前看還沒出現大批遷移,因為領先模型的 coding 指令遵循能力是比較有利的,但不確定這一優勢在未來是否會被攻克。
58. 開發者角度來說,Claude-3.5-Sonnet 是做了 tool use(工具使用)專門訓練,對於做 agent 非常有利,但 DeepSeek 之類模型暫時沒有提供,但 DeepSeek 帶來的空間很大。
59. 對於大模型應用者,DeepSeek V2 就已經滿足了所有需求,R1 速度提高了,沒有帶來特別大的額外價值,但開啟深度思考的時候,以前能答對的題目現在反而錯了。
60. 應用者選擇模型的時候會用工程方法把問題簡化,25 年可能是一個應用年,各行各業會使用現有的能力做,可能慢慢會到一個瓶頸了,因為日常可能用不到那麼聰明的模型。
61. 現在 RL 是解決了有標準答案的問題,並沒有比 AlphaZero 做更多突破,甚至更簡單,蒸餾解決了標準答案的問題,有標準答案後用 RL 的方法去訓練時可以得到很好的效果,這是為什麼現在蒸餾或者 RL 能很快突破的原因。
62. 人類對智慧的需求是遠遠被低估的,比如癌症問題、SpaceX 上的隔熱材料都還沒有被解決。現有的任務是自動化的問題,還有很多問題,對未來增量的爆發非常樂觀,智慧是不能停下來的。
10
OpenAI Stargate 500B敘事
與算力需求變化
63. DeepSeek 的出現讓大家開始質疑英偉達(NVIDIA)和 OpenAI 最新的 500B 敘事。訓練資源問題目前還沒有清晰判斷,OpenAI 的 500B 敘事是給自己加救命稻草。
64. 對於 OpenAI 500B 基礎設施投入的事情是存疑的,因為 OpenAI 是商業公司,如果涉及舉債,那可能是有風險的。
65. 500B 是一個很誇張的數字,可能會分 4、5 年去執行。因為 leading 的角色是軟銀和 OpenAI,前者是資金,後者是技術,軟銀現在賬上的資金沒有辦法支援 500B,而是用手上的資產去做抵押,而 OpenAI 本身資金也不是很充沛,其他更多是技術參與方,而不是資金提供方,因此要完整實現 500B 是有挑戰。
66. OpenAI 500B 的算力是有道理的,在探索階段,試錯成本很高,人力和投資成本都很高,但因為路線是不明確的,從 o1 到 R1 可能也不容易,但至少知道最後是怎麼樣的一個結果,中間的特徵詞也可以觀察到,可以一開始就對著別人的最終形態去做,比較有方向感。而如果是在前線探索下一代,是最費資源的,而追趕者不需要承擔探索,但永遠只是追趕。如果 Google、Anthropic 在探索的領域做成功了,可能就會成為最前沿的那家公司
67. Anthropic 未來有可能把所有的 inference 都換成 TPU 或者 AWS Chip。
68. 國內公司原來受困於算力,現在證明了潛在的技術空間是非常大的。對於更加 efficient 的模型,可能不需要特別大的卡,可以提供相對定製化的晶片,可以在 AMD、ASIC 晶片上提供適配,從投資角度,英偉達壁壘非常高,但 ASIC 也會有更大的機會。
69. DeepSeek 的事情和算力沒有太大關係,更多讓美國覺得中國比較厲害,比較有效率,英偉達的軟肋不在 DeepSeek,只要 AI 還在發展,英偉達就能發展,英偉達的優勢在生態,這是靠時間積累的。技術在快速發展的時候,生態就很重要,真正危機在於技術成熟後,類似電力,變成標準品,大家會關注做產品,就會有很多 ASIC 晶片出來做特定場景的最佳化。
11
對二級市場的影響
“短期情緒有壓力,長期敘事繼續”
70. DeepSeek 短期對美國 AI 圈衝擊大,短期上對股價有影響:pretrain 需求增速放緩,post-train 和 inference scaling 還沒有足夠快地 scale up,在相關公司的敘事上會有一個 gap,對於短期交易確實會有影響;
71. DeepSeek 更多是 FP8,美國是 FP16,DeepSeek 所有都是基於有限算力工程能力的提升,對於算力高效的使用是最大亮點。上週五 DeepSeek 在北美有巨大的發酵,扎克伯格對 Meta 資本支出給了更高的預期,但英偉達和臺積電都是跌,只有博通是漲的。
72. DeepSeek 在短期情緒上對股價、估值有壓力,對二級的算力相關公司,甚至能源公司有壓力,但長期敘事會繼續。
73. 二級從業者會擔心英偉達從 H 卡到 B 卡的轉換上會有一些 air pocket,再加上 DeepSeek 的壓力,短期會有股價承壓,但可能是長期看更好的機會。
74. 短期受影響是 DeepSeek 在訓練上的低成本投入的情緒體現,比如英偉達的股價就很直接,但 AI 是一個增量市場,潛力很大,長期來看,AI 才剛開始,如果 CUDA 還是大家喜歡的選擇,那硬體增長空間還是很大的。
12
開源 VS 閉源
“如果能力差不多,對閉源是挑戰”
75. DeepSeek 之所以受關注,更多是開源和閉源路線之爭。
76. 有可能會導致 OpenAI 等把好的模型藏在後面,目前看領先的模型都沒釋出。但 DeepSeek 拿出來之後,其他 AI 公司好的模型可能也藏不住了。
77. DeepSeek 成本上做了很多最佳化,Amazon 等還沒有看到因此做出的改變,還是按照既定的計劃做,目前是一個共存的狀態。開源和閉源模型並不矛盾,高校和小 lab 應該會優先選擇 DeepSeek,不會對雲廠商有競爭,因為雲廠商對開源、閉源都是支援的,生態不會改變,目前也是共存狀態。DeepSeek 在 tool use 等上面還沒有像 Anthropic 這麼成熟,以及後者已經花了很多時間在 AI 安全上,DeepSeek 如果長期希望得到歐美市場的認可,是需要考慮的。
78. 開源對整個市場的 margin 是有控制的,如果開源能做到閉源的 95%,那如果閉源太貴,那完全就可以用開源來做,如果開源和閉源能力差不多,那對閉源是一個很大的挑戰。
13
DeepSeek出圈的影響
“比技術更重要的是願景”
79. DeepSeek 的出圈讓外界意識到了中國的 AI 很強。以前外界認為中國的 AI 進展落後美國兩年,但 DeepSeek 表明其實差距在 3-9 個月,甚至某些方面更強。
80. 歷史上中國被美國封鎖的東西,如果能被突破的話最終都會很卷,AI 可能也是,DeepSeek能跑出來就是一個證明。
81. DeepSeek 不是突然爆發的,這次 R1 結果很漂亮,觸及到了美國從上到下的核心圈。
82. DeepSeek 是站在巨人的肩膀上,但探索前沿需要的時間和人力成本還是要高很多,R1 並不代表以後的訓練成本會同時降低。
83. AI 探索者一定是需要更多算力的,中國作為追趕者可以發揮在工程能力上的優勢。中國的大模型團隊怎麼用較少的算力做出成果,從而有一定的抵禦能力、甚至做的更好,可能是未來中美 AI 格局的推演。
84. 中國今天還是在復現技術方案,reasoning 是 OpenAI 在 o1 提出的,所以接下來各個 AI labs 之間的差距在於誰能提出下一個 reasoning。無限長度的 reasoning 可能是一個願景。
85. 不同 AI labs 的模型之間的核心差別在於 AI labs 本身的下一個願景是什麼,而不是技術。
86. 畢竟,比技術更重要的是願景。
(本文觀點僅供行業研究參考,不作為投資依據)
本文作者 張小珺 ,首發於公眾號“騰訊科技”(ID:qqtech),歡迎關注。
加經濟學人小助手為好友,
加入微信群,建立更深度的閱讀連線。
▼ 經濟學人小助手 ▼

