

一期長達5小時的播客,究竟誰在聽?MIT人工智慧研究員、知名播客主持人及科技傳播者Lex Fridman的對談節目《Lex Fridman Podcast》近期推出了有關DeepSeek的一期內容:
“DeepSeek,China,OpenAI,NVIDIA,xAI,TSMC,Stargate, and AI Megaclusters|Lex Fridman Podcast”。
截至3月7日,這一期節目在YouTube上獲得了178萬播放量和2.5萬like(點贊),對DeepSeek所代表的AI大模型革新的解讀,獲得了大量科技界、商界從業者的關注。

LexFridman是MIT人工智慧研究員,生於俄羅斯,後移民美國,擁有計算機科學博士學位,研究方向為深度學習和自動駕駛。在他的播客中多次提到自己的老本行AI深度學習業的近況。
此前Lex Fridman大部分節目都只有一位嘉賓,本期節目卻邀請了兩位,分別是Dylan Patel和Nathan Lambert。Dylan Patel是半導體、GPU、CPU和通用AI硬體的知名研究分析公司SemiAnalysis的首席分析師,Nathan Lambert則是Allen人工智慧研究所的研究科學家,自己也擁有一個以AI為主題的部落格Interconnects。
那麼,這期講述DeepSeek的為時5小時的播客,講了哪些要素?
我們特意請Deepseek自己總結了一下:
本期播客內容本身非常技術化,涉及AI模型的架構、訓練成本、開源與閉源模型、地緣政治因素,以及半導體產業的現狀和未來。
播客中提到了DeepSeek推出的V3和R1模型,特別是R1作為推理模型的特點,比如能夠展示推理的思維鏈,而不僅僅是最終答案。這可能是技術上的一個亮點,因為它提高了模型的可解釋性。
接著,關於開源與閉源的討論,DeepSeek的開源策略被認為對行業有積極影響,可能迫使其他公司更加開放。同時提到了開源在AI發展中的作用,以及不同許可證對商業應用的影響。
此外,播客還涉及AGI(通用人工智慧)的時間表預測,以及不同專家對未來發展的看法。
最後,關於計算叢集的建設和能源消耗的問題,討論了各大公司(如OpenAI、Meta)如何構建大規模GPU叢集,以及這些叢集對電力基礎設施的挑戰。
其中的亮點部分集中在DeepSeek技術上的創新(如DeepSeek的推理模型)、開源策略的影響、地緣政治對技術發展的制約、半導體產業的競爭格局,以及AGI發展的前景和挑戰。同時還提到了一些具體技術細節,如混合專家模型(MoE)、多頭潛在注意力(MLA)等,以及這些技術如何提升模型效率和效能。
展開來看的話,節目裡提到了哪些重要資訊?
首先,幾位嘉賓最先討論的問題是:DeepSeek與OpenAI目前的模型究竟區別在哪?而DeepSeek-V3與DeepSeek-R1兩款同宗同源的模型又相差幾何?

OpenAI所推出的o3-mini是OpenAI於2025年1月31日釋出的推理模型,主要面向開發者,支援函式呼叫、結構化輸出和開發者訊息等功能。DeepSeek-V3和DeepSeek-R1,其中後者近期在中國各行業中被廣泛採用。DeepSeek-R1與o3-mini,前者可能提供完整的推理思維鏈,而後者大多隻提供推理摘要;前者是開源,後者並非開源。
為了方便理解,Nathan Lambert引入了概念“語言訓練模型中的預訓練和後訓練”,OpenAI與DeepSeek的預訓練都使用了大規模網際網路文字預訓練方式,在後訓練方面,DeepSeek的Base版本進行了兩種不同的後訓練,得到了DeepSeek-V3推理模型。此後DeepSeek在此基礎上,又採用了新的推理訓練方法,才得到了DeepSeek-R1模型。
R1的R代表Reasoning(推理),人們提問時,DeepSeek-V3會快速生成token,這些token會組合成易於理解的人類語言答案。而DeepSeek-R1在生成答案之前,會以token的形式快速解釋、分解問題。

第二,播客中也提到了一個重要概念:開源權重。“開源權重”是指語言模型的權重資料在網際網路上公開,供人下載。這些權重資料可能附帶不同的許可證,因為即使是相似的模型,也可能採用不同的許可條款。完全開源包括開原始碼、開源資料和開源權重,儘管DeepSeek並沒有開源前兩者,但已經在引領整個行業走向開源路線了。Lex Fridman點評DeepSeek為“資訊披露方面做得非常出色,技術報告質量很高,內容詳實,而非泛泛而談”。
第三,節目中還討論了一個備受關注的問題“以如今的AI模型的發展境況來看,它的最佳應用場景會是什麼”。
Nathan Lambert認為,早期的語言模型在數學和程式碼能力方面表現較弱,需要聘請數學和程式設計專家來編寫高質量的問答資料,但如今AI模型在編寫高質量的數學和程式碼答案方面已經超越了人類,而且它開始表現出類似人類的思考過程。它會披露諸如“讓我想想”“讓我檢查一下”“哦,這裡可能有個錯誤”這些思考過程,這將使人類在推理模型訓練中的作用進一步降低。
Dylan Patel提出了自己的觀點,數學方面可驗證的任務相對有限,但是在程式設計方面還有很大的提升空間。真正的“頓悟時刻”可能會出現在計算機使用或機器人技術領域。一旦AI模型將能夠完成更復雜的任務,例如去某個眾包平臺完成任務,並且以獲得大量點贊作為自己的正反饋模式,那麼就相當於一個能夠進行無數次試錯的機器,前途無量。
此外,如何客觀地去看待DeepSeek目前的能力水平?嘉賓們還小小地“八卦”了一下——透過和行業資料的對比,嘉賓們得出了以下結論:
1)人才配備:例如,節目中,三位科學家對於DeepSeek的人才配備稱讚不已,他們認為,為了實現超高效訓練,DeepSeek能夠在NVIDIA晶片的CUDA層(Compute Unified Device Architecture,計算統一裝置架構)或更底層進行了最佳化,具備這種能力的人才是絕對頂尖人才,即使在美國的前沿實驗室也確實不多。
2)商業前景:DeepSeek的盈利能力不容小覷,GPU(圖形處理單元)的數量和計算能力決定了訓練時間和成本,擁有更多GPU,就可以支撐更多企業客戶。DeepSeek在2021年就擁有10,000個GPU,Dylan Patel所在的機構SemiAnalysis猜測,它所實際擁有的GPU數量可能接近50,000個。
3)成本:不僅實現了高產能,DeepSeek還真正做到了低成本。DeepSeek-R1的輸出token價格是大約2美元/每百萬個token,而OpenAI-o1是大約60美元/每百萬個token,差別巨大。

探討DeepSeek之餘,幾位嘉賓無法掩飾對於創始人梁文鋒的喜愛。他們形容他為一個“像Elon Musk、黃仁勳式的人物,事必躬親,參與公司的方方面面”,Lex Fridman表示,自己最近剛請了一位中文翻譯,希望有機會能夠與梁文鋒對談。
節目裡還提及了一個AI界非常著名的概念或方法論:YOLO,You Only Live Once(你只活一次)。在大規模訓練前,研究人員需要反覆試驗不同的模型架構、超引數、專家模型配置等等,當實驗積累到一定程度,他們會選擇一個最優或最有潛力的配置,“拿出所有的資源,選擇認為最靠譜的配置,然後全力以赴,衝啊”的方式開始衝刺。
“YOLO執行”與all in異曲同工,背後都有拼盡全力賭一把的含義。對於科學家們來說,“賭一把”仍是他們難以避免的方法論。在三位大牛的對談中,談到了“YOLO執行”的兩類研究人員的不同偏好,一類人員重視方法論,會系統地探索整個搜尋空間,分析不同配置的消融結果,力求找到最佳方案。而另一些研究人員則更依賴直覺,去感受YOLO執行的最佳時期。畢竟科學家也是人,三位主播最後打趣道,在很多情況下,運氣也是一種技能。
最後,一個被重點談論的話題是:AGI(通用人工智慧Artificial General Intelligence)時代何時會到來?
在很多AI公司的CEO宣稱AGI會在2027-2028年很快到來的時候,節目嘉賓們反而認為,AGI的到來會在2030年之後。他們的顧慮在於AGI的實際運營成本極其高昂,在經濟上是不可行的。GPT-3級別的AI模型查詢的成本可能只有幾美分,但解決一個複雜的AGI問題的成本可能高達5到20美元,因此難以整合到每一次谷歌搜尋中,也就很難在短期直接大規模部署,做不到人們理想中的“彈指一揮間”。
*頭圖及封面圖來源於“ivy”

往期回顧







