與00後開源者聊DeepSeek開源周:一直開源最強模型,可能是不想賺錢,也可能是想推動更大變化丨開源對話#2

“當 AI 足夠強大後,開源還是不是一個好選擇?”
整理丨劉倩 程曼祺
嘉賓丨美國西北大學 MLL Lab 博士王子涵
▲掃描上圖中的二維碼,可收聽播客。《晚點聊 LateTalk》#102 期節目。歡迎在小宇宙、喜馬拉雅、蘋果 Podcast 等渠道關注、收聽我們。
《晚點聊 LateTalk》是《晚點 LatePost》 推出的播客節目。“最一手的商業、科技訪談,最真實的從業者思考。”
這是《晚點 LatePost》 「開源對話」系列的第 2 篇。該系列將收錄與開源相關的訪談與討論。系列文章見文末的合集#開源對話。
上週五,DeepSeek 在官方 Twitter 上預告了下一週會連續 5 天開源 5 個程式碼庫,進入 “open-source week”開源周。
目前 DeepSeek 已放出的 4 個庫,主要涉及 DeepSeek-V3/R1 相關的訓練與推理程式碼這是比釋出技術報告和開源模型權重更深度的開源。有了訓練和推理工具,開發者才能更好地在自己的系統裡,實現 DeepSeek 系列模型的高效表現。
(注:所有 4 個庫和後續開源可見 DeepSeek GitHub 中的 Open-Infra-Index。地址:GitHub – deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI d)
《晚點聊》在本週一邀請了一位 DeepSeek 前實習生,正在美國西北大學 MLL lab 攻讀博士學位的王子涵,與我們一起聊 DeepSeek 開源周和更廣泛的大模型開源。
王子涵今年剛博一,本科畢業於人大高瓴人工智慧學院,大四時(2024 年)曾在 DeepSeek 實習半年,今年暑假即將前往一家美國 AI Agent 創業公司 Yutori 實習。他自己也做過多個開源專案。
開源的 DeepSeek 在今年春節爆火出圈,使開源正成為一種趨勢:之前一直模型閉源的一些公司,現在陸續釋出了自己的第一批開源模型。甚至 OpenAI CEO Sam Atlman 都說:“不開源,我們是站在了歷史錯誤一邊。”
這期播客實錄也會收錄在晚點「開源對話」系列。今天我們一次推送了兩篇。第一篇的對談嘉賓,章文嵩在 1998 年開始開源 Linux 系統重要元件,本篇的嘉賓王子涵則是 00 後。
貢獻者在代際更替,程式語言在推陳出新,開源物件也從軟體變成模型系統。而這裡也有一些不變的東西。
以下是播客實錄,我們做了文字精簡。
*我們也製作了本期播客中投屏 “逛 GitHub” 的影片,文末可見。
“適配開源花了我一週多,一週我能跑模型,能做很多實驗,能幹很多事!”
  • 花在開源的時間也能用來強化演算法,這背後是一個優先順序選擇問題。
  • 當閉源的公司轉向開源,非常需要額外人力支援。
晚點:子涵,可以先和我們的聽友簡單介紹一下自己?
王子涵:我目前在美國西北大學 MLL Lab 攻讀博士學位。我的研究方向主要包括智慧體決策(Agent Reasoning)、大語言模型等,近期也在探索長文字與效率增強( Efficiency Enhancement)的相關課題。我的導師李曼玲老師曾在斯坦福大學李飛飛和吳佳俊組裡從事博士後研究,所以我們課題組的部分工作也涉及多模態建模與機器人(Robotics)。
再之前,我本科畢業於中國人民大學高瓴人工智慧學院,去年曾在 DeepSeek 公司實習半年,接下來暑假會繼續做 Agent,去一家 AI Agent 創業公司 Yutori 實習。
晚點:你之前的工作裡,哪些和開源比較相關的?
王子涵:我大部分工作都開源了。其實我最早參與且比較出名的,是 2023 年暑研在季姮教授團隊開展的 Agent 相關研究,我們大概是二月份左右開始做,最後構造了一個測試 Agent 能力的 Benchmark MINT,在當時做 Agent 是一個比較超前的選擇。這是第一個影響力比較大的開源工作。
我也參與了 DeepSeek-V2 的研發,不過不是核心的貢獻者,現在正在做用 DeepSeek-R1 相關技術結合 Agent 的開源專案 RAGEN,之後也會發一個正式的技術報告。
晚點:大模型涉及訓練、推理、資料很多環節,現在當我們說一個大模型 “開源” 模型時,具體是哪部分在開源呢?
王子涵:模型開源有不同的層次。第一,當然必須有技術報告。DeepSeek 的技術報告就是一個把所有東西都講得很清楚的示範。
其中 V3 是最詳細的,真的是所有人都會去貢獻,技術組幾乎每個人都去寫程式碼,都去想辦法驗證自己的 idea。
晚點:你剛剛在投屏上翻到了 V3 報告的貢獻者部分,我正好看到了梁文鋒的名字。
王子涵:對,我們會覺得團隊裡每個人都有貢獻。其實不止有梁老闆的名字,還有資料標註、Business(商務)這些。你只要在這個團隊裡,都會出貢獻的。
而且 V3 (的報告)這麼細,也因為它是一個基座模型(Base Model),包括預訓練、微調、資料等一系列工作,工作量非常大,因此出一份 50 多頁的報告不足為奇。
而 R1 是基於 V3,在上面迭代出了一套強化學習方法。R1 的技術報告,把強化學習講清楚,就是一個非常好的報告了。
晚點:也分享一個我對 DeepSeek 爆火的傳播路徑的觀察——這次 R1 全民出圈,影響力不侷限於 AI 領域,很重要的基礎就是 V3。V3 的詳細報告,幫助 DeepSeek 在全球核心 AI 圈層裡植入了一個印象:這是一家紮實,願意開源貢獻社群,讓人尊敬、好奇的機構。
王子涵:其實 DeepSeek 去年並不出圈。而今年大家注意到它之後,再去看之前的報告,發現每一個都非常詳細,寫得非常好。
這就是開源的關鍵第一步:要有一個很好的報告,記錄你到底做了什麼事;它要服務於讀者,讓讀者能由高到低,由淺入深地理解你的技術。
晚點:那開源的下一步呢?只有技術報告應該不是現在慣常說的開源大模型。
王子涵:還有就是開源模型權重。模型權重一般在 HuggingFace 上下載,比如進入一個模型的頁面,點 “use this model”,然後可以選不同的 Library,你可以用 Transformers Library,也可以用 vLLM。
Transformers 不僅是一個開源推理框架,也是一個訓練框架,由 HuggingFace 維護。vLLM 是一個開源推理框架。
這就來到大模型開源的更深層次,就是開源推理與訓練的程式碼,或者說推理與訓練框架。
這裡我介紹兩個開源的推理框架,一個是 vLLM,它是最廣為人知的推理框架之一,它在 GitHub 上的 “星”(star)快 4 萬了,Issues(其他開發者的提問)有幾千,Pull Requests(大家對這個程式碼庫的程式碼修改)也有好幾百,生態做得比較好。
晚點:vLLM 是誰在維護,背後有一個公司之類的主體嗎?
王子涵:最開始是伯克利、斯坦福的一群人,是基於他們發的 PagedAttention 那篇論文。當然現在貢獻者就很多了,已經有 800 多人了。
vLLM 有 840 多位貢獻者。提出 PagedAttention 的那篇論文是 Efficient Memory Management for Large Language Model Serving with PagedAttention。
另一個比較新的開源推理框架庫是 SGLang,貢獻者也很多。相比 vLLM,SGLang 跟潮流更緊,比如 DeepSeek-R1 出來後,他們第一時間就說支援 R1 的程式碼。這兩個庫各有特點,有一些不同的最佳化方向。
晚點:有公司做的、比較好的推理或訓練框架嗎?
王子涵:大部分公司會開源技術報告和模型權重,開源推理框架的比較少,開源訓練框架的更少。
位元組其實開源了一個訓練框架 Verl(Volcano Engine Reinforcement Learning for LLMs)。我在做 RAGEN 時就用了 Verl,它能比較好地支援強化學習,比如 PPO 演算法、分散式並行策略,如 FSDP 等。這套框架陪我度過了一些時期。
晚點:為什麼比較少公司願意開源訓練框架?
王子涵:因為涉及的工作非常複雜。比如在公司裡內部開發,可能不會那麼在意程式碼規範,但要開源就要寫得很清楚。
晚點:剛才說了技術報告、模型權重、推理框架、訓練框架,那大模型資料集的開源是什麼現狀?
王子涵:幾乎沒有公司開源資料集。因為資料會比較敏感。比如在網上爬公共資料時可能包含了個人隱私或版權內容,開源後容易引發爭議。
多數公司在技術報告裡會提到資料混合比例,但不會放原始資料。這不完全是大家沒能力或沒意願,主要還是安全性考慮。
晚點:DeepSeek 的開源涉及上述部分的哪些?
王子涵:除了資料集,應該都開源了。
晚點:訓練框架也開源了?
王子涵:對,逐漸在開一些,但第一個開的應該是我當時做的 ESFT,就是 Expert-Specialized Fine-Tuning(專家專用微調)。
在混合專家模型(MoE)中有不同的專家,每個專家各有特點,和不同的任務有親和性,也就是在某個任務下,某些專家的啟用會更明顯。
我們當時就想,能不能利用這個特性做更高效的模型微調,只微調和某個任務更相關的專家,其它的不調。這能減少計算資源,也能讓 “專業的人做專業的事”,提高模型泛化能力。
晚點:一個大模型工作要從閉源轉向開源,需要額外付出哪些努力和成本?你已經提到的是要規範程式碼,還有其它嗎?
王子涵:主要是規範程式碼。再就是要讓開源的這部分框架適配外部已經開源的整體框架。
因為當時他們(DeepSeek)暫時沒有開源整個大基礎庫的打算,而我編寫的程式碼都是基於這個大的庫,那就需要用已經開源的框架再寫一遍,讓社群更好用起來。
當時做 ESFT 時,規範程式碼花了很久,大概一週多;適配開源的庫花了兩三天。
晚點:在 AI 研究者的維度裡,一週多算很久嗎?
王子涵:挺久了!一週多我能跑模型,能做很多實驗,能幹很多事。
這是一個優先順序的問題。當你覺得自己的演算法很有前景時,你當然會想先最佳化演算法本身;但如果你覺得開源給社群用起來更重要,那做好開源的這些配套工作的優先順序就更高。
晚點:所以當一些本來閉源的公司去開源模型或之後去開源更多框架,其實是需要額外的人力支援的?
王子涵:非常需要!而且很多公司正因為在開源上積澱比較少,就更需要下功夫。比如開源要怎麼把程式碼寫規範,這是沒有一個系統教育的事。我在美國和一些人合作,有時也會發現 idea 很好,但程式碼細節看了比較難受。
晚點:也做很多開源工作的阿里就有專門的 “程式碼規約” 的工程,就是統一阿里程式設計師的程式設計習慣和格式,比如一個地方到底應該是兩個空格,還是四個空格。這樣在一個機構裡大家才好溝通,新人也好接手老人的工作。
“DeepSeek FlashMLA 最佳化到了運算元,去年我失敗的線上訓練想法敗於不會改運算元”
  • 一些看似簡單的操作,卻需要很大努力才能做到工程實現。
晚點:Deepseek 上週釋放的開源周主要資訊:一是在 Twitter 上釋出的預告,說要開源 “small but sincere”(小而誠摯)的工作;二是同一天在 GitHub 上釋出了首個與開源周相關的庫(Repo)是 “open-Infra-index”(GitHub 地址:),即開源基礎設施指引。
從這些預告還有他們今天已放出來的 FlashMLA 這第一個程式碼庫,你看到了什麼亮點?你覺得這一整週裡,Deepseek 可能會連續開源哪些內容?
DeepSeek 在 2 月 21 日釋出的 “開源周” 預告。
王子涵:他們內部其實有一套模型訓練和推理的框架。以 FlashMLA 為例,它算是一個推理加速的工具。DeepSeek 也有可能去開源 DeepSeek-V2、V3 或 R1 的訓練和推理框架。(此後幾天確實開源了相關工作。)
晚點:MLA 是 Deepseek-V2 裡的一個創新點,FlashMLA 是用來提升 MLA 的效率?
王子涵:其實 DeepSeek 很多創新的目標都是提高效率,幾乎每一個都是。以 V3 為例,有三項主要創新點:一是採用了 Meta 的 multi-token prediction(多令牌預測),模型能一次輸出兩個 token(之前是一次輸出 1 個)。
二是低精度訓練,即用更小的位元來儲存資料,達成差不多的訓練效果,這也是效率提升。(注:DeepSeek-V3 訓練時大規模使用了 FP8 這種低精度、但高效率的資料格式,再結合一些別的資料格式做了混合精度訓練)
三是和模型並行相關的。在執行流水線並行時,會出現較多 “空泡” 現象,比如要先進行前向計算,再進行反向計算,模型的不同層可能是閒置的,沒在處理任何向量。此前採用的策略是模型的第一層在處理完第一個 Tensor(張量) 後,將其傳遞給第二層,同時第一層開始處理第二個 Tensor,持續推進流水線並行。Deepseek 在這個流程中進一步最佳化,減少了閒置的塊的數量。所以我覺得它的每項創新都挺追求效率。
(注:MLA 是多層注意力機制,能增強模型對複雜模式的捕獲能力。
Pipeline Parallelism(PP)流水線並行,是將模型的不同層(layer)按順序分配到不同裝置上的方法,能提高裝置利用率。
前向(Forward)計算:根據輸入資料和模型引數,計算輸出結果的過程。
後向(Backward)計算:根據輸出結果和損失函式,計算模型引數的梯度以更新引數的過程。)
晚點:你覺得 FlashMLA 的開源,對社群中哪類開發者最有價值?
王子涵:對每一類開發者都挺有幫助。FlashMLA,有人會注意到 MLA,也有很多人注意到它是 Flash,就是它對系統做了一些底層最佳化,應該是寫了很多運算元。而很多開發者不會做到這一層。
之前 FlahsAttention 就是做了系統最佳化。它和標準 Attention(注意力機制)都是在做相同的矩陣運算,但系統層運算元最佳化能讓它算得更快。
晚點:就是說,即使計算方式一樣,但可以透過系統最佳化,讓 GPU 等硬體發揮出更高的效率?
王子涵:對。以矩陣乘法為例,常規思路是逐個計算。但因為 GPU 可以平行計算。那在運算過程中,如果能以 GPU “更能聽懂” 的方式去給指令,就能顯著提升運算效率。
比如可以合併運算——利用加法結合律、乘法結合律、加法交換律等數方式調整運算順序,最終運算效率可能會不同。
FlashAttention 是一個很經典的例子。Attention 計算過程中,原本包含多種不同運算,FlashAttention 給它合併為一種運算,然後在 GPU 中一次性完成。
因為 GPU 其實有好幾層。簡單理解,最裡面那一層最小、但算得最快,外面有層比較大,能裝更多東西,但算得沒那麼快。實際計算過程,就是把外層一個大矩陣一批批送進去裡面操作,這個運送是比較慢的。如果能只送一次,在裡面做完多種操作再送出來,就會比較快。
晚點:你提到多數開發者不會做運算元最佳化,而 DeepSeek 自己會寫很多運算元,這是能力的差異還是意願的差異?
王子涵:在我看來是能力差異,我自己就不太會寫。
我去年有一個失敗的專案,是想讓大語言模型做線上訓練(Online Training)。此前,語言模型都是離線訓練(Offline Training)的,就是用得到的資料,再用資料裡的獎勵訊號去訓練模型。
我們當時想讓語言模型能即時生成資料,然後透過環境或一個獎勵模型給出反饋,評判資料好壞,再進一步去訓練模型。當時我們認為這個過程很簡單:模型生成資料→獲得反饋→更新模型→繼續生成新資料。
然而在編寫程式碼時遇到了難題。寫程式碼有兩個方法,一是用當時比較厲害的推理框架,但我們不太會改那個框架,它寫到了運算元層的最佳化,我們也看不太懂,相當於這個模型就 “固定” 了,你不能一邊讓它生成東西,一邊更新模型。
還有一種方式就是我們自己去寫推理框架,但是真的沒能力做這個事。我們要寫一個能生成得很快,又能相容模型更新的庫,很難。
我講這個例子是想說,很多時候一些看似簡單的操作,卻需要很大努力才能做到工程實現。
晚點:雖然 FlashMLA 剛放出來一天,GitHub 上已經有不少社群反饋,有人說想要 FP8 的版本(目前開源的是 BF16 和 FP16 資料格式的版本),有人問何時支援 NPU(一種專用 AI 加速晶片)。可以給大家解釋一下這些開發者的訴求嗎?
王子涵:FP8 就是 DeepSeek-V3 的低精度訓練。FlashMLA 本身是一個最佳化 Attention KV cache 的技術,它如果能和模型精度的改進結合,就會更快。
Deepseek 這次開源 5 個庫後,還有一項比較需要投入精力的工作,就是綜合這 5 個庫,索引只是一部分,另一個可能是合成一個庫,讓開發者能隨心呼叫 5 個庫裡的不同內容。但這個融合過程也可能出 bug,就需要做更多工作。
(注:KV cache 是鍵值快取,Transformer 的 Attention 機制中,每個輸入的 token 會生成對應的鍵(Key,K)和值(Value,V)。K 用於計算 token 間的相關性,而 V 包含了被注意的內容資訊。) 
“一直開源最強模型,可能是不想賺錢,也可能是想推動更大變化”
  • 有多大?最大的是,重構整個行業生態,成為一種行業標準。
  • 而當 AI 足夠強大,開源最強模型也許不再是好的選擇。
晚點:現在也可以觀察到,不同公司有不同的大模型開源策略,比如 DeepSeek 一直是開源自己最強的模型,而有些機構選擇留著最強的模型閉源,開源其它模型。這些差異的背後是什麼?
王子涵:主要和盈利模式與訴求有關。比如有的公司不靠 API 賺錢,它就不需要靠保留最強模型獲得溢價。
第一個可能是,老闆就不想賺錢,要造福社會。
第二個可能是,他想做更大的事。有多大?最大的是,重構整個行業生態,比如成為一種行業標準。
美國的一個機構 Ai2(Allen AI 研究所,由已故微軟聯創保羅·艾倫創立的一個非盈利性研究機構)就開源了自己最強的模型,它根本不賺錢,它還極罕見地開源了資料集。
還有一個模型叫 Pythia 也開源了資料集,來自 EleutherAI(另一家美國非營利性 AI 機構)。Pythia 特別開,它怕開發者承擔獨自訓練的風險,把中間數個 chekpoint(模型訓練中的檢查點)的模型權重也開源了,從第 0 步到 1000 步每步都給了權重,之後是每 1000 步。保姆式開源!
那另一方面,如果有些公司它需要 API 訂閱費的收入,又想造福社群,它就會選擇開源不涉及當前階段商業核心的模型,維持競爭優勢,比如開源一個小一點的模型。
晚點:你覺得今年我們會看到 OpenAI 開源最強的模型嗎?
王子涵:不太確定。我很期待他們的開源計劃。
晚點:Sam Altman 在 Twitter 發起投票,給了兩個開源選項,一是 o3-mini,一是手機端可用的模型(phone-sized model)。你更期待開源哪個?
2 月 18 日,Sam Altman 發起開源專案投票。
王子涵:開哪個都很好,都會幫到一撥人。但我覺得不開源也有 make sense 的地方。
我一直在構想一個場景,如果以後大語言模型或者說這套 AI 足夠強後,開源還是不是一個好選擇?我的直覺是,到時不開源最強模型,只開比較小的模型更有道理。因為開源最強模型,很難防止有人去用它做壞事。
我有一次 Twitter 賬號被黑了,就是因為有一個人用大語言模型訓了一個 Agent,到處以不同姿態給人發 Twitter 邀請,最終目的就是讓你覺得它特別靠譜,然後去點選某個連結,他黑了別人的賬號後,就去發廣告。
未來模型更強了,還可以做更壞的事,比如註冊 100 個小號去網路暴力,那就麻煩了。
晚點:這我想到前幾天看真格戴雨森分享的一句 Ilya 的話:如果你把智慧看得比人類的其他所有品質都重要,那你將會度過一段艱難的日子。(If you value intelligence above all other human qualities, you’re gonna have a bad time.)這是 Ilya 2023 年和 Altman 有分歧時發的 Twitter。
王子涵:對,不要太捲了。其實當我們有了這麼強的 AI,人會懷疑自己存在的價值。
不過我覺得人的價值本來就不在於智力。人其實不需要有什麼價值,就像你去一個新遊戲註冊賬號,成為了一個新玩家,別人問你能為遊戲帶來什麼,你說我帶來了一個新玩家(指自己的存在本身)。
圍棋那群人已經經歷了這個過程:從抗拒 AI 到加入 AI,到最後把它當成娛樂——我知道 AI 這塊已經比人強了,我就不去正面衝突,我去學習它。
沒必要比誰智力高,人有時真比不過 AI,那就享受它吧。
一起逛開源:怎麼看一個專案的社群活躍度?
以下是播客中的一段視訊會議投屏錄影,我們加了字幕以方便理解。
這部分,王子涵帶著我們逛了開源社群 GitHub 和 HuggingFace,我們看了 DeepSeek、位元組 Verl、vLLM、SGLang 等多個專案的頁面,也看了在 HuggingFace 上下載開源模型權重的方式。
開源社群是一個開發者們分享、交流、爭論,最後以程式碼為行動的場所。就像 DeepSeek 開源周預告裡所寫:
“沒有象牙塔,只有純粹的車庫文化和社群驅動的創新。”
No ivory towers, just pure garage-energy and community-driven innovations.
這是《晚點 LatePost》 「開源對話」系列的第 2 篇。該系列將收錄與開源相關的訪談與討論。系列文章見文末的合集#開源對話。
題圖來源:《頭號玩家》
·  FIN  ·


相關文章