
“真正的大模型開源,應該把資料集也開源。”
文丨賀乾明
編輯丨宋瑋
過去兩個月,DeepSeek 重塑全球大模型格局,也扭轉了整個行業對開源的理解。
OpenAI 反思走向閉源是 “站在歷史錯誤的一邊”,百度、MiniMax、階躍星辰等原本閉源的公司轉向開源。
“如果在以前,一個拿幾億美金融資的公司說自己要開源,估計投資人會吐血。” 一位科技投資人說。
DeepSeek 還在加大開源力度。這周,DeepSeek 計劃開源 5 個訓練、推理大模型相關的程式碼庫——而大多數開源模型的公司還停留在開放模型權重層面。
到底該怎麼看待 DeepSeek 的開源?它對大模型開源社群意味著什麼?為什麼不同公司選擇不同的開源策略?選擇開源對一家商業公司到底意味著什麼?
近期,我們訪談了中國開源先驅章文嵩。他 1995 年讀碩士期間接觸到開源,那時中國剛通網際網路不久,不少 DeepSeek 的研究者還沒有出生。
1998 年,章文嵩在國防科大讀博期間開源了 LVS(Linux 虛擬伺服器)軟體,這個均衡伺服器訪問流量、避免宕機的系統,是中國最早在全球科技行業擴散的開源專案,如今是網際網路基礎設施的元件。
“幾乎所有的網際網路公司都在用,包括 Google。” 章文嵩說,“大家每天用手機上網,在資料中心那一側的請求,大部分可能都要經過 LVS 的排程”。
他認同 DeepSeek 的崛起是 “開源對閉源的勝利”,因為開源會降低創新應用成本,建立生態,可能會形成一些 “事實標準”。
他也提出了一個更激進的主張——“真正的大模型開源,應該把訓練資料集也開源”。
相對於開源大模型權重、訓練框架程式碼,這是更徹底的開源。非營利機構 AI2 釋出大模型系列 OLMo 時,就把開源推進到這個層次,但模型效能有限。
在章文嵩的設想中,這個開源資料集要像維基百科一樣,非營利機構牽頭,數百萬志願者貢獻資料,開源共建預訓練的資料集,“這是全人類的知識寶庫”,大模型服務可以由營利機構和非營利機構提供。
“OpenAI 並沒有把全世界的資料收集全,遠遠沒有。” 他引用了一個研究——將 Llama、 Mistral 和 Qwen 等開源模型串接起來,評測中的表現竟然比 GPT-4o 高出近十個百分點。他說,這證明開源訓練資料集的潛力,“閉源模型收集的資料維度有限,這是他們面臨的挑戰。”
章文嵩不僅是中國開源的先行者,也是推動中國開源從零星個人貢獻到網際網路公司主導的關鍵人物。他 2009 年加入阿里,工作近 7 年,曾擔任阿里雲 CTO、阿里開源委員會主席,從 0 到 1 建立了阿里的開源策略。後來,章文嵩曾在滴滴工作 5 年,擔任高階副總裁,同樣推動了滴滴的技術開源。
“真正的大模型開源,應該把資料集也開源”
晚點:DeepSeek 的新模型釋出時,Meta 的 AI 首席科學家 LeCun 說,這是 “開源對閉源” 的勝利。你認同嗎?
章文嵩:當然認同。我一直覺得開源的大模型遲早會超越閉源的大模型。開源讓創新的應用成本變得很低,同時,透過開源,可以構建一個生態,可能會形成一些事實標準。
晚點:那現在到了 “勝利” 的時刻嗎?
章文嵩:我覺得真正的大模型開源,應該把訓練(資料)集也開源。大語言模型的通用知識應該為全人類共享,就像維基百科一樣,數百萬人貢獻資料,開源共建預訓練的資料集,為全世界全人類服務,大模型服務可以由營利機構和非營利機構提供。
晚點:接下來會沿著這個方向演進嗎?
章文嵩:那我不知道(此處笑了約 5 秒)。
大概半年前(2024 年 6 月),美國做 AI Infra 的公司 Together AI 發了一篇文章,把幾個開源模型串接起來,像 Llama,然後法國人開源的 Mistral,國內的 Qwen(阿里通義千問)等去做評測集(評估大模型能力的基準測試),結果好於 GPT-4o 大概將近十個百分點,讓人挺驚訝。
這說明這些開源模型訓練資料集的並集,比 OpenAI 的 GPT-4o 訓練集更豐富。如果不是更豐富,達不到這樣的效果。
所以,OpenAI 並沒有把全世界的資料已經收集全了,我覺得遠遠沒有。這是閉源的挑戰,他們收集的資料、維度都有限。
晚點:你之前在一篇文章中寫過,基礎軟體開源,一個重要的好處是能讓軟體得到擴充套件與改進。但大模型的開源似乎提升不了模型本身的能力。
章文嵩:對。目前來看,模型的能力主要還是看資料工程,就是訓練集的質量。
所以我覺得應該有一家非營利機構,用開源的方式來組織訓練的資料集,大家一起做貢獻,就像全人類的知識寶庫一樣,為全人類共享。
晚點:模型能力主要看訓練資料集的話,那採用閉源策略的公司,就可以用開源的資料集疊加自己的資料集,訓練更強的模型,那閉源模型會一直勝利?
章文嵩:我們可以在許可證(License)上做文章。
Linux 為什麼強大?那是因為選了 GPL 許可證(允許使用者自由使用、研究、修改和分享軟體,但用了 GPL 軟體的作品,必須以 GPL 許可證開源)。
2000 年前後,作業系統有很多選擇,開源的還有 BSD(一種類 Unix 開源作業系統),但它的 License 特別寬鬆。蘋果的 iOS、Cisco 的 iOS 都是在 BSD 上面做的,但沒怎麼回饋開源專案,對 BSD 生態發展很不利。Linux 的 GPL 許可證就要求,你在上面做改進,要回饋回來。
比如我規定這個開源訓練集許可證,是類似 GPL 的傳染許可證。如果豆包拿去用,對不起,豆包也必須把訓練資料集開源出來。
非營利機構也可以說,如果要用我的(資料集),你要宣告,要付費,也可以根據訪問量付費,方式可以多種多樣。
晚點:但資料集都在模型裡面,很多作家的作品被模型廠商拿去訓練模型,他們也沒辦法證明模型一定用了。
章文嵩:舉證也比較簡單,構建這個訓練資料集時,可以在裡面加 “指紋”,特定提示詞丟擲來,模型回答十分接近,就可以說用了資料集,就有可能限制他們。
晚點:你覺得 DeepSeek 什麼時候有可能把訓練資料集開源出來?
章文嵩:我不知道。但我覺得 DeepSeek 現在大概有 140、150 位同學,未來可能會更多,肯定也希望商業化成功,不可能一直靠激情做純粹的開源。只有在財務上基本自由後,才能追求終極的開源使命。
晚點:Meta、阿里都開源大模型,但最後是 DeepSeek 拿走了勝利的果實。資源更少的後發者獲得領先身位,在開源社群中常見嗎?
章文嵩:這就是開源生態的魅力。我不需要巨大的資源,也不用從零開始做。開源是共享協作,我可以站在巨人的肩膀上嘗試很多方法,有些可能是有效的。我想 DeepSeek 的 R1 裡面用的強化學習,也是這樣試驗出來的。接下來,也會有人做很多其他嘗試,也有可能找出更好的方法。
DeepSeek 開源的影響力最大,本質是模型效果好,推理成本又低——這是最關鍵的點。所以它的生態建設就是自然而然的事情,才會有更多的人用。
晚點:你怎麼看待 DeepSeek 開源策略成功的意義?
章文嵩:DeepSeek 可以說是目前為止中國最成功的開源專案。這是一個關鍵的時間點。尤其是美國高階晶片禁運的情況下,要怎麼走出一條路?DeepSeek 的啟示很大。
晚點:為什麼在全球先開源領先模型的不是 OpenAI,而是 DeepSeek?
章文嵩:OpenAI 已經走上閉源的道路,不可能回頭的。他拿了那麼多錢,他要實現自己的商業化目標。而且在阿爾特曼的主導下,也不會開源。
晚點:最近阿爾特曼說,“關於開源,他們站在了錯誤的一邊”。你怎麼看這個轉變?
章文嵩:人們對大模型的關注,都到 DeepSeek 上面去了,而不是 OpenAI 的 ChatGPT。所以他必須要跟進。
但他跟進的力度是很有限的,只想把 o3 的 mini,很小的一個小模型版本開源出來。他只是想挽回一些大家的關注度。

晚點:DeepSeek 沒從外部融資,沒有商業化的壓力,是它開源的前提嗎?
章文嵩:他們肯定是有技術追求的,有自己的目標。但商業化有不同的路徑,在開源生態上也可以實現商業化,並不是一定要閉源。
晚點:如果它想繼續開源,有什麼商業化的方式?
章文嵩:過去開源商業化成功的公司有不少。比如 Red Hat,實際上是在 Linux 開源軟體包基礎上打包一個發行版。如果使用者自己安裝,是免費的。如果使用者想節約時間,自動更新,Red Hat 就可以從服務中收到錢,這部分的訂閱費是它最大一塊收入。別的還有技術服務費。
Red Hat 是非常成功的公司,也比較偉大,它做過很多的軟體,包括很多改進,都一概開源出來,並沒有藏著,透過訂閱、技術服務,依舊可以賺到錢。
晚點:既然可以賺到錢,為什麼開源沒有成為中國軟體生態的主流?
章文嵩:我覺得跟整個環境有關係。中國真正做軟體的公司相對比較少,不像我們的網際網路公司規模都很大。很多企業,就是軟體的採購者,比較強勢,有很多定製化需求,交付成本很高,導致國內沒有出非常大規模的軟體企業,更不用說開源了。
當然,中國的工程師隊伍非常龐大,開源力量也越來越強,應該在全世界排名第二。這一點我們並不弱。
晚點:中國的大模型開源會持續下去併成為主流嗎?
章文嵩:我覺得會持續下去。大家已經從 DeepSeek 開源迅速走紅認識到開源的威力。
大模型開源要形成主流,需要多方一起來參與開源,形成生態,很多參與方都能賺到錢,開源生態才會越來越強大,就像 Linux 開源生態一樣。
阿里經驗:公司開源不只是選擇題,要有正反饋
晚點:位元組不開源,阿里部分開源,DeepSeek 全開源。你覺得影響一個公司開源策略的因素是什麼?
章文嵩:可能還是跟商業化相關,看大家的商業化的路徑是什麼。如果追求用獨一無二的 API 呼叫服務收費,可能就會走向閉源,不會開放。如果有些公司覺得,開源生態更強大了,用的人更多了,我只要在裡面取一瓢,就能實現商業化的收入,那就會選擇開源。
比如說,DeepSeek 開源讓更多的企業做私有化部署,會讓 DeepSeek 的影響力越來越強。它自己也可以提供 API 服務,收到一部分錢,因為它是原作者,大家對它的信任度自然就高。如果這個生態足夠大,只拿其中一部分,商業化收益就已經夠了。
晚點:扎克伯格說過,Meta 選擇開源,是因為他們發力晚,沒有先發優勢。中國大模型行業起步相對比較晚,很多公司一開始都是做開源。對於後發的選手,開源是更好的選擇?
章文嵩:我覺得也不能這麼講。Facebook 是美國網際網路巨頭唯一錯過雲計算的。一些在 Facebook 的老朋友說,當時扎克伯格犯了錯誤,他覺得雲計算不應該做。這一波 AI 來了,我覺得他們是想透過開源做生態,看能不能在 AI 服務上做一些業務出來。
晚點:我們也看到很多公司搖擺,比如 OpenAI、Mistral、零一,開源後來又轉成了閉源。
章文嵩:開源沒有形成很好的正反饋,開源的動力就不太足了,這是有可能的。商業化的公司做開源,需要有一些商業化上的正反饋回來。阿里為什麼支援開源,一方面是本身比較開放,另一方面是對阿里雲的業務幫助很大。
晚點:你在阿里工作近 7 年,從淘寶資深技術總監到阿里雲 CTO,也是阿里開源委員會主席。阿里當時為什麼想要開源?
章文嵩:開源實際上是副產品。我是 09 年入職,那時候先是淘寶,在淘寶和技術團隊一起出去做校園招聘。我們經常問同學們:“你們猜猜看淘寶這樣的網站,我們有多少技術人員?”
我們本來想跟同學們互動一下,想讓同學們知道我們技術團隊也挺龐大,有很多挑戰,結果反饋基本上都是 20 個人左右。
實際上那時候淘寶的技術團隊已經有一千多人了。所以外部對我們的瞭解很少,對校園招聘也是一個挑戰。
晚點:那時中國的公司開源並不常見,你怎麼說服高管的?
章文嵩:等 2010 年的時候,我就遊說了吳泳銘,吳媽,說我們做了很多事情,做的東西也不錯,也有技術深度,也有技術挑戰,可以透過開源讓外部更瞭解我們。吳媽就說很好,那你就開始幹。
我們先在我的部門啟動開源。我們做的基礎軟體,有的在生產系統已經用了蠻長時間,也沒有什麼變更。我跟同學們說,就選淘寶的那個快取系統 tair 對外開源,跟 Memcached 類似。然後技術同學馬上反饋說,給我三個月的時間,我們把程式碼好好理一理,再開出來。
工程師還是很在意他們的聲譽。(軟體)放在生產系統上執行,不出 bug,很多時候就可能到此為止了。一旦說把他們的原始碼開源出來,然後把他們的大名署上,他們還是會很在意,因為有別人看他們寫的程式碼。
後來我們陸陸續續把基礎軟體開源出來,得到很多阿里技術人員的響應。
開源對技術人員也有好處。如果你開源了一份程式碼,在業界被大家使用了,大家是可以看到的,在上面積累的知識是長久有價值的。如果你在一家公司做閉源專案,無論在外面怎麼講,大家都看不到你的工作。
我們就建了一個阿里的開源委員會,也有開源流程,工程師所在的團隊主管到部門主管,最後吳媽的減一,他們都要同意,負責智慧財產權的法務律師也要簽字,不是說想開源就開源了。
而且阿里每年搞職級評審,開源做得好是加分項。一個重要指標就是外部貢獻者能佔多少。如果專案外部貢獻者很少,說明生態還沒有形成。
晚點:阿里做大模型走開源路線,跟你當時推進的開源文化有多少關係,它是一種延續嗎?
章文嵩:我覺得應該有關係,往自己臉上貼金(笑)。兩年多前,他們要做魔搭開源社群,向我請教過好幾次怎麼做開源,我也給他們出了一些主意,比如要把 credit 分給大家,我覺得這是凝聚開源社群最關鍵的。當然他們也做的非常好,不定期還有線下的聚會。
晚點:我們看到一種觀點:開源會削弱競爭力,對手可以拿著開源的產品迭代,可能會做得更強。
章文嵩:這是不可避免的。2015 年還有人收集了(京東網站的軟體)報錯資訊,挑戰我,說京東用了阿里開源的 11 款軟體,讓京東的技術進步大大加速。
晚點:你當時怎麼回答的?
章文嵩:針對這個問題,我沒有具體跟他們回答,他們羅列的肯定是事實。但要看到阿里用開源凝聚很多人才,推動了雲計算業務發展。
我跟吳媽說過,淘寶的資料是日積月累的,誰都拿不走。淘寶的軟體,找到合適的人才,賦予足夠長的時間,別人也做得出來。即便別人拿走淘寶的軟體,做了另一個淘寶,上面空空如也,試問大家會在哪個平臺上做交易?
但我們需要用更加開放的方式,讓別人瞭解我們的技術深度,包括我們未來的技術挑戰。因為有挑戰才能吸引更多的人才加入。
晚點:目前接入 DeepSeek 賣 API 服務的主要是大型的雲計算平臺,因為它的模型 6000 多億引數,太大了。這對 DeepSeek 建生態有負面影響嗎?
章文嵩:一些開源生態為什麼會越來越強大?就是開源生態的建設者,或者鏈主,有足夠大的胸懷,允許其他的玩家可以賺到錢。如果你不允許其他玩家賺到錢,那誰願意跟你玩,對吧?
晚點:未來行業發展會是什麼樣的?會形成兩個巨頭?一個開源的巨頭,還有一個閉源的巨頭。
章文嵩:會是多樣的。肯定會有巨頭,也有中等規模的玩家,開源的也會存在。假設訓練資料集也開源了,開源的那個巨頭可能就是非營利的,就像維基百科一樣。
30 年開源人生,成就感比賺錢更重要
晚點:1998 年,你還在讀博,就開發了知名的開源專案 LVS (Linux Virtual Server,虛擬的伺服器集群系統,用於實現負載平衡),是中國最早的開源專案之一。你怎麼接觸到開源的?
章文嵩:我接觸開源的這些理念是 1995 年。我覺得很多軟體,我可以拿到原始碼,就很好玩,挺有意思的。
我還去遊說了長沙的一家公司,進口了一大批開源軟體的光碟售賣。那時候國內剛接網際網路,遠端下載一個 Linux 發行版,下載自由軟體,速度很慢。
晚點:你當時只是一個碩士生,怎麼遊說他們的?
章文嵩:我是他們公司裡面最厲害的工程師,類似首席架構師,整體的架構需要我搭,我幫他們賺了不少錢。不過遊說他們做開源的事情,就買一批光碟,我們加一點價,也不虧錢,最後大部分光碟都賣掉了。
晚點:後來你怎麼會想到開發、開源 LVS 專案?
章文嵩:就是做著好玩,而且運氣好,抓住一個點,那時候 Linux 核心裡面沒有類似的服務,我做了一個版本,很快就得到了應用。那是我自己做的課題,不是學校的或者國家的科研課題,開源就沒關係。
晚點:網際網路迭代很快,很多專案都消失了。這個專案你後來做了多久?還在持續維護嗎?
章文嵩:我持續在做這個維護,不過大部分都比較成熟了,要加一些新的協議進來,工作量並不大。
當然,這份程式碼也比較簡單,做得比較極致,就一萬多行。沒有人能寫出比這個更高效的程式碼(笑)。
它一直活著,98 年到現在就是 26 年多了,還在廣泛使用。你們每天用手機上網,在資料中心那一側的請求,可能大部分流量都經過我的軟體排程,國內幾乎所有的網際網路公司都在用。Google 也在用。
我自己也寫過其他的一些程式碼,有些程式碼已經消亡了,那些程式碼能活那麼久,我作為作者感覺還是不錯的。
有時候我跟丈母孃說起來,你每天用手機上網,實際上背後都有我軟體的貢獻。然後丈母孃答,你做了很多東西,但你什麼都沒得到,都是免費給大家用。(笑)
晚點:LVS 這麼成功,你有賺到錢嗎?
章文嵩:賺錢肯定是間接的。比如說,我透過 LVS 獲得一定名氣後,我去參加很多開源的會議,Red Hat 願意支付我旅行的費用。因為他把我的軟體也打到 Red Hat 發行版裡面去了。我還指導他們上面的管理工具應該怎麼做。
他們會給我訂好機票、酒店。到當地的時候,他們會給我一張信用卡,隨便刷,不用走報銷,他們也知道我不會亂花錢。而且我做了 LVS 專案,大家都知道我,我覺得這也是回報的一部分。
晚點:你畢業後參與過很多創業專案,比如影片社交網站比酷網、語音通訊軟體 TelTel、流媒體影片網站 9×9 TV 等等,好像都沒有特別成功。你覺得你們那一代人擅長什麼?侷限性又是什麼?
章文嵩:我覺得,我們很多想法比較超前。我們試了一下,發現跟想象的效果不一樣,馬上又換方向,不停在那試。打個比方說,我們做產品就像挖油井一樣,不冒油再換個地方再打一口井看一看。
我覺得還是當時的認知不夠。比如我們 2003 年做了比酷網,那時候設計的想法,就是讓大家可以來這個網站上比比酷,使用者可以製作音樂,製作動畫,比 YouTube 早了一年半。
我們推出之後,網站的流量很高,高到我們付不起費,就沒堅持下來。當時並沒有看到巨大的流量有廣告價值,就沒有想到這一步。
那個時候,國內主要還是在做簡訊的增值業務,運營商開了一個口,可以從使用者話費月套餐裡面扣錢,好多網際網路公司都幹過這個事情。
晚點:後來你有過兩段大公司的經歷。什麼讓你從一個創業者變成願意在大公司工作的人?
章文嵩:那段創業的時間是六年半,換了六七個專案,基本上每年換一次。當時我在家裡就琢磨著,這次創業乾脆我自己牽頭,我自己來決定,選一個小的點,可以堅持很久。
我老婆看到我整天坐在家裡,有一些擔心,最後就直接下 “逐客令” 了,說你別整天在家坐著,要麼出去繼續創業,要不去找份工作。後來我就說,其實阿里找我找了兩年了。
晚點:你現在又是一家公司的聯合創始人了。
章文嵩:對。我們想做一個高效能的(大模型)推理引擎。我自己覺得智慧化浪潮是一個大機會,能持續 100 年,我不想只當個看客。
AGI 可能是通用知識層面,但還有很多專用知識,比如個人的隱私資料,習慣、喜好等,不會把資料給別人;企業也有很多私有化資料,是它的命根子,也會選擇在通用的模型上做應用。
每家企業、每個人都有智慧化的機會,做一個推理引擎很關鍵。目前大家開源的模型都用 vLLM(加州伯克利大學研究者開源的大模型推理框架)。我們想能不能做一個比 vLLM 更快的。我們這個團隊,包括我自己,做基礎軟體相對比較擅長,所以想著在智慧化浪潮下,還能為社會做點什麼。
晚點:會開源嗎?
章文嵩:CUDA 之上的,我們會開源,跟 vLLM 一樣,當然我們會有不同的架構,不同的技術選擇。
CUDA 之下的,我們對 NVIDIA 的指令集做了很多逆向工程,用強化學習最佳化它的運算元,大概有 40% 多的效能提升。
因為 NVIDIA 不開放 GPU 指令集,如果把它的指令集開放出來,就違反它的協議。
晚點:這次創業你想幹多少年?
章文嵩:多少年那不知道。但我覺得是大趨勢,需求在那裡。關鍵是能不能把核心技術做得更好,做得更好肯定就有價值。
晚點:你覺得開源的本質是什麼?
章文嵩:我認同梁文峰說的 “開源是一種文化”,但需要年輕人覺得這東西是文化,他才會覺得有價值,從而持續投入來做。
對我來說,這種價值偏向於成就感。我自己開源 LVS,別人用,這種感覺挺好的,不付錢我都覺得很高興。
晚點:現在你也經常接觸新一代技術人才,你覺得他們跟你們有什麼不一樣嗎?
章文嵩:他們的條件太好了。年輕人可以追求自己的夢想,追求自己覺得有價值的事情。他們更厲害,我覺得對開源生態的貢獻會更大。
今天我們推送了兩篇開源對話。在另一篇對談中,我們邀請了 00 後研究者王子涵,分享他眼中的 DeepSeek 開源和更廣泛的大模型開源。
王子涵曾在 DeepSeek 實習,目前在美國西北大學 MLL Lab 攻讀博士學位。
· FIN ·



