DeepSeek到底是真開源還是假開源?業內人士:已經有足夠多細節值得學習

近日,在國內某問答平臺上,一則關於 DeepSeek 的提問登上問題熱門排行榜。這一問題的描述是:“如何評價 DeepSeek 自稱開源?但似乎並未開源(Open Source),僅為 Open Model?”
(來源:資料圖)
那麼,DeepSeek 是否真的只是“自稱開源”?其開源程度到底如何?它的開源能否起到“一鯨落萬物生”的作用?對於這兩個問題,DeepTech 本次採訪的五位 AI 專家無一例外均給出了正面回答。
談 DeepSeek 開源:“沒吃上豬肉,但至少近距離看了豬跑”
對於 DeepSeek 的開源,香港城市大學宋林琦教授十分形象地說:“我們這次雖然沒能吃上豬肉,但是至少近距離的看了下豬跑。”其表示,此前他和團隊一直關注 AI 領域的商業模式,其中最賺錢的往往是“賣卡”和“賣課”,即 GPU 硬體銷售和 AI 課程銷售。
而專注於 AI 技術研發和 AI 應用的企業則普遍面臨盈利難題。DeepSeek 的貢獻在於有效降低了大規模訓練對於 GPU 資源的依賴,緩解了 AI 產業鏈中的關鍵瓶頸。
這一變革有望推動 AI 價值鏈的重塑,使 GPU 端長期積累的超額利潤向 AI 技術和應用端轉移,進而形成一個健康的商業閉環,助力 AI 產業的可持續發展。
此前曾在 Meta 擔任 Staff 研究科學家、現任北京大學助理教授李萌也表示,從 DeepSeek 開源技術細節來說,對於他這樣一名 AI 研究者來說,這裡面已經有非常多的細節值得學習了。
他說:“我相信 DeepSeek 在工程中一定還有很多技術細節,例如資料如何清洗、訓練過程的細節等。這些都需要很多額外的實驗和探索。”
李萌表示,大模型的訓練包括模型、訓練框架、訓練資料和其他訓練細節。目前,DeepSeek 已經把模型架構和引數開源,而訓練框架尤其是訓練資料的開源在業界少有先例。
但是,DeepSeek 透過技術報告的形式,將 GPRO 等訓練演算法、目標函式等技術細節公佈出來,對於大家理解整個訓練過程很有幫助。同時,由於 DeepSeek 的模型能夠被外界直接訪問,這讓外界 AI 開發者可以基於它去做模型復現,而這就已經足夠難得。
事實上,大模型的復現並非易事。以 OpenAI 的 o1 模型為例,由於它沒有公開任何技術細節,導致很多學界團隊和業界團隊都很難復現 o1 模型。但是,DeepSeek 的開源極大降低了外界 AI 開發者復現模型的難度,目前至少已有兩支高校團隊成功復現了 DeepSeek 的模型。
此外,李萌表示 DeepSeek-R1 的開源也讓外界 AI 開發者可以更好地瞭解思維鏈(COT,Chain of Thought)技術在先進成熟模型上的應用,更讓外界 AI 開發者不用再像以前那樣只能在網上扒一些內容,因此可以說 DeepSeek 的開源邁出了大模型領域的重大一步。
浙江大學張克俊教授進一步指出, DeepSeek 開源地支援了思維鏈推理的模型,增強了複雜推理能力,能夠助力 AI 研究者針對特定主題的深度探索;同時,該模型也在不斷提升多領域適用性,不僅支援高質量內容生成,經過技術擴充套件後有望成為多工處理的基礎架構。
(來源:https://huggingface.co/deepseek-ai/DeepSeek-R1/blob/main/modeling_deepseek.py)
DeepSeek 開源:降低 AI 社群的資源門檻
“DeepSeek 的開源確實讓外界 AI 開發者的研究成本降了不少。就像有人開玩笑所說的 DeepSeek 的模型是‘大模型界的拼多多’,因此特別適合高校團隊。”香港大學黃超教授表示。
比如,在開發智慧體和檢索增強生成技術時,外界 AI 開發者可以直接使用 DeepSeek 開源的預訓練模型和框架,這比使用 GPT 系列模型具有更大的成本優勢。這不僅讓更多資源有限的外界 AI 開發者也能參與到大模型研究中,更能讓他們把更多精力放在創新和最佳化上。
之前,很多 AI 技術掌握在業界大廠手裡。AI 學界由於 GPU 資源等限制,沒有辦法去嘗試一些新想法。
這曾讓宋林琦和團隊在提出新的課題想法時,根本不知道什麼樣的技術 work、什麼樣的技術不 work。而現在,透過 DeepSeek 的開源技術再疊加 DeepSeek 開源的低成本訓練技術,比如混合專家、大模型小型化技術的蒸餾、量化壓縮、對齊機制、多工注意力混合架構、去隨機負載平衡等,能讓宋林琦這樣的外界 AI 開發者進行更快速的試錯。
同時,DeepSeek 模型的開源也會讓 AI 相關應用受益。其所使用的高效訓練方法以及由此打造的更小型化的模型,不僅意味著更低的算力需求,也直接降低了 Token 成本,這讓大模型的推理和生成變得更加經濟高效。對於需要長期呼叫大模型進行復雜計算的應用場景而言,這具有極大的價值。
比如,在 AI for Science 領域,大模型已被廣泛用於蛋白質結構預測、材料科學模擬、分子動力學計算等方向,而計算成本的降低也意味著更多科研團隊均能負擔得起高精度的 AI 計算,這讓其可以使用更高效的小型化大模型完成類似任務,在提高研究效率的同時還能擴大 AI 的應用範圍,同時還能加速科學發現的程序。
再比如,在 AI for Math 領域,大模型已被用於自動解題、數學證明生成、最佳化數學推理能力等任務,在數學教育和數學科研中的作用愈發凸顯。
而 DeepSeek 在降低 AI 訓練和降低推理成本上的突破,也能降低上述研究的資源門檻。
(來源:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE)
DeepSeek 開源:讓 AI 開發者看到更多可能
香港大學黃超教授表示,目前其團隊已經開始用上 DeepSeek。其表示,DeepSeek 的工具和模型確實很給力。比如,在開發一些複雜任務時,DeepSeek 模型的效果還算不錯,也讓外界 AI 開發者看到了基於更多大模型基礎能力開展探索和應用落地的可能。特別值得一提的是,DeepSeek-R1 模型使用強化學習來增強模型推理能力的設計,這和黃超團隊的研究方向特別契合。之前,他和團隊也曾嘗試使用低成本的強化學習方法,以讓模型在 Agent 任務中表現得更好,比如讓 AI 在複雜環境中做出更聰明的決策等。而 DeepSeek- R1 所採用的獎勵函式設計方案以及如何在不增加太多計算開銷的情況下提升模型的推理能力等方法,都給其帶來了較多啟發。接下來,他和團隊打算繼續基於 DeepSeek 做一些更有意思的探索。
比如透過結合使用 DeepSeek 的強化學習方法看看能否讓 Agent 在多輪對話中表現得更“聰明”,再比如研究如何在一些需要長期規劃的複雜任務中讓 Agent 表現得更好等。“總之,DeepSeek 不僅幫我們節省了成本,還讓我們看到了更多可能性,感覺接下來的研究會越來越有趣。”黃超表示。
DeepSeek 模型在眾多工中極佳的效能-效率平衡,讓人們看到了多專家模型、知識蒸餾、課程學習等技術的優勢。因此,宋林琦團隊打算結合自身經驗,探索 DeepSeek 模型在 AI 模型訓練以及推斷效率領域的技術探索。
基於公開報道以及實際使用感受,他認為 DeepSeek 目前主要透過關鍵詞過濾等方式對輸出內容安全進行控制。但是,如何更好地保障內容的安全生產對於上下游的應用依舊十分重要。因此,他和團隊將針對模型的價值觀對齊開展研究,以便提升模型的自我監管能力,爭取能在更大程度上降低偏見內容和有害內容的輸出。
上海交通大學長聘教軌副教授王錚表示:“DeepSeek 這類‘好用又便宜’的大模型非常值得研究和應用。我的研究主要聚焦於資料探勘和大資料技術領域。在 ChatGPT 剛釋出的時候,我們曾經估算過在大資料場景下其使用成本會是天文數字。為此,我們實驗室發起了 rLLM 專案,開展大資料與大語言模型高效協同的探索。未來,我們計劃進一步研究如何結合各大模型的領域優勢與推理成本,以實現大模型智慧資料分析的最佳價效比。”
(來源:DeepSeek)
與此同時,本文的五位受訪者都是高校老師,因此他們一方面都希望自己的研究能夠影響到業界,另一方面也希望自己培養出來的學生能夠回饋到產業。
李萌表示,對於大模型的業界開發者來說,如果只做工程等於是必死無疑。因為,大模型不僅需要工程能力,還需要學術研究能力。而對於沒有太多 GPU 的學界來說,基於 DeepSeek 同樣能有很多研究方向值得探索。
透過和產業界的合作,學術界能夠幫助業界解決新的問題,同時也有助於培養學生,未來能更好地走到產業中去。
《金融時報》的一篇評論文章也肯定了 DeepSeek 的開源,該文章寫道:“讓我們把這視為歷史上的一個時刻。1440 年,約翰內斯·古騰堡(Johannes  Gutenberg)將印刷機帶到了歐洲,這一發明打破了之前由精英掌握的知識壟斷。DeepSeek 的成就延續了這一使資訊更易獲取的傳統。其低成本推理模型證明 AI 可以屬於每個人,而不僅僅是那些囤積程式碼、晶片和資本的人。”
參考資料:
https://www.ft.com/content/3549cc33-e04d-41da-8c58-525d5bb2ba4c
https://www.zhihu.com/question/10748172232?utm_psn=1869450245278162944
運營/排版:何晨龍


相關文章