HuggingFace上的熱門開源模型,一半都來自中國了

頭圖由豆包生成 提示詞:科技感十足的數字世界,背景是程式碼流

作者

Yoky

郵箱

[email protected]

HuggingFace熱門榜單幾乎被中國模型“承包”了!
在最新的HuggingFace熱門模型榜單中,中國模型的含量超過了50%。包括剛剛上新的QwQ-32B不同型號的推理模型,HunyuanVideo-12V的全新版本、長期霸榜的DeepSeekR1,以及Qwen和R1的衍生模型。
DeepSeek開源R1給整個大模型行業扔下一顆炸彈,引發了模型社群和企業的激烈討論後,幾乎已經確定了開源為主流技術路線,此前一直堅持閉源路線的如OpenAI、百度、月之暗面也相繼表示將嘗試開源路線。
與以往不同的是,R1之後的衝榜不只體現在數量多上,更體現在質量上。“早期一些大廠的開源模型只是掛上去,後續不會再運營和維護,現在在模型效能、實用性和穩定性上都有突破,對部署算力的要求更低,算是逐漸走出了獨立曲線。”一位開發者講道。
更值得注意的是,越來越多國際開發者選擇中國基礎模型作為微調起點,相比於Llama和Phi,以DeepSeek和Qwen系列模型為基點的衍生模型越來越多。
我們與多位開發者和企業聊了聊,為什麼中國開源模型如此受歡迎?
1
要做就做真開源
在選擇微調模型前,首先要關注的就是開放協議。
中國開源模型基本上採用的都是最為寬鬆Apache 2.0開放協議或MIT協議,這意味著開發者可以自由進行二次開發、商用,且基於這些模型開發的專利歸開發者本人所有,有效規避了法律風險,為企業提供了確定性。
一位活躍於HuggingFace社群的資深開發者分享道:“我們團隊最初只是試用Qwen系列,但很快發現其API設計和開源資源之完善超出預期。更重要的是,我們不必擔心未來突然改變協議或限制使用,這種確定性對商業專案至關重要。”
不少海外初創公司也提到中國模型非常有利的許可模式讓他們能夠直接使用,無需繁瑣的法律審查。即便是離商業化最近的影片模型,Wan和HunyuanVideo除了需要遵守相應的法規和限制條款,也是可以免費商用的。相比之下,Meta的Llama採用自主制定協議限制商用,且專利歸原公司所有,這無疑增加了開發者的法律顧慮。
當我們隨手開啟HuggingFace中Llama模型的評論區就會發現,在開發者測試中,多次出現訪問模型的請求被拒絕的情況。這種不穩定的訪問體驗,加上模稜兩可的使用條款,讓許多開發者望而卻步。一位企業AI技術負責人直言:“我們不能基於一個隨時可能被限制使用的模型來構建產品。”
其次,中國模型在開源深度上更進一步。不僅開放了從小到大等全系列不同引數規格的模型權重,還提供了各種量化版本和完整的訓練資料集,甚至包括微調所需的資料模板。這種全面性讓開發者能夠根據實際需求和硬體條件選擇最適合的版本。
“比如說適用於Qwen的編碼資料集CodeAlpaca-20K,可在 Hugging Face 上可以直接找到。該資料集包含20000 條與編碼相關的指令、輸入和輸出,可以滿足基本的微調需求。”
這種完全的開放風格也影響了最新的中國模型開源,當HunyuanVideo-12v版本開源時,相較於2個月前的版本,開放權重更高。模型總引數量保持130億,適用於多種型別的角色和場景,包括寫實影片製作、動漫角色甚至CGI角色製作的生成。開源內容包含權重、推理程式碼和LoRA訓練程式碼,支援開發者基於混元訓練專屬LoRA等衍生模型。
另一方面,從模型本身出發,Llama3目前僅提供8B、70B和405B三種規格,卻缺少被業內公認為算力與效能最佳平衡點的32B引數規模。對大多數開發者而言,7B模型效能已不足以支撐複雜應用,而70B以上則需要強大的伺服器支援,成本高昂。Qwen系列在這方面迭代更快,規格覆蓋更全面,從超輕量到重量級都有解決方案。
一位海外開發者評價:“LLama3的迭代速度明顯慢於Qwen系列,尤其是模型引數量規格的覆蓋程度更是存在巨大的短板,至今仍然沒有補齊。”
當然,在效能方面,中國模型已與頂級閉源模型相當甚至在某些領域超越。DeepSeek-R1自上線以來,已經成為開源社群最受歡迎的推理模型,最新評測資料顯示,Qwen-72B模型已經超過GPT4水平,而在處理中文等特定任務時表現更佳。DeepSeek系列在程式碼生成能力上也獲得了超過頂級模型的評分。
有開發者對比發現,完全微調Qwen 1.5 0.5B模型比使用QLoRA對Phi 1.5進行微調的效果要好得多,且Phi的微調時間要接近Qwen的5倍。
與其他打著“開源”旗號卻設定諸多限制的模型不同,中國模型在開放程度和效能表現上找到了平衡,這正吸引全球開發者加入這一生態。
1
讓咖啡店老闆都能跑大模型
由於美國對高階GPU的出口管制,迫使中國開發者從依賴硬體堆砌的傳統路徑轉向“演算法優先”的創新模式。這種“算力短缺倒逼演算法升級”的邏輯,推動中國開源模型形成獨特的競爭力:透過架構創新與演算法最佳化,在有限算力下實現可用性最大化,降低部署門檻,讓咖啡店老闆都能跑大模型。
比如最新的QwQ-32B推理模型,幾乎完全超越了OpenAI-o1-mini,遠勝於o1-mini及相同尺寸的R1蒸餾模型,在保持效能的前提下把模型做小到32B的最佳部署引數區間,是呈現出來的一個趨勢。
“本質上是用演算法複雜度置換高算力需求,當模型引數量降低兩個數量級時,訓練所需的視訊記憶體從千兆位元組級壓縮至消費級顯示卡可承載的96GB以內,大模型的部署不再依賴專業計算叢集。”
引數變小後再透過特定的演算法降低記憶體和對視訊記憶體的需求,QwQ-32B在消費級顯示卡4090或一臺裝備M4晶片的MacBook上就能完成部署。
再比如影片生成類模型HunyuanVideo-12V和Wan2.1版本,也可在T2V-1.3B 型號僅需 8.19 GB VRAM,可相容幾乎所有消費級 GPU。可在約 4 分鐘內(未使用量化等最佳化技術)在 RTX 4090 上生成 5 秒的 480P 影片。
另外一方面,是中國大模型已經完全建立起了開放生態,開源方法得到了第三方專案和工具的廣泛支援。
在訓練和微調方面,多個開源框架為中國大模型提供了強大支援。例如,DeepSpeed Chat 提供了一鍵式RLHF(基於人類反饋的強化學習)訓練框架,支援從資料預處理到模型評估的完整訓練流程,顯著降低了複雜任務的開發門檻。
此外,LLaMA Efficient Tuning 提供了基於PEFT(引數高效微調技術)的微調框架,支援LoRA、Adapter等多種微調模式,使開發者能夠以更低的計算成本實現模型效能的最佳化。這些開源工具不僅覆蓋了從預訓練到微調的全流程,還透過模組化設計提高了靈活性和易用性,為開發者提供了豐富的選擇。
在模型推理方面,同樣有多種高效框架支援中國大模型的部署。例如,vLLM 針對大批次Prompt輸入場景進行了最佳化,透過動態記憶體管理和高效排程演算法,顯著提升了推理速度和吞吐量。而 Xinference 則是一個功能全面的分散式推理框架,支援多節點平行計算,簡化了大語言模型的部署流程,尤其適合高併發、低延遲的應用場景。
這些框架與中國大模型(如Qwen、DeepSeek等)完全適配,不僅提升了推理效率,還降低了硬體資源需求,使得模型的部署更加便捷和經濟。
模型最開放、型號最全,與開放生態工具完全耦合,同時兼具著最低的部署門檻,使更多開發者能夠參與試用,來自中國廠商的這樣的開源模型還會越來越多,一個全新的生態結構正在慢慢建立起來。

點個愛心,再走


相關文章