DeepSeek推翻兩座大山

作者:趙晉傑
來源:字母榜(ID:wujicaijing)
DeepSeek的壓力,終於還是傳遞到了黃仁勳身上。
北京時間1月27日晚,英偉達美股股價盤前暴跌近11%,按目前市值34928億美元計算,英偉達市值恐將縮水超3500億美元。
DeepSeek所掀起的低成本大模型訓練策略,正在讓資本市場懷疑,即當用相對較少的算力也能實現不輸於OpenAI的模型效能表現時,英偉達所代表的高階算力晶片是否正迎來新的泡沫?
這股擔憂情緒正進一步助推著DeepSeek的熱度攀升。趁著DeepSeek R1新模型釋出檔口,短短一週時間,到1月27日,DeepSeek應用就拿下了美區App Store和中國區App Store免費榜的雙料第一。
值得一提的是,這是首次有AI助手類產品超越OpenAI的ChatGPT,且登頂美區App Store。
爆火的使用者體驗場面,直接導致DeepSeek在兩天之內接連出現服務宕機現象。繼1月26日出現短時閃崩後,1月27日,DeepSeek再次短暫出現網頁/API不可用的服務提示。官方回應稱,其可能和服務維護、請求限制等因素有關。
新模型DeepSeek R1,無疑是引發這場圍繞DeepSeek的全球使用者大討論的直接導火索。1月20日,DeepSeek正式釋出了效能比肩OpenAI o1完整版的R1。
在資料越多、效果越好的Scaling Law(模型規模定律)觸達瓶頸之下,去年9月份,OpenAI對外發布了新推理模型o1,後者採用了RL(強化學習)的新訓練方式,被行業視為是大模型領域的一次“正規化轉移”。
但直到DeepSeek R1釋出之前,國內一眾大模型廠商均尚未推出能夠對標OpenAI o1的模型。DeepSeek成了第一個攻破OpenAI技術黑匣子的玩家。
更重要的是,相比OpenAI在模型上的閉源,以及o1模型付費使用限制,DeepSeek R1不僅開源,而且還免費供全球使用者無限呼叫。
R1的出現,除了打破旗艦開源模型只能由科技大廠來推動的行業傳統共識之外,還打破了業內在去年形成的另一條共識,即通用大模型,正越來越成為一場大廠間的資本比拼遊戲。DeepSeek用不到OpenAI十分之一的資源,就做出了效能堪比o1的R1。
DeepSeek攜一眾使用者帶來的衝擊,已經讓一些大廠坐不住了。
首當其衝的是Meta。一貫被行業視為“大模型開源之王”的Meta,內部被曝出開始擔心起還未釋出的Llama 4,在效能上可能無法趕上DeepSeek R1。
被拿來全面對標的OpenAI,也開始感受到壓力。OpenAI CEO奧特曼不僅透過釋出首個智慧體Operator搶熱度,還開始對外劇透起即將上線的o3-mini新訊息。
可以預見的是,DeepSeek掀起的行業地震,波及的將不只是國外公司,國內大廠也難逃例外。
01
作為一款開源模型,DeepSeek R1在數學、程式碼、自然語言推理等任務上的效能,號稱可以比肩OpenAI o1模型正式版。
在AIME 2024數學基準測試中,DeepSeek R1得分率為79.8%,OpenAI o1的得分率為79.2%;在MATH-500基準測試中,DeepSeek R1得分率為97.3%,OpenAI o1的得分率為96.4%。
同為推理模型,DeepSeek R1不同於OpenAI o1的技術關鍵點,在於其創新的訓練方法,如在資料訓練環節使用的R1-Zero路線,直接將強化學習(RL)應用於基礎模型,而無需依賴監督微調(SFT)和已標註資料。
此前,OpenAI的資料訓練非常依賴人工干預,旗下資料團隊甚至被建設成為不同水平的層級,資料量大、標註要求簡單明確的淺層資料,交給肯亞等廉價外包勞工,高等級的資料則交給更高素質標記人員,不少都是訓練有素的高校博士。
DeepSeek R1的直接強化學習路線,就像讓一個天才兒童在沒有任何範例和指導的情況下,純粹透過不斷嘗試和獲得反饋來學習解題。
Perplexity公司CEO阿拉文·斯里尼瓦斯評價道:“需求是發明之母。因為DeepSeek必須找到解決辦法,最終它們創造出了更高效的技術。”
除此之外,在獲取高質量資料方面,DeepSeek也有所創新。
根據DeepSeek官方技術文件,R1模型使用資料蒸餾技術(Distillation)生成的高質量資料,提升了訓練效率。資料蒸餾指的是透過一系列演算法和策略,將原始的、複雜的資料進行去噪、降維、提煉等操作,從而得到更為精煉、有用的資料。
這也是DeepSeek能夠憑藉更小引數量,就實現比肩OpenAI o1模型效能的一大關鍵。人工智慧專家丁磊博士告訴字母榜,模型引數量大小與最終模型呈現的效果之間,兩者“投入產出並不成正比,而是非線性的……資料多隻是一個定性,更重要的是考驗團隊資料清洗的能力,否則隨著資料增多,資料干擾也將隨之變大。”
更重要的是,DeepSeek是在用不到十分之一的資源基礎上,取得的上述成績。
去年12月底釋出的DeepSeek-V3開源基礎模型,效能對標GPT-4o,但官方介紹的訓練成本只有2048塊英偉達H800,總花費約557.6萬美元。
作為對比,GPT-4o模型的訓練成本約為1億美元,佔用英偉達GPU量級在萬塊以上,且是比H800效能更強的H100。
當時,前OpenAI聯創、特斯拉自動駕駛負責人安德烈·卡帕西就發文表示,DeepSeek-V3級別的能力,通常需要接近16000顆GPU的叢集。
目前,DeepSeek官方尚未公佈訓練推理模型R1的完整成本,但官方公佈了其API定價,R1每百萬輸入tokens在1~4元人民幣,每百萬輸出tokens為16元人民幣。作為對比,OpenAI o1的執行成本約為前者的30倍。
這樣的表現也引發Scale AI創始人亞歷山大·王(Alexandr Wang)評價道,中國人工智慧公司DeepSeek的AI大模型效能大致與美國最好的模型相當。“過去十年來,美國可能一直在人工智慧競賽中領先於中國,但DeepSeek的AI大模型釋出可能會‘改變一切’。”
a16z合夥人、AI大模型Mistral董事會成員 Anjney Midha更是發文說道,從斯坦福到麻省理工,DeepSeek R1幾乎一夜之間就成了美國頂尖大學研究人員的首選模型。
包括斯坦福大學計算機科學系客座教授吳恩達、微軟董事長兼CEO薩提亞·納德拉等大佬在內,也都開始關注起這款來自中國的新模型。
事實上,這並非DeepSeek第一次出圈。在宣佈組建團隊自研大模型以來,DeepSeek曾兩度引發熱議,只不過,之前更多侷限在國內。
2023年4月,千億量化私募巨頭幻方量化釋出公告,稱將集中資源和力量,投身人工智慧技術,成立新的獨立研究組織,探索AGI(通用人工智慧)。
一個月後的2023年5月,該組織被命名為“深度求索”,併發布了首款模型DeepSeek V1。當時,《財經十一人》報道稱,國內擁有超過1萬枚GPU的企業不超過5家。而DeepSeek就是其中之一,並由此開始得到外界關注。
及至2024年5月,DeepSeek再次藉助大模型價格戰一躍成名。當時,DeepSeek釋出了DeepSeek V2開源模型,並在行業內率先降價,將推理成本降到每百萬token僅1塊錢,約等於GPT-4 Turbo的七十分之一。
隨後,位元組、騰訊、百度、阿里等大廠紛紛降價跟進。中國大模型價格戰由此揭幕。
02
DeepSeek R1的出現,進一步向外界證明著,在大模型,尤其是通用大模型方面,創業公司依然有機會。
1月初,零一萬物創始人李開復對外正式表態,自己將退出對AGI的追尋,未來公司主攻中小引數的行業模型。“從商業角度考慮,我們認為只有大公司能繼續做超大模型。”李開復說道。
投資人們比李開復更激進。從2023年開始,作為金沙江創投主管合夥人的朱嘯虎,便覺得大模型在摧毀創業,因為模型、算力和資料等三大支柱都向大廠集中,看不到創業公司的機會,且直接在大模型上做應用護城河太低,多次提醒創業者不要迷信通用大模型。
遠望資本程浩更是直接認為中國版的ChatGPT,只會在5家公司裡產生:BAT+位元組+華為。在程浩看來,創業者只有在具有先發優勢的情況下,才有可能跑贏大廠。
正是因為當初谷歌等國外大廠並不看好OpenAI的大語言模型路線,才讓ChatGPT藉助先發勢能跑了出來。但是,當下研發大模型已經成為中國科技大廠的共識,甚至百度、阿里推出產品的動作,比創業公司還快。
但在接受“暗湧”訪談中,DeepSeek創始人梁文鋒在回應與大廠競爭中曾說道,“大廠肯定有優勢,但如果不能很快應用,大廠也不一定能持續堅持,因為它更需要看到結果。頭部的創業公司也有技術做得很紮實的,但和老的一波AI創業公司一樣,都要面對商業化難題。”
背靠千億量化基金的DeepSeek,在免去資金的後顧之憂外,選擇了一條頗顯理想主義的路徑,即只做模型研究,不考慮商業變現,且大膽啟動年輕人。
在DeepSeek的150左右團隊中,大多是一幫Top高校的應屆畢業生、沒畢業的博四、博五實習生,以及一些畢業才幾年的年輕人。
這是梁文鋒有意選擇的結果,也是DeepSeek能夠搶在大廠前面推出R1模型的秘訣之一,“如果追求短期目標,找現成有經驗的人是對的。但如果看長遠,經驗就沒那麼重要,基礎能力、創造性、熱愛等更重要。”梁文鋒解釋道。
這也使得DeepSeek成了中國大模型創業公司中,唯一一家只做基礎模型、暫不考慮商業化的公司,還要加上一條,即有能力繼續開源旗艦模型的公司。
截至目前,DeepSeek R1已經成為開源社群Hugging Face上下載量最高的大模型之一,下載量超過10萬次。
此前,國內以百度創始人李彥宏為代表的一派,堅決認為開源路線打不過閉源路線,且缺乏商業化支撐的開源模型,會在往後的競爭中差距越拉越大。
但起碼從目前來看,DeepSeek R1的出現,證明靠開源路線依然能夠追上大模型頭部玩家的腳步,且創業公司依然有能力推動開源生態發展。
Meta AI首席科學家楊立昆(Yann LeCun)在評價中就提到,“給那些看到DeepSeek的表現後,覺得‘中國在AI方面正在超越美國’的人,你們的解讀是錯的。正確的解讀應該是,‘開源模型正在超越專有模型’。”
在去年DeepSeek v3釋出後,梁文鋒就曾對外表示,公司未來不會像OpenAI一樣選擇從開源走向閉源,“我們認為先有一個強大的技術生態更重要。”
畢竟,OpenAI的經驗起碼說明了,在顛覆性的技術面前,閉源難以形成足夠的護城河,更無法阻止被別人趕超。“所以我們把價值沉澱在團隊上,我們的同事在這個過程中得到成長,積累很多know-how,形成可以創新的組織和文化,就是我們的護城河。”
2020年釋出GPT-3時,OpenAI曾詳細公開了模型訓練的所有技術細節。中國人民大學高瓴人工智慧學院執行院長文繼榮認為,國內很多大模型其實都有GPT-3的影子。
但隨著OpenAI在GPT-4上一改開源策略,逐漸走向封閉,一些國產大模型就此失去了可供複製的追趕路徑。
如今,DeepSeek攜開源R1的到來,無疑將給國內外大模型玩家在對標o1的推理模型研發方面,建立起一條新的借鑑思路。
03
DeepSeek在大模型領域掀起的這場蝴蝶效應,已經開始影響到部分大廠。
有Meta員工在矽谷匿名八卦分享平臺Blind上釋出訊息稱,Meta的生成式AI部門正因DeepSeek處於恐慌中,甚至爆料稱尚未釋出的新一代開源模型Llama 4,在基準測試中已經落後於DeepSeek。
在外媒的進一步報道中,Meta生成式AI團隊和基礎設施團隊,正在組建4個作戰小分隊來畫素級剖析DeepSeek,有的試圖搞清楚DeepSeek是如何降低訓練和執行成本的,有的負責研究DeepSeek可能使用了哪些資料來訓練模型,有的則考慮基於DeepSeek模型的屬性重組Meta模型的新技術。
與此同時,為了鼓舞士氣,作為Meta創始人的扎克伯格,更是放出2025年繼續擴大AI投資的新訊息,稱2025年圍繞AI的整體支出將達到600億-650億美元,相比去年的380億-400億美元,增長了超過70%,從而構建起一個擁有130萬塊GPU的超級計算機叢集。
除了跟Meta搶開源之王的名頭外,DeepSeek正在從OpenAI手裡搶走客戶。
在比OpenAI便宜30倍的API價格誘惑力之下,一些初創公司正在改換門庭。企業級AI代理開發商SuperFocus的聯合創始人Steve Hsu認為,DeepSeek的效能與為SuperFocus大部分生成式AI功能提供支援的OpenAI旗艦模型GPT-4相似甚至更好。“SuperFocus可能會在未來幾週轉向DeepSeek,因為DeepSeek可以免費下載、在自家伺服器上儲存和執行,並將增加銷售產品的利潤率。”
成為更多公司的模型底座,這也是梁文鋒規劃中DeepSeek最想佔據的定位。在梁文鋒看來,DeepSeek未來可以只負責基礎模型和前沿的創新,然後其他公司在DeepSeek的基礎上構建To B、To C的業務。“如果能形成完整的產業上下游,我們就沒必要自己做應用。”梁文鋒說道。
國內,對DeepSeek的研究也在同步進行。有報道稱,字節跳動、阿里通義以及智譜、Kimi等團隊,都在積極研究DeepSeek,字節跳動甚至可能在考慮與DeepSeek展開研究合作。
在這些公司之前,雷軍更是先人一步挖起了DeepSeek的牆角。去年12月,第一財經爆料稱,雷軍疑似開出千萬年薪親自挖來“95後天才少女”羅福莉,後者是DeepSeek-V2開源模型的關鍵開發者。未來,羅福莉或將供職於小米AI實驗室,領導小米大模型團隊。
挖人之外,國內更激烈的競爭或將同樣圍繞API展開,“去年國內有一批創業公司和中小企業,因為OpenAI斷供轉向了國內大模型公司,現在DeepSeek很有可能成為收復OpenAI失地的那個野蠻人。”恆業資本創始人合夥人江一預測道。
壓力傳導到了這些國內大模型公司身上。如果它們不能快速將模型效果跟進到R1級別,客戶就難免用腳投票。
THE END
如果喜歡我們的文章
可以點選右下角的在看

相關文章