國內外這麼多AI大模型,為什麼是DeepSeek火了?

點選上方卡片關注👆
近日,名為 DeepSeek(深度求索)的中國 AI 初創公司在短短 30 天的時間內先後釋出了 DeepSeek-V3、R1、Janus-Pro 等多款大模型,火爆全網,持續引發熱議。

每一款新模型釋出當天,知乎都會聚集大量科技從業者答主展開豐富專業的分析討論。

一起來看看大模型話題優秀答主

@段小草 和英偉達 AI 計算架構技術總監@楊軍 的專業回答吧~

國產之光 DeepSeek 把 AI 大佬全炸出來了,對 AI 行業競爭格局有何影響?
|答主:段小草
今天在忙過年前最後的工作,剛看到這道題,簡單提幾句吧。
DeepSeek 這次引發的討論度很大,而且這波討論更多的是技術圈自發的討論,PR 商稿的水分不多,我覺得這裡面其實是很多種因素疊加在一起的。

第一點在於 DeepSeek 開源。

開源在當前是一種正義的大旗,OpenAI 的模型再強,大家也是霧裡看山,OpenAI 從 GPT-3 開始就變成了徹頭徹尾的 ClosedAI。
可以說除了引爆這一輪生成式大語言模型的浪潮外,給大家提供一個模糊的圖景外,對開源社群幾乎沒有幫助。
而 DeepSeek 則不然,DeepSeek 不僅完全開源,而且放出了詳細的技術報告;不僅開源了自己最大的 671B R1 模型,還「順帶手」幫大家蒸餾量化好了 1.5B~70B 多個尺寸的模型;不僅是面子上開源,甚至選擇了最寬鬆的 MIT License 協議,允許任何人免費使用、修改、分發,包括用於商業用途。
國外很多人為 DeepSeek 舉大旗,願意擁護 DeepSeek 為真正的 OpenAI。
LeCun 在蹭 DeepSeek 熱度的時候發了這麼一篇貼子[1]:

對於那些看到 DeepSeek 表現出色並認為「中國在人工智慧上超越了美國」的人,你們理解錯了。正確的理解應該是:


「開源模型正在超越私有模型。」

DeepSeek 受益於開放研究和開源(例如 Meta 的 PyTorch 和 Llama)。他們提出了新想法,並在他人的基礎上進行構建。因為他們的工作是公開發布並開源的,每個人都能從中獲益。


這就是開放研究和開源的力量。

第二,DeepSeek 的訓練成本出乎意料的低。

這一點來自於 DeepSeek V3 的技術報告中[2]:
DeepSeek V3 總訓練成本為 278.8 萬 H800 GPU 小時,僅 557.6 萬美元。
這是什麼概念呢?一個 Meta 的內部員工匿名爆料說,Meta 的生成式 AI 部門對 DeepSeek 感到恐慌,原因是他們隨便一個管理人員的薪資就超過了 DeepSeek V3 的總訓練成本,他們根本無法向高管解釋這件事。
這也是一些人所說的,DeepSeek V3 很大程度上改變了大模型市場的根本邏輯,過去以為非常燒錢的現在發現未必需要。
而這背後是來自於 DeepSeek 在架構和 AI Infra 上的創新工作。

第三是 DeepSeek 模型的效能確實強。

模型評測具有相當的選擇性,好用不好用也視使用場景而定,不能有某幾個具體的問題去肯定或否定某個模型。DeepSeek V3 能贏 GPT-4o,R1 能贏 o1 也都是某些評測結果。
但我還是要說,考慮到 DeepSeek 免費提供使用,且 API 價格非常便宜,那麼綜合考慮使用者使用成本,DeepSeek 的體驗就是 T1 級別的。
這一點有大模型競技場 Arena 佐證,不過由於 DeepSeek R1 的打分資料量尚少,所以其置信區間相對較大,也意味著成績可能還不太穩定。

第四,DeepSeek 來自幻方量化而不是傳統網際網路大廠,更具理想主義氣息。

DeepSeek 創始人梁文鋒這幾天也是關注的焦點,大家說他上新聞聯播,翻出來他以前的發言逐字解讀,頗有種造神的意味。
但 DeepSeek 相比於其他模型,確實商業氣息更少一些,也更像一個小而美的研究機構,而非功利性的 AI 企業。這就天然地帶來了話題上的反差,更容易引起討論。
對於科研組織這一條,有幾個方向可供展開。
一是和 OpenAI 特別是早期的 OpenAI,以及商業化後的 OpenAI 作類比,小而精的組織可以快速演進,快速釋出,而不像大廠那樣有商譽負擔,比如 Google 早期研究出大模型後由於幻覺問題以及生成式 AI 對搜尋業務的影響而影響了對大模型的研究決策,最終導致延遲釋出,錯失了先機;而 DeepSeek 現在被幻方包養,暫時沒有營收壓力,所以看上去也不會像 OpenAI 那樣市儈功利。
二是 Meta 員工在匿名發貼中說,生成式 AI 部門本應是一個小而精的部門,但因為 AI 的熱度被塞進來太多人而變得臃腫。組織的臃腫當然就會帶來效率問題。
三是有人把 DeepSeek 比作幻方量化內部的 Skunk Works(臭鼬工廠)[3],強調其積極的創新能力。

第五,DeepSeek 來自中國。

同樣一個模型,同樣一句話,國內國外滋味截然不同。
美國現在已經明牌要挑起 AI 軍備競賽了,特朗普在宣佈 5000 億美元投資的星際之門時說,這些投資如果不流向美國,就很可能會流向中國。
這裡非此即彼的競爭意味非常明確,不少人把星際之門解讀為新星球大戰計劃。
不論是白宮對晶片的禁令,還是 OpenAI 等 AI 企業聯合起來的呼籲,都在明確一件事,就是遏制中國的 AI 發展,確保美國的領先地位。
在這個關鍵時刻,中國企業做出了 DeepSeek,這對於國內來說就是很振奮的事情。疊加上前面講到的 DeepSeek 訓練成本極低,在一定程度上也削弱了對高效能顯示卡的依賴。
這對於美國來說是不可接受的。但是這件事的的確確真真正正地發生了,這有很有趣了,下一步走向會很微妙,也許 DeepSeek 會成為我們手中的關鍵一招。
|答主:楊軍
我個人的觀點是,硬核技術的發展歷程裡,任何結果的形成都不是一蹴而就的。
我比較認同梁自己所說的,DeepSeek 目前的成果,以國際行業標準來看,確實是取得了不錯的成績,值得認可,但如果放大時空,相似成績放在美國科技行業,相當於只不過是諸多不錯的技術創新中的一個。
我們既不應該因為美國科技領先的優勢(目前這還是一個我認為的客觀現實)而覺得中國人就只能做 follower,不能做太多硬核創新;也不應該只是因為一個來自中國公司的單點的技術成果就把製作這個成果的團隊和公司捧到天上。這兩種極端作法一體兩面,對於硬核技術創新都有著極大的破壞性。
曾經有機會聽一位行業裡非常資深的華人前輩在介紹其創立的公司的組織設計理念時,他專門 highlight 說會在美國物色從事基礎模型技術研究的人才,國內的團隊做偏應用層的模型技術研究。
雖然自己的從業經驗並不能直接對於大模型的建模技術提出很強的洞見,也會承認整體來說美國的科技水準要領先於中國,特別是 IT 技術領域(包括晶片和人工智慧)。但對於這種讓美國團隊從事基礎技術,中國團隊從事應用技術的職能設定,還是讓自己非常的不舒適,因為這隱含了一種強烈的價值能力的推斷。
特別是看到一位資深前輩有這樣的認知,還是讓自己有些感嘆,因為這樣的人往往對行業資源的分配有著更強的影響力。
當時自己的感覺是如果按這個邏輯,OpenAI 的那幫人在微軟或 Google 的資深大佬面前就是一堆小屁孩,完全不應該拿到那麼多的社會資源來做出現在的 OpenAI。DeepSeek 的工作成果某種程度上,以一個非常直接的示例來證偽了這種技術判斷的不合理性,也給中國的技術圈帶來了一些潛在的影響,我自己是非常欣慰的。
我沒有直接的一手經驗,但從一些草蛇飛線的背景鏈路,加上自己的一些從業經驗來看,我會傾向於認為 DeepSeek 的成果很大程度上取決於他們的核心決策流程能夠基於足夠 hands-on 的技術細節,在不需要考慮短期 KPI 壓力的情況下,進行著有清晰遠大終端目標(AGI)設定的技術探索。
有清晰的宏大目標來提供反饋指引,又不像是純基礎科學那樣完全不能規劃(我本人認為大模型技術突破本質上還是工程技術的突破,而不是自然科學的突破,所以雖然具備很強的不確定性,但其實是那種透過工程技術組織實施可以解決的不確定性,而並不是那種人類歷史上小機率產生的天才人物才能推進的自然科學進步),再加上有足夠 hands-on 的核心決策流程和團隊,同時又有著足夠開放包容的工作氛圍,就能讓技術團隊不斷地一點點根據外部反饋來調整策略,逼近設定目標。當然在這個過程中,能夠超越當前主流建模技術,提出新的模型基礎部件,是值得稱讚的工作。
但如果我們仔細思考一下,忽略大模型訓練所需要耗費的巨大硬體成本,在 pre-LLM 時代,設計淺層模型的時候,引入一些特殊的模型結構的設計,並不是本質難的事情。
對於有著紮實的數理邏輯基礎和機器學習素養的工程師來說,其實對模型的建模公式進行調整,是優秀的演算法工程師自然該具備的能力。大模型時代每次迭代的巨量計算資源,使得實驗成本上升,而如果有了「弱 KPI」導向的文化保證,其實能夠很大程度上還原淺層模型時代的模型創新能力。很多時候,可能是人性上對失敗和成本的畏懼增加了「布朗運動式」的反覆,看似動作很快,反而降低了創新的迭代效率。我們既應該欣賞認可 DeepSeek 團隊的成果,也應該理性地分析其中值得學習借鑑的地方。這恐怕也是 DeepSeek 所取得的成果背後我個人覺得更有價值的東西。因為一代模型技術總會被新的模型技術取代。支撐這一代模型技術的AI系統的成果也會被新一代的 AI 系統的進步替換,但背後那個本質性,規律性的東西,才是最關鍵的值得維繫的。因為那才是保持技術創新突破的源泉。

參考

1.^https://www.linkedin.com/business-manager-api/bzmEnterpriseAccessCookie/posts/yann-lecun_to-people-who-see-the-performance-of-deepseek-activity-7288591087751884800-I3sN
2.^https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
3.^https://x.com/8teAPi/status/1882836551866204656

🧨獎金翻 4 倍,答題 PK 嗨翻天!
🐍蛇年閃亮登場,祝知友們「蛇」年大吉,「蛇」來運轉、「蛇」全「蛇」美!

一波超大新年福利來襲🎉知乎聯合中國石油、中國石化、中國船舶、中航工業、原神、國博日曆以及百位知乎答主共同推出「蛇拿九穩」春節答題挑戰賽,邀你一起「在乎過大年」,瓜分1000000獎金!

❗1 月 28 日 –  2 月 1 日 過年期間,獎金瓜分獎池將增加至原來的 4 倍🎁獎金翻倍,快樂翻倍!
過年來知乎,蛇麼都好玩!一起「在乎過大年」!
點選文末【閱讀原文】,直達挑戰賽現場!

相關文章