DeepSeek的崛起,其實並不意外

顛覆理論預測了DeepSeek及其同類產品的出現和發展。事實上,未來幾個月內其他顛覆者的出現並不會令人意外。特別是小型語言模型(SLM),它們使用的資料更少、資源更少,可能會在未來幾個月內成為挑戰美國和中國LLM的另一種技術。
中國人工智慧初創公司DeepSeek近期引發了廣泛關注。1月20日,該公司釋出的新模型在效能上足以與美國領先人工智慧公司(如OpenAI和Meta)的模型競爭,其規模更小、效率更高且訓練和執行成本低得多。
然而,從管理理論特別是“顛覆性創新”理論來看,DeepSeek的成功或許本可以預見。顛覆性創新的核心在於提供低成本的替代方案,這些方案雖非尖端技術,但足以滿足許多使用者的基本需求。DeepSeek正是憑藉這種模式,衝擊了美國人工智慧行業的傳統認知,並引發了科技和能源股的波動。
如果管理理論能夠解釋這一現象,那麼它同樣可以為未來的發展提供啟示。基於技術變革理論,我們探討了這一顛覆對全球企業的影響,尤其是它們的領導者在選擇授權使用中國還是美國的大型語言模型(LLM)時所面臨的抉擇。
中美LLM的差異
中國LLM與美國LLM在兩個關鍵方面存在顯著差異:首先,中國LLM通常使用更便宜的硬體,並藉助開放架構降低成本;其次,許多中國LLM專注於特定領域的定製化應用,而非通用任務。不過,像DeepSeek-R1這樣的模型正在逐漸向通用推理模型轉變。
美國LLM通常依賴最先進的GPU叢集進行訓練,這些叢集包含數萬個英偉達的高階晶片,需要鉅額資本投入和強大的雲基礎設施支援。相比之下,由於先進晶片的出口管制,中國LLM更多地依賴於在多個較弱的GPU上進行分散式訓練。儘管硬體條件有限,但透過高效的架構設計,中國LLM仍能實現具有競爭力的效能。例如,DeepSeek的多頭潛在注意力(MLA)和專家混合(MOE)架構透過減少記憶體使用,提高了計算資源的利用效率。
開原始碼庫的廣泛應用也是中國LLM發展的重要推動力。DeepSeek-V3(其最新推理系統的基礎模型)和DeepSeek-R1均在麻省理工學院(MIT)開源許可下發布。這種寬鬆的許可方式允許使用者自由使用、修改和分發軟體,包括用於商業目的,從而極大地促進了技術的普及和應用。這種高效架構和開源策略在訓練成本上的優勢尤為明顯:DeepSeek報告的V3訓練成本為560萬美元,而美國公司如OpenAI和Alphabet的LLM訓練成本則高達4000萬至2億美元。
此外,美國LLM側重於基於全球資料集的通用查詢訓練,而許多中國LLM則專注於特定領域的精準應用。中國的科技巨頭(如阿里巴巴、騰訊、百度和字節跳動)以及新興初創公司(如DeepSeek)都透過LLM開發了深度融入中國數字生態系統的行業特定應用。
總結來說,中國LLM依賴於不太先進的硬體,並專注於低端、特定領域的應用,這些應用對計算能力的要求較低,成本也更低。例如,阿里巴巴的通義千問和字節跳動的豆包1.5pro的每100萬輸出標記的成本不到0.3美元,而OpenAI和Anthropic的高階模型則超過60美元。
這正是經典的顛覆理論在發揮作用。這與幾十年前美國小型鋼廠顛覆綜合鋼鐵廠的情況如出一轍。顛覆理論預測,一種在初始階段劣於現有技術(如電弧爐)的技術,針對特定低端任務(如生產低質量鋼筋)進行定製,最終將對專注於高階客戶(如高階鋼板客戶)並提供更高利潤的高階生產商(如綜合鋼鐵廠)構成威脅。慢慢地、穩步地,顛覆者提升其產品的質量,而現有企業則在市場細分領域一個接一個地向顛覆者讓出市場份額。
顛覆理論預測了DeepSeek及其同類產品的出現和發展。事實上,未來幾個月內其他顛覆者的出現並不會令人意外。特別是小型語言模型(SLM),它們使用的資料更少、資源更少,生成的內容質量也較低,可能會在未來幾個月內成為挑戰美國和中國LLM的另一種技術。
未來展望:全球企業如何應對?
DeepSeek的崛起引發了全球企業的一個關鍵問題:是選擇授權使用美國LLM,還是中國LLM,亦或是兩者都選?在此,管理理論中的技術多樣化策略提供了重要的參考。
在企業內部部署多種LLM模型的一個顯著優勢是風險分散化。對於LLM而言,這意味著可以降低供應商端停機帶來的影響。例如,如果OpenAI的服務因故中斷,企業可以迅速切換到其他供應商的模型,確保業務的連續性。
使用多種模型的另一個好處是聚合優勢。不同的模型基於不同的演算法,對同一問題可能給出不同的答案。研究表明,透過聚合多個模型的預測結果(即“整合”方法),通常能夠獲得更高質量的輸出,尤其是在處理複雜、模糊的任務時。事實上,像Openrouter這樣的平臺已經提供了一個整合介面,允許使用者即時比較180多個模型的效能和成本,從而實現更優的選擇。
然而,與單一供應商合作也有其優勢,例如降低管理成本和增強雙方對彼此能力的理解。使用多個模型可能會增加資料隱私和安全風險,因為資料需要在多個供應商之間共享。儘管這種風險在所有LLM中都存在,但跨國家/地區(如美國和中國)的資料使用和監管框架差異,會進一步增加複雜性,尤其是在醫療保健等敏感領域。
管理理論還提出了第三種策略:多元治理。這種策略結合了外部供應商和內部開發人員的力量,以充分利用新興技術。研究表明,那些在內部培養特定技術人才的公司,往往更能從新技術的出現中受益。在LLM領域,這意味著企業可以利用美國LLM處理通用任務(如為專業服務公司開發輔助研究的聊天機器人),同時利用中國LLM開發公司特定的應用(如人力資源培訓機器人)。
進一步來看,低成本、開源的LLM模型(即使其能力稍弱)將使企業能夠開發出適合自身需求的定製化模型。隨著時間推移,這些低成本、低質量的模型可能會逐步顛覆高成本的高階模型,就像小型鋼廠曾經顛覆綜合鋼鐵廠一樣。
儘管存在資料隱私和安全問題(近期TikTok事件引發了關注),美國LLM如果忽視中國LLM帶來的顛覆性威脅,將面臨巨大風險。他們至少應該警惕那些利用小型語言模型(SLM)等技術的美國本土顛覆者。大型美國人工智慧公司也可以嘗試自我顛覆(例如,通用電氣開發手持超聲裝置以顛覆傳統超聲業務),但研究表明,自我顛覆極為困難。前期對昂貴晶片、硬體和訓練資料的投資(這些已成為沉沒成本)以及對高利潤解決方案的依賴,可能會使大多數美國人工智慧公司繼續專注於高階LLM,而非轉向更便宜但“足夠好”的LLM。
對於全球企業而言,LLM領域的顛覆為投資內部技能和開發定製化模型提供了機遇,這將有助於實現更有針對性的應用、降低成本並提高投資回報率。
關鍵詞:DeepSeek
普里特維拉傑·喬杜裡(Prithwiraj Choudhury)、納塔拉賈恩·巴拉蘇布拉馬尼安(Natarajan Balasubramanian)、徐明弢(Mingtao Xu)| 文
普里特維拉傑·喬杜裡是哈佛商學院的Lumry家族副教授,也是《管理科學》雜誌的副主編。納塔拉賈恩·巴拉蘇布拉馬尼安是雪城大學惠特曼管理學院的阿爾伯特和貝蒂·希爾講席教授。他的研究聚焦於技術、人力資本、組織學習和創新如何推動商業價值創造。徐明弢是清華大學經濟管理學院創新創業與戰略系副教授。他的研究專注於創新中的產權問題以及人工智慧的戰略意義。
Kimi | 譯  周強 | 編校
推薦閱讀
《哈佛商業評論》中文版 聯絡方式
投稿、廣告、內容和商務合作
↓點選閱讀原文進入哈評中文網,閱讀更多精品內容


相關文章