DeepSeek改寫Al業的遊戲規則

自1月20日DeepSeek釋出新模型 DeepSeek-R1以來,這間來自中國的人工智慧(AI)創業公司,火速成為全球科技圈的焦點。英美主流媒體紛紛報道了DeepSeek的研究進展,高度評價其卓越效能。
外媒CNBC甚至發文稱,「DeepSeek-R1因其效能超越美國頂尖同類模型,且成本更低,算力消耗更少,引發了美國矽谷的恐慌。」更值得注意的是,超微(AMD)作為全球領先的晶片廠商,透過與DeepSeek合作,為AI推理帶來新的想象空間,並有望動搖「輝達+OpenAl」主導的行業格局。業內掀起了關於DeepSeek如何打破算力需求「怪圈」的討論,1月24日輝達股價應聲下跌3%。
DeepSeek-R1在訓練階段,大規模使用強化學習技術,顯著提升了模型的推理能力。在數學、程式碼、自然語言推理等任務上,其效能已媲美OpenAl o1的正式版。這一突破引發了海外A圈的廣泛討論,輝達(Nvidia)高階研究科學家在社交媒體表示,「我們正身處一個歷史時刻,一家非美國公司正在延續OpenAl最初的使命:透過真正開放的前沿研究,賦能全人類。」Meta員工也在匿名社群爆料,「Meta的生成式人工智慧團隊正陷入恐慌,工程師們正瘋狂拆解DeepSeek的奧秘。」
DeepSeek展現了更高的經濟效益和推理效率。DeepSeek-V3的總訓練成本僅為550萬美元左右,不到Llama 3.1 405B訓練成本十分之一。這一低成本高效益的模式,讓Meta等矽谷巨頭吃驚,也許會帶領整個行業改變,甚至更多針對特定用途的企業模型湧現,打破贏家通吃的市場格局。這引發了一場激烈辯論,主題是資源雄厚的美國人工智慧企業,能否守住技術優勢。
有觀點認為,Deepseek的低訓練成本預示著,AI大模型對算力投入的需求將大幅下降,這無疑將衝擊輝達的市場地位。業界關注到在有限硬體資源下,透過軟體最佳化,也能實現頂尖效能的能力,減少對高階影像處理器(GPU)的依賴。
DeepSeek可能意味著,AI大模型的應用將逐步走向普惠,透過低成本高效率的模型訓練及推理最佳化,正在改寫AI行業的遊規則。其開源策略和創新能力,不僅讓矽谷巨頭感到壓力,也為全球AI行業帶來新想象空間。隨著 DeepSeek的崛起,AI大模型的門檻正在降低,行業格局或將迎來新變革。而且筆者認為,DeepSeek的崛起僅是中國新生代人工智的第一響。
作者簡介:
車品覺 教授 Prof Herbert Chia
客座副教授
港交所董事
前紅杉資本中國基金專家合夥人
前香港科技園公司董事會成員及前阿里巴巴集團副總裁兼首任資料委員會會長
掃碼或點選“閱讀原文”獲取課程資料
如果感覺內容不錯歡迎在文章下方“一鍵三連” 也可以點選左下角⬇頭像關注並且🌟星標這樣新文章就會第一時間出現在你的列表裡了

相關文章