

本文詳細回顧了大型語言模型從2017年Transformer架構的出現到2025年DeepSeek-R1的發展歷程,涵蓋了BERT、GPT系列、多模態模型、推理模型等關鍵進展,展示了LLMs在規模、效能、成本和多模態能力上的巨大進步,以及對AI領域和社會的深遠影響。
本文為轉載文章,AI和晶片資料都已上傳至“智慧計算芯知識”星球。如“《60+份AI Agent技術報告合集》”,“《清華大學:DeepSeek報告13部曲合集》”,“浙江大學:DeepSeek技術14篇(合集)”,“《270+份DeepSeek技術報告合集》”,“《100+份AI晶片技術修煉合集》”,“800+份重磅ChatGPT專業報告”,“《12+份Manus技術報告合集》”,加入星球獲取嚴選精華技術報告。
2025年初,我國推出了一款開創性且高性價比的「大型語言模型」(Large Language Model, LLM) — — DeepSeek-R1,引發了AI領域的巨大變革。

1. 什麼是語言模型 (Language Models)?
「語言模型」是一種「人工智慧系統」,旨在處理、理解和生成類似人類的語言。它們從大型資料集中學習模式和結構,使得能夠產生連貫且上下文相關的文字,應用於翻譯、摘要、聊天機器人和內容生成等領域。

1.1 大型語言模型(LLMs)
「語言模型」(LMs)和「大型語言模型」(LLMs)這兩個術語雖然經常被互換使用,但實際上它們基於規模、架構、訓練資料和能力指代不同的概念。LLMs 是 LMs 的一個子集,其規模顯著更大,通常包含數十億個引數(例如,GPT-3 擁有 1750 億個引數)。這種更大的規模使 LLMs 能夠在廣泛的任務中表現出卓越的效能。“LLM”這一術語在 2018 至 2019 年間隨著基於 Transformer 架構的模型(如 BERT 和 GPT-1)的出現開始受到關注。然而,在 2020 年 GPT-3 釋出後,這個詞才被廣泛使用,展示了這些大規模模型的重大影響力和強大能力。
1.2 自迴歸語言模型 (Autoregressive Language Models)
大多數LLMs以「自迴歸方式」(Autoregressive)操作,這意味著它們根據前面的「文字」預測下一個「字」(或token/sub-word)的「機率分佈」(propability distribution)。這種自迴歸特性使模型能夠學習複雜的語言模式和依賴關係,從而善於「文字生成」。

在文字生成任時,LLM透過解碼演算法(Decoding Algorithm)來確定下一個輸出的字。
這一過程可以採用不同的策略:既可以選擇機率最高的下個字(即貪婪搜尋),也可以從預測的機率分佈中隨機取樣一個字。後一種方法使得每次生成的文字都可能有所不同,這種特性與人類語言的多樣性和隨機性頗為相似。

1.3 生成能力

2. Transformer革命 (2017)

2.1 Transformer架構的關鍵創新




-
可擴充套件性:Transformers實現了完全並行化的計算,使得在大型資料集上訓練大規模模型成為可能。
-
上下文理解:自注意力捕捉區域性和全域性依賴關係,提高了連貫性和上下文意識。
3. 預訓練Transformer模型時代 (2018–2020)
3.1 BERT:雙向上下文理解 (2018)

-
掩碼語言建模(Masker Language Modeling — MLM):BERT不是預測序列中的下一個詞,而是被訓練預測句子中隨機掩碼的標記。這迫使模型在進行預測時考慮整個句子的上下文 — — 包括前後詞語。例如,給定句子“The cat sat on the [MASK] mat”,BERT會學習根據周圍上下文預測“soft”。
-
下一句預測(Next Sentence Prediction — NSP):除了MLM之外,BERT還接受了稱為下一句預測的次要任務訓練,其中模型學習預測兩個句子是否在文件中連續。這幫助BERT在需要理解句子之間關係的任務中表現出色,例如問答和自然語言推理。
3.2 GPT:生成式預訓練和自迴歸文字生成(2018–2020)

-
單向自迴歸訓練:GPT使用因果語言建模目標進行訓練,其中模型僅基於前面的標記預測下一個標記。這使得它特別適合於生成任務,如文字補全、摘要生成和對話生成。
-
下游任務的微調:GPT的一個關鍵貢獻是它能夠在不需要特定任務架構的情況下針對特定下游任務進行微調。只需新增一個分類頭或修改輸入格式,GPT就可以適應諸如情感分析、機器翻譯和問答等任務。



3.3 GPT的影響及規模的作用

-
資料集大小:更大的模型需要龐大的資料集進行預訓練。例如,GPT-3是在大量網際網路文字語料庫上進行訓練的,使其能夠學習多樣化的語言模式和知識領域。
-
計算資源:強大的硬體(如GPU和TPU)的可用性以及分散式訓練技術,使得高效訓練具有數十億引數的模型成為可能。
-
高效架構:混合精度訓練和梯度檢查點等創新降低了計算成本,使得在合理的時間和預算內進行大規模訓練更加實際。
4. 後訓練對齊:彌合AI與人類價值觀之間的差距 (2021–2022)
4.1 監督微調 (SFT)


-
可擴充套件性:收集人類演示是勞動密集型且耗時的,尤其是對於複雜或小眾任務。
-
效能:簡單模仿人類行為並不能保證模型會超越人類表現或在未見過的任務上很好地泛化。
4.2 基於人類反饋的強化學習 (RLHF)
-
訓練獎勵模型:人類註釋者對模型生成的多個輸出進行排名,建立一個偏好資料集。這些資料用於訓練一個獎勵模型,該模型學習根據人類反饋評估輸出的質量。
-
使用強化學習微調LLM:獎勵模型使用近端策略最佳化(Proximal Policy Optimization – PPO)(一種強化學習演算法)指導LLM的微調。透過迭代更新,模型學會了生成更符合人類偏好和期望的輸出。
4.3 ChatGPT:推進對話式AI (2022)

-
對話聚焦的微調:在大量對話資料集上進行訓練,ChatGPT擅長維持對話的上下文和連貫性,實現更引人入勝和類似人類的互動。
-
RLHF:透過整合RLHF,ChatGPT學會了生成不僅有用而且誠實和無害的響應。人類培訓師根據質量對響應進行排名,使模型能夠逐步改進其表現。
5. 多模態模型:連線文字、影像及其他 (2023–2024)

5.1 GPT-4V:視覺遇見語言

5.2 GPT-4o:全模態前沿
6. 開源和開放權重模型 (2023–2024)
-
開放權重LLMs:開放權重模型提供公開訪問的模型權重,限制極少。這使得微調和適應成為可能,但架構和訓練資料保持封閉。它們適合快速部署。例子:Meta AI的LLaMA系列和Mistral AI的Mistral 7B / Mixtral 8x7B
-
開源模型使底層程式碼和結構公開可用。這允許全面理解、修改和定製模型,促進創新和適應性。例子:OPT和BERT。
-
社群驅動的創新:像Hugging Face這樣的平臺促進了協作,LoRA和PEFT等工具使高效的微調成為可能。

7. 推理模型:從「系統1」到「系統2」思維的轉變 (2024)

7.1 OpenAI-o1:推理能力的一大飛躍(2024)

-
長鏈思維(Long CoT) :使模型能夠將複雜問題分解為更小的部分,批判性地評估其解決方案,並探索多種方法,類似於搜尋演算法。
-
推理時計算控制 :對於更復雜的問題,可以生成更長的CoTs;而對於較簡單的問題,則使用較短的CoTs以節省計算資源。
-
增強的推理能力 :儘管像o1-preview這樣的初始推理模型在某些領域的能力不如標準LLMs,但在推理任務中,它們的表現遠遠超越了後者,常常能與人類專家媲美。例如,o1-preview在數學(AIME 2024)、程式設計(CodeForces)和博士級別的科學問題上均超越了GPT-4o。

-
ARC-AGI :達到87.5%的準確率,超過了人類水平的85%,遠超GPT-4o的5%。
-
程式設計 :在SWE-Bench Verified上得分71.7%,並在Codeforces上獲得2727的Elo評分,躋身全球前200名競爭性程式設計師之列。
-
數學 :在EpochAI的FrontierMath基準測試中達到25.2%的準確率,相比之前的最先進水平(2.0%)有了顯著提升。

8. 成本高效的推理模型:DeepSeek-R1 (2025)
8.1 DeepSeek-V3 (2024–12)
-
多頭潛在注意力(Multi-head Latent Attention — MLA):透過壓縮注意力鍵和值來減少記憶體使用,同時保持效能,並透過旋轉位置嵌入(RoPE)增強位置資訊。
-
DeepSeek專家混合(DeepSeekMoE):在前饋網路(FFNs)中採用共享和路由專家的混合,以提高效率並平衡專家利用率。
-
多標記預測 (Multi-Token Prediction — MTP):增強模型生成連貫且上下文相關的輸出的能力,特別是對於需要複雜序列生成的任務。

8.2 DeepSeek-R1-Zero 和 DeepSeek-R1 (2025–01)
-
DeepSeek-R1-Zero:一種基於DeepSeek-V3的推理模型,透過強化學習(RL)增強其推理能力。它完全消除了「監督微調」(SFT)階段,直接從名為DeepSeek-V3-Base的預訓練模型開始。 它採用了一種基於「規則的強化學習方法」(Rule-based Reinforcement Learning),稱為「組相對策略最佳化」(Group Relative Policy Optimization — GRPO),根據預定義規則計算獎勵,使訓練過程更簡單且更具可擴充套件性。

-
DeepSeek-R1:為了解決DeepSeek-R1-Zero的侷限性,如低可讀性和語言混雜,DeepSeek-R1納入了一組有限的高質量冷啟動資料和額外的RL訓練。該模型經歷了多個微調和RL階段,包括拒絕取樣和第二輪RL訓練,以提高其通用能力和與人類偏好的一致性。

-
蒸餾DeepSeek模型:DeepSeek開發了較小的、蒸餾版的DeepSeek-R1,引數範圍從15億到700億,將先進的推理能力帶到較弱的硬體上。這些模型使用原始DeepSeek-R1生成的合成數據進行微調,確保在推理任務中表現出色,同時足夠輕量化以便本地部署。 DeepSeek 蒸餾DeepSeek模型

8.3 對AI行業的影響
結論
-
Transformers (2017):Transformer架構的引入為構建能夠以前所未有的精確性和靈活性處理複雜任務的大規模高效模型奠定了基礎。
-
GPT-3 (2020):該模型展示了規模在AI中的變革力量,證明了在大規模資料集上訓練的巨大模型可以在廣泛的應用中實現接近人類的表現,為AI所能完成的任務設立了新的基準。
-
ChatGPT (2022):透過將對話式AI帶入主流,ChatGPT使高階AI對普通使用者來說更加可訪問和互動。它還引發了關於廣泛採用AI的倫理和社會影響的關鍵討論。
-
DeepSeek-R1 (2025):代表了成本效率的一大飛躍,DeepSeek-R1利用專家混合架構(MoE)和最佳化演算法,與許多美國模型相比,運營成本降低了多達50倍。其開源性質加速尖端AI應用的普及化,賦予各行業創新者權力,並強調了可擴充套件性、對齊性和可訪問性在塑造AI未來中的重要性。
轉自:人工智慧前沿講習
原文連結:



溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

