回顧LLM領域的一些熱詞，哪些你不知道？

MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

轉載自 | 知乎

作者 | Glan格藍

以下熱詞並不侷限於24年，也沒有囊括完24年，看看有沒有你很眼熟的呢

[ MoE，Agent/Agentic，Sora，GraphRAG，GPT-4o，o1，ORM，PRM，test-time compute，Inference Scaling Laws，MCTS，Self-Play，Self-Rewarding，RFT，PPO，DPO，GRPO ……]

疊下甲：

“中文”欄位取最常見的中文叫法，若沒有就是硬翻；

“相關”欄位為其相關的同類，不一定全；

“出處”取網際網路搜到的，不一定準；

“胡侃”欄位權當看個樂子，一家之言；

歡迎評論區給出意見，接下來開始

MoE

全稱：Mixture-of-Experts

中文：混合專家（模型）

出處：最早這個概念是 Hinton 老爺子在1991年發表的《Adaptive Mixtures of Local Experts》[1]
中提出，然後在23年3月 GPT-4 釋出後火了一把，因為駭客的小道訊息傳其使用了 MoE 架構，之後23年12月 Mistral AI 釋出了首個開源的 MoE 架構模型 Mixtral-8x7B [2]，接著24年1月 DeepSeek 釋出了國內首個開源的 MoE 架構模型 DeepSeekMoE [3]。

胡侃：2024年模型上以 DeepSeekMoE 開頭，以為 MoE 架構會在24年大放異彩，但中途被 o1 截胡，不過在年尾 DeepSeek-V3 [4] 還是挽了下 MoE 的尊。但是 V3 這麼大，下載量截止目前已經有155K [5] 了，大家都這麼富裕了嗎？

Agentic

中文：智慧體化

出處：說 Agentic 肯定要先說 Agent，這個詞很早就有了，但在 LLM 領域最早認為是 OpenAI 在23年6月的一篇部落格中《LLM Powered Autonomous Agents》[6] 對 LLM 中的 Agent 進行了一個較為綜合的定義，之後 OpenAI 在23年12月份釋出的《Practices for Governing Agentic AI Systems》 [7] 提到了 Agentic 這個詞。

胡侃：2024 應用上以 Agent/Agentic 開頭，以為24年將會遍地開花，但在24年的結尾來看水花不大，不過 Anthropic 在24年結尾的《Building effective agents》[8] 寫的真實在。目前大家的 Agent 大部分本質就是 Workflow + Prompt，但彙報還是得用“Agent”講故事。

Sora

出處：24年2月OpenAI釋出的影片生成模型。

相關：24年6月快手可靈，7月智譜清影，8月 MiniMax video-01，9月位元組 PixelDance 和 Seaweed 。

胡侃：24年尾巴上了，終於可以掏錢體驗 Sora 了，體驗之後發現和年初吹的牛皮差的有點距離呀！

GraphRAG

中文：圖檢索增強生成

出處：微軟在24年4月於《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》[9] 中提出。

相關：RAG 這個概念最早是由 Meta 在20年於《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》[10]中提出，目前各種 RAG 層出不窮，不在此敘述了。

胡侃：當前 RAG 已經成為了一種解決 LLM 知識時效性差、幻覺、領域專業性欠缺等問題的正規化，24年 RAG 方向的工作依然很火熱，畢竟能真實應用落地，LLM 落地的一根大柺杖。但 Graph 的方式是不是 RAG 的正確開啟方式呢？

GPT-4o

出處：24年5月 OpenAI 釋出的多模態模型。

相關：24年7月階躍 Step-1.5V，9月 Meta Llama 3.2 ，9月 Mistral AI Pixtral 12B，10月阿里 Qwen2-VL，10月百川 Baichuan-Omni。

胡侃：4o 三模端到端，但24年來看多模態依然前路漫漫，未來的 AGI 一定是多模態的，但現在的 AGI 還是文字的。

o1

出處：24年9月 OpenAI 釋出的推理模型。

相關：24年11月阿里 QwQ-32B-Preview，11月 DeepSeek-R1-Lite，11月月暗 k0-math，12月智譜 GLM-Zero-Preview

胡侃：2024 真神降臨！

接下來是和 o1 相關的熱詞，畢竟下半年大家都在研究 o1

ORM；PRM

全稱：Outcome-supervised Reward Model；Process-supervised Reward Model

中文：結果監督獎勵模型；過程監督獎勵模型

出處：早在23年5月 OpenAI 的《Let's Verify Step by Step》[11]就提出了。

胡侃：o1 橫空出世後，大家都在解密他，PRM 應該是其核心的一個方法，大家開始訓 PRM 了，但 OpenAI 有800K 的標註資料，雖然開源了，但沒開源的有多少呢？

train-time compute；test-time compute

中文：訓練時計算量；測試時計算量

出處：24年9月份 OpenAI 的《Learning to reason with LLMs》[12] 部落格中提到。

胡侃：結合原文看

We have found that the performance of o1 consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute)

時間長才會真的強。

Inference Scaling Laws/Test-Time Scaling

中文：推理擴充套件定律

出處：o1 釋出後， Scaling Laws 的推理版本，準確的出處說不太清，這篇 Paper 實驗做的不錯《Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for LLM Problem-Solving》[13]

胡侃：開啟一個新的階段，老黃這張圖不錯

MCTS

全稱：Monte Carlo Tree Search

中文：蒙特卡洛樹搜尋

出處：最早是 2006 年的《Bandit based Monte – Carlo Planning》[14] 提出

胡侃：o1 到底用沒用？

猜測的 o1 推理正規化：SA，MR，DC，SR，CI，EC

全稱中文：

系統分析Systematic Analysis（SA）

方法重用Method Reuse（MR）

分而治之Divide and Conquer（DC）

自我改進Self-Refinement（SR）

上下文識別Context Identification （CI）

強化約束Emphasizing Constraints（EC）

出處：一篇研究 o1 的 Paper 猜測的 o1 推理正規化《 A COMPARATIVE STUDY ON REASONING PATTERNS OF OPENAI’S O1 MODEL》[15]

胡侃：你 Close 你的，我研究我的。

接下來是幾個"self"

Self-Play

中文：自博弈

出處：第一次熱是2016年AlphaGo大戰李世石後，這次隨著 o1 又熱了起來，Self-Play 本身是正統RL裡面的一個概念，24年8月份這篇綜述不錯《A Survey on Self-play Methods in Reinforcement Learning》[16]

胡侃：NLP 出身搞 LLM 的，接受正統 RL 的洗禮吧，下面缺一個賣 RL 課的廣告…

Self-Rewarding

中文：自我獎勵

出處：24年1月 Meta 在《Self-Rewarding Language Models》[17] 提到。

胡侃：就是不用人工來標資料了，讓 LLM-as-a-Judge，但是感覺路漫漫。

Self-Correct/Correction

中文：自我糾錯

出處：這個概念 LLM 出現後就有了，結合 RL 的24年9月 DeepMind 在《Training Language Models to Self-Correct via Reinforcement Learning》中提到[18]

胡侃：在o1釋出的8天后， DeepMind 甩出了這篇 Paper，但聲量似乎有點少。

Self-Refine

中文：自我最佳化

出處：一般指23年3月卡內基梅隆大學的這篇《Self-refine: Iterative refinement with self-feedback》[19]

胡侃：成為了眾多 Paper 中的一個 Baseline。

Self-Reflection

中文：自我反思

出處：這個提到的比較多，貼幾篇不錯的

《Self-Reflection in LLM Agents: Effects on Problem-Solving Performance》[20]；

《Self-RAG: Learning to Retrieve, Generate and Critique through Self-Reflection》[21]；

《Towards Mitigating Hallucination in Large Language Models via Self-Reflection》[22]

胡侃：什麼是人類的反思，什麼是 LLM 的反思？

Self-Consistency

中文：自我一致性

出處：一般指23年Google的這篇《Self-Consistency Improves Chain of Thought Reasoning in Language Models》[23]

胡侃：期待更多實用的 ”self“，畢竟人類喜歡低耗能的事情，不喜歡自己動（洗資料）

RFT

全稱：Reinforcement Fine-Tuning

中文：強化微調

出處：OpenAI 的 12 Days 第二天直播提出的，這是直播的影片[24]，這是申請單[25]。

注意和位元組 ReFT 的區別（所以到底有區別嗎），OpenAI 的官方簡稱是RFT

Today, we're excited to introduce a new way of model customization for our O1 series: reinforcement fine-tuning, or RFT for short.

ReFT

全稱：Reinforced Fine-Tuning

中文：強化微調

出處：24年1月位元組在《ReFT: Reasoning with Reinforced Fine-Tuning》[26]提出

胡侃：從 OpenAI 目前披露出的訊息，應該和位元組的 ReFT 原理差的不是特別多，不過 OpenAI 概念的神，PPO～RFT，Reward Model ～ Verifier。但如果在專業領域，答案固定且 Verifier 也比較好定義的任務上，真的需要 “dozens of data” 就能夠非常有效的話，想想還是挺期待的。不要再像 Sora 一樣拖到 25 年底才能體驗吧…

下面是幾個"O"

PPO

全稱：Proximal Policy Optimization

中文：近端策略最佳化

出處：2017年 OpenAI 在這篇《Proximal Policy Optimization Algorithms》[27]提出。

胡侃：以下 O 的老祖宗。

DPO

全稱：Direct Preference Optimization

中文：直接偏好最佳化

出處：23年斯坦福在這篇《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》[28]提出。

胡侃：你的出現讓中小作坊大喜！

GRPO

全稱：Group Relative Policy Optimization

出處：DeepSeek 在24年2月《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》[29] 中提出。

胡侃：優雅實用高效

幾個比較常見且已經有實現的"O"

ORPO

全稱：Odds Ratio Preference Optimization

出處：KAIST AI 在24年3月份《ORPO: Monolithic Preference Optimization without Reference Model》[30]提出。

KTO

全稱：Kahneman-Tversky Optimization

出處：24年2月份的《KTO: Model Alignment as Prospect Theoretic Optimization》[31] 提出

SimPO

全稱：Simple Preference Optimization

出處：24年5月份的《SimPO: Simple Preference Optimization with a Reference-Free Reward》[32]提出

RLOO

全稱：Reinforce Leave-One-Out

出處：Cohere For AI 在24年2月份的《Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs》[3] 提出

2024 結束，2025 的 GPT-5 ，o3 又將會掀起什麼大風大浪呢？風浪越大魚越貴！

參考

https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf
https://arxiv.org/pdf/2401.04088
https://arxiv.org/pdf/2401.06066
https://arxiv.org/pdf/2412.19437
https://huggingface.co/deepseek-ai/DeepSeek-V3
https://lilianweng.github.io/posts/2023-06-23-agent/
https://cdn.openai.com/papers/practices-for-governing-agentic-ai-systems.pdf
https://www.anthropic.com/research/building-effective-agents
https://arxiv.org/pdf/2404.16130
https://arxiv.org/abs/2005.11401
https://arxiv.org/pdf/2305.20050
https://openai.com/index/learning-to-reason-with-llms/
https://arxiv.org/pdf/2408.00724
http://ggp.stanford.edu/readings/uct.pdf
https://arxiv.org/pdf/2410.13639
https://arxiv.org/pdf/2408.01072
https://arxiv.org/pdf/2401.10020
https://arxiv.org/pdf/2409.12917
https://arxiv.org/pdf/2303.17651
https://arxiv.org/pdf/2405.06682
https://arxiv.org/pdf/2310.11511
https://arxiv.org/pdf/2310.06271
https://arxiv.org/pdf/2203.11171
https://www.youtube.com/watch?v=yCIYS9fx56U
https://openai.com/form/rft-research-program/
https://arxiv.org/pdf/2401.08967
https://arxiv.org/pdf/1707.06347
https://arxiv.org/pdf/2305.18290
https://arxiv.org/pdf/2402.03300
https://arxiv.org/pdf/2403.07691
https://arxiv.org/pdf/2402.01306
https://arxiv.org/pdf/2405.14734
https://arxiv.org/pdf/2402.14740

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

MoE