
封面圖 By 即夢
這篇文章,我們用一個所有人都熟悉的案例,幫大家徹底理解大語言模型的那些"高大上"概念:
-
• 預訓練 -
• 微調 -
• 提示詞工程 -
• RAG(檢索增強生成)。
這個案例就是我們每個人都經歷過的學習考試過程。
看完這篇文章,你會對AI的工作原理有全新的認識,以後使用AI時也會更加得心應手。
Tips:本文由 DeepSeek 基於我的錄音稿整理潤色,我只做了“微調”。
預訓練
每學期開學,老師都會發給我們一堆教材,然後在課堂上講解知識點。
這個過程中,我們把一學期的知識逐漸內化、理解和吸收——這其實就是大語言模型的預訓練過程。
這裡有個關鍵區別:死記硬背 vs 真正理解。
-
• 死記硬背:你只能記住題目和標準答案,考試遇到原題會做,但題目稍有變化就束手無策 -
• 真正理解:你能融會貫通,應對不同的題型和場景——這正是現代大語言模型的核心策略
AI 回答 = 考試
考試時,你看到題目後會:
-
1. 理解題目要求 -
2. 呼叫大腦中相關的知識 -
3. 經過一系列推理和知識整合 -
4. 最終一個字一個字地寫出答案
這完全就是AI回答問題的過程!
當你向AI提問時,它也是:
-
1. 理解你的問題(提示詞) -
2. 呼叫預訓練學到的知識 -
3. 經過內部推理和整合,逐字生成回答
提示詞 VS 考試題
有時候,你學的東西太多太雜,面對一個很簡單的問題時可能不知道關聯哪個知識點。
這時,題目的清晰度就至關重要。
如果老師在出題時明確說明:
-
• 考查哪一章哪一節的知識點 -
• 需要呼叫哪些具體知識 -
• 回答的格式要求
那麼不管你的知識多雜亂,只要題目足夠清晰,你就能準確呼叫相關知識作答。
提示詞工程的精髓
這就是提示詞工程的精髓!
你向 AI 提問時:
-
• 問題越簡單模糊,AI越可能"亂答"(其實是隨機呼叫相關知識) -
• 問題越詳細、指向越明確、格式要求越規範,AI回答質量越高
小貼士:AI不是"亂答",而是它的知識太龐雜,當問題不明確時,它只能隨機選擇相關知識來回答。
微調 = 做真題
很多人誤以為"這個知識AI不會,微調一下就好了"。這是對微調的誤解!
微調更像是考前老師帶你做真題講解:
-
• 你不知道高考會考什麼題 -
• 但老師會講解往年真題的正確答案和解題思路 -
• 透過這種方式,你學會"如何更好地作答"
微調的本質是教AI更好地作答,而不是教它新的知識。
如果某個知識點AI根本沒學過,做再多真題(微調)也沒用!
繼續預訓練 = 復讀
要讓AI掌握它原本不會的知識點,唯一的方法是繼續預訓練(相當於學生復讀):
-
• 準備包含專有知識的語料(如公司內部資料) -
• 這些語料包含對知識的解釋和各種關聯關係 -
• AI透過繼續學習這些材料來掌握新知識
同樣的道理,如果高考考到一個你完全沒學過的概念,即使給你參考書,你短時間內也無法掌握並正確作答。
——這就是RAG(檢索增強生成)的侷限性。
RAG = 開卷考試
RAG就像開卷考試,它的關鍵在於如何準備和整理"小抄":
-
• 糟糕的做法:直接帶整本書進考場 -
• 正確的做法:提前整理好知識點和關鍵詞索引,考試時快速定位相關內容
所以做 RAG:
-
• 必須對進行精細清洗和拆解,確保片段完整 -
• 在確保段落完整的基礎上儘量簡短,方便抄
目前流行的"個人知識庫"產品,只是簡單拆分文件(如每2000字一段),這可能導致知識點被切碎,最終AI回答質量低下。
好學生 壞學生
大語言模型就像個"學習成績很好好學生",但好學生不一定總能拿高分。
因為它沒有“好學生”的辨識判斷力:
-
1. 它需要"好題目"(清晰的提示詞),否則會隨機選取知識點答題 -
2. 如果開卷考試提供的資料錯誤或者殘缺,它不會糾正修復,而是硬抄 -
3. 遇到完全沒學過的知識,做再多“真題”也無濟於事
例如,我問Claude模型"什麼是MCP"(Claude官方釋出的新功能),它完全胡編亂造!因為:
-
• MCP釋出時,模型已經"畢業"(訓練完成) -
• 它不懂,但會硬編

總結
人類和大語言模型在知識學習和輸出的邏輯上驚人地一致。理解這一點,你就能:
-
• 更有效地使用AI工具 -
• 合理預期AI的能力邊界 -
• 針對不同需求選擇適當的方法(預訓練、微調或RAG)
現在,你對大語言模型的工作原理是不是有了全新的認識?
更多 AI 的應用、討論、分享,必須來 AI 學習行動圈,3700+ 實戰派正在分享用不完的創意!
一年多過去了,以星球和社群為載體的「AI 學習圈」
-
沉澱了 1500+條 AI 情報和實戰技巧
-
2700+個 AI 相關的行業報告;
-
3700+個對 AI 感興趣的職場人加入了我們的 6 個微信群
-
在過去的連續 300+天裡每天可以收到我們推送的 AI 早報。

學習圈目前有 3 個核心的學習交流“陣地”:
-
知識星球:知識資料技巧沉澱的核心渠道,隨時可查閱
-
微信交流群:目前 6 個群,每天都有圈友交流分享 AI 使用心得
-
吹水局直播:工作日晚 19:30-21:30,每場一個 AI 應用主題
陣地一:知識星球
我在星球裡主要維護「實戰分享」「工具箱」和「情報局」三個標籤

實戰分享是可以在日常工作和生活中直接應用的提示詞和效率工具。上面截圖裡的 Step-Back 提示詞就非常好用,堪比 o1。在公眾號、直播中演示的所有 AI 實戰應用的提示詞也都在這個標籤下。
AI 工具和鮮知道就是好用的、熱門的 AI 工具、資訊分享,我把那些太技術、太浮誇的都篩選了,放進這個標籤的都是可以直接用來的好玩兒!
星球還有一個“專欄”體系,目前的定位跟標籤差不多。

如果你正在找一個能第一時間瞭解最新、實用的 AI 資訊和實戰技巧,遇到任何 AI 應用問題能隨時找到同行人交流、請教、討論的圈子,
陣地二:微信交流群
我們為圈友配了微信交流群,現在 5 群快滿了。
微信群裡每天一早有 AI 早報,上下午還有“讀報時間”,以及我每天不定期刷屏級的各種 AI 工具體驗、提示詞編排思考、行業新聞解讀同步。

以及,你可以在群裡討論任何與 AI 相關的工具、應用問題,幾乎都能找到答案。

如果你正在找一個能第一時間瞭解最新、實用的 AI 資訊和實戰技巧,遇到任何 AI 應用問題能隨時找到同行人交流、請教、討論的圈子,
立刻掃碼領取 50 元立減金加入

陣地三:AI吹水局直播
剛覆盤我專門去影片號後臺看了一下直播記錄,過去一年一共為學習圈做了 130 場 AI 應用、實戰、熱點解讀相關的直播,累計肝了 257 小時!

有十幾場僅學習圈成員可觀看的閉門直播,平均觀看時長都是 1 個多小時,有時逼近接近 2 小時!


沒點乾貨,平均停留時長到不了這水平的。
立刻掃碼領取 50 元立減金加入

