朋友們
都2025年了
還有很多人弄不清大模型裡的一些基礎概念
到底什麼是蒸餾什麼預訓練什麼是token?
今天指北決定做一期
用動畫《哪吒之魔童鬧海》來一口氣搞懂這些概念!
——
0
1
基座模型:
哪吒的原始魔丸之力

魔丸是天生的混沌能量,強大但難以控制,如同基座模型擁有海量知識和通用能力,但直接使用可能產生不穩定或不符合預期的結果。
它是哪吒能力的核心來源,類似基座模型透過預訓練學習通用語言理解能力,但需要被“馴化”才能安全應用。
02
智慧體:
乾坤圈限制下的哪吒 + 太乙真人的法寶

哪吒透過乾坤圈壓制魔性,智慧體透過提示工程引導基座模型的輸出,或透過微調進一步約束其行為,並藉助混天綾、火尖槍等法寶(對應外部工具/API)實現具體目標(如降妖、救人)。
智慧體像哪吒一樣,在基座模型的基礎上,透過任務導向的最佳化(如對抗天劫的使命)和工具擴充套件(如調用搜索引擎、程式碼直譯器),成為能解決實際問題的“可控形態”。
03
預訓練:
哪吒修煉基本功

預訓練是什麼?
預訓練就是讓AI大模型透過閱讀海量文字,掌握基礎的語言能力和世界知識。
大模型的預訓練階段,就如同哪吒的童年修煉期。模型被“餵食”網際網路上的海量文字,從百科到小說,從科學論文到社交媒體帖子,應有盡有。透過這個過程,模型逐漸掌握了:
語言結構:就像哪吒學會了基本的拳腳功夫
常識知識:相當於哪吒瞭解了人間的風俗人情
推理能力:好比哪吒學會了如何在戰鬥中臨機應變
預訓練結束後的大模型,就如同初步修煉成功的哪吒,有了基礎能力,但還需要進一步的“微調”才能適應特定任務。
0
4
微調(Fine-tuning):
哪吒大戰某妖族前的專項訓練

當哪吒需要對抗龍王時,他會針對性地強化與水有關的法術,這就像大模型的微調過程。
微調是在預訓練基礎上,使用特定領域的資料進一步訓練模型,使其在特定任務上表現更好。
比如,一個通用大模型經過醫學資料微調後,會在醫療問答上表現更出色。
就像哪吒在與龍族對抗前,會更專注練習水下作戰技能。
人工監督強化學習 (RLHF):
如同太乙真人指導哪吒駕馭混元珠的力量

人工監督強化學習,就像哪吒需要在太乙真人的指導下學會控制體內混元珠的力量。哪吒初生時具有強大但難以控制的能力,這就像大模型在預訓練後擁有龐大知識但缺乏對齊。
太乙真人給哪吒施加乾坤圈和混天綾,透過獎懲機制引導他的行為。這就像RLHF流程中,人類標註者對模型輸出進行評估,建立獎勵模型來指導AI“什麼是好的回答”。
當哪吒在鬧海宮犯下錯誤後,太乙真人不僅懲罰他,還教導他正確的力量運用方法。類似地,RLHF不只是懲罰模型的不良輸出,還透過強化學習演算法引導模型產生更符合人類期望的回應。
Token:
如同陳塘關的磚瓦與木材

Token是什麼? Token是大模型處理文字的最小單位,類似於語言的“積木”。模型不理解整句話,而是將文字拆分成這些基本單位來處理。
陳塘關的建築材料:想象陳塘關是用無數磚瓦、木材等基礎材料搭建起來的。一塊磚看似簡單,但它是構成整個城牆的基礎;一根木樑不起眼,卻是支撐房屋的關鍵。同樣,Token就是構建語言世界的基礎材料。
當你輸入“哪吒鬧海”這個短語時,模型會將它分解成更小的單位。在中文中,可能是單個字元;在英文中,可能是單詞或單詞的一部分。比如"playing"可能被分解為"play"和"ing"兩個Token。
每個大模型都有Token上限,就像陳塘關的城牆只能用有限數量的磚塊建造。常見的大模型一次能處理幾千到幾萬個Token,超過這個數量,前面的內容就會被“遺忘”。
湧現能力(Emergent Abilities):
如同哪吒的突破修為

哪吒經過不斷修煉,某一天突然頓悟,獲得了遠超以往的能力,這就像大模型的湧現能力——當模型規模達到某個臨界點時,突然展現出之前從未明確訓練過的新能力。
例如,GPT-3在達到一定規模後,突然能夠進行少樣本學習和元學習,而這些能力在小規模模型中幾乎不存在。這種質變讓研究人員感到驚訝,因為這些能力並非刻意訓練的結果,而是隨著規模增長自然“湧現”的。
就像哪吒在度過某個瓶頸期後,不僅法力增強,還領悟了全新的神通,是量變引發的質變。

資料蒸餾是將大型複雜模型(教師模型)的知識轉移到更小、更高效模型(學生模型)的過程。這就像哪吒從父親李靖和師父太乙真人那裡獲得精華傳承,但以更為精簡的方式。
太乙真人可能修煉數千年積累了海量道法,但他不會把全部都教給哪吒,而是提煉出精華,傳授給哪吒最有用、最精華的部分。同樣,資料蒸餾也是將大模型的“智慧”提煉後傳給小模型。
資料蒸餾的優勢在於,學生模型雖然規模小、引數少,但能夠獲得接近教師模型的效能,同時計算效率更高。就像哪吒雖然年齡小、修為尚淺,但透過獲取精華傳承,能夠發揮出與成年修士相比擬的戰力。
引用幻覺(Citation Hallucination):
如同哪吒的虛構戰績

有時哪吒可能會誇大自己的戰績,聲稱“我曾用乾坤圈打敗過東海龍王三太子”,即使根本沒發生過。大模型也存在類似行為,它們會生成看似可信的引用和來源,但實際上這些引用可能是編造的。
例如,模型可能會引用“《人工智慧研究前沿》(2023)中Smith等人的研究表明…”,但實際上這篇論文可能根本不存在。這種特定型別的幻覺被稱為引用幻覺,是大模型的一個常見問題。
與哪吒虛構戰績一樣,這些編造的引用看起來很專業,很容易誤導使用者相信其真實性。
上下文視窗(Context Window):
如同哪吒的視界範圍

哪吒在戰鬥時,能夠感知的範圍有限,超出視界範圍的敵人或事物他就無法察覺與應對。大模型的上下文視窗就像哪吒的視界範圍,決定了一次能“看到”多少內容。
早期模型如GPT-3的上下文視窗只有4K tokens,就像哪吒初期法力有限,只能觀察到附近的敵情。而現代模型擁有更長的上下文視窗,就如同修為大增後的哪吒,能夠俯瞰整個東海龍宮了。
當我們與大模型對話太長,超出上下文視窗,模型就會“遺忘”早期的對話內容,就像哪吒在長時間激烈戰鬥後,可能會忘記戰鬥初期的細節。
前面的還是有看不懂的沒有關係,
這裡有個更簡單的版本——
大模型的成長曆程就像是哪吒的修煉之路,
從預訓練獲得基礎能力形成基座模型,就像哪吒體內的原始魔丸之力;
透過微調適應特定領域,猶如哪吒針對性修煉;
RLHF如太乙真人的指導,教會模型產生符合人類期望的回應;
當達到臨界點,產生湧現能力,宛如哪吒突破修為;
資料蒸餾則將大模型知識傳給小模型,如同傳授精華道法;
模型受上下文視窗限制處理資訊,類似哪吒的視界範圍;
最終透過約束與工具擴充套件,成為能解決實際問題的智慧體,
如同被乾坤圈限制且配備法寶的哪吒。
從混沌能量到可控戰力,大模型就像哪吒一樣,煉成出來鬧海了!
–END–
報名開啟|西二旗指北 x 釦子邀你參與釦子 AI 工坊硬體場四城聯動!
📍活動時間:2025年3月22日14:00-17:00
📍活動地點:北京、深圳、杭州、成都
🤖 更多硬體: AI + 開發板、音響、魚缸、攝像頭、玩具、天文望遠鏡…AI 硬體最佳實踐分享來啦!
🤖 更多外掛 & 模型:DeepSeek 等各種模型,音樂助手等最新外掛,匹配更多真實場景!
🤖 更大範圍:10+硬體合作伙伴、AI/硬體社群、800+AI 開發者,在實驗室體驗硬體全鏈路開發過程、最新 AI 硬體成果展示交流!
🎁 掃描下面二維碼進行活動報名,現場還有機械鍵盤、最新 AI 硬體、釦子周邊等獎品等你拿!
(大家記得在對應的第14題處填寫“西二旗指北”,可以優先透過,更方便我們線上下對你進行服務~)

另外,
西二旗指北社群
今天新建了一個AI硬體交流群
裡面都是AI行業大佬和從業者
快進來討論!
👇👇👇

掃碼傳送關鍵詞:AI硬體
小助手馬上拉你入群!
本文系“西二旗生活指北”原創
轉載請標明出處
部分內容由AI生成
製作:編輯部
微博:西二旗生活指北
