“是我創造了第一個LLM”！Kaggle前首席科學家一句話引發AI學術圈考古行動

2025-08-22 21:49 CVer

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

夢晨發自凹非寺量子位 | 公眾號 QbitAI

論如何在技術圈爭論中一句話噎到對方：

哥們，是我創造了第一個大語言模型。

發言者Jeremy Howard為澳大利亞昆士蘭大學名譽教授、曾任Kaggle創始總裁和首席科學家，現answer.ai與fast.ai創始人，。

事情的起因是有人質疑他最近的專案llms.txt在幫助大模型爬取網際網路資訊上並沒太大作用，從而引發了這段爭論，迅速引起眾人圍觀。

聞訊而來的“賽博考古學家們”一番考據之後，發現第一個大語言模型這個說法還真有理有據：

2018年初，Jeremy Howard發表的論文ULMFiT，使用非監督預訓練-微調正規化達到當時NLP領域的SOTA。

甚至GPT-1的一作Alec Radford，在發表GPT-1時也公開承認過ULMFiT是靈感來源之一。

有人搬出綜述論文，指出從“遺傳學”視角看，ULMFiT是所有現代大模型“最後的共同祖先”。

還有好事者軟體工程師Jonathon Belotti，專門寫了一篇完整考據《誰才是第一個大語言模型》

大語言模型起源考據

首先來介紹一下ULMFiT這篇論文，入選ACL 2018：

提出有效遷移學習方法，可應用於NLP領域的任何任務，並介紹了微調語言模型的關鍵技術，在六個文字分類任務上的表現明顯優於當時的SOTA方法，在大多數資料集上將錯誤率降低了18-24%。此外，僅使用100個帶標籤的示例，它的效能就與在100倍以上資料上從頭開始訓練的模型效能相當。

那麼ULMFit算不算第一個大語言模型呢？Jonathon Belotti考據遵循這樣的思路：

首先找一個大家都公認肯定算大語言模型的成果，GPT-1肯定符合這個標準。

再從GPT-1和後續GPT-2、GPT-3中提取一個模型成為成為大語言模型的標準：

首先要是一個語言模型，根據輸入預測人類書面語言的組成部分，不一定是單詞，而是token
核心方法是自監督訓練，資料集是未標記的文字，與此前特定於任務的資料集有很大不同
模型的行為是預測下一個token
能適應新的任務：不需要架構修改，就有few-shot甚至one-shot能力
通用性：可以先進的效能執行各種文字任務，包括分類、問答、解析等

接下來分析GPT-1引用的幾個重要模型：原版Transformer，CoVe，ELMo和ULMFiT。

Transformer雖然是現代主流大模型的架構基礎，但原版只用於機器翻譯任務，還不夠通用。同時非Transformer架構如LSTM、Mamba甚至Diffusion也可被視作大型語言模型。

CoVE提出了語境化詞向量，是遷移學習領域的一項重要創新，但它透過監督學習訓練（英語翻譯德語）建立向量，不符合自監督學習的條件。

ELMo使用了自監督預訓練和監督微調正規化，但在few-shot能力上還差點意思。

總之在作者Jonathon Belotti看來，CoVE和ELMo都還沒達到大語言模型的門檻。

最後再來看ULMFiT，其名字代表在文字分類任務微調的通用語言模型（Universal Language Model Fine-tuning for Text Classification）。

它是一個在WikiText資料上自監督訓練的LSTM模型，能夠以低成本適應新任務，無需更改架構即可執行大量文字分類任務，且達到當時的SOTA效能。

與GPT-1相比，只差在微調不夠方便，以及應用任務的廣度。

GPT-1論文原文中，也指出“最接近我們工作的”就是ULMFiT與谷歌的半監督序列學習（Semi-supervised Sequence Learning）了。

GPT-1論文還聲稱，把LSTM換成Transformer後能拓展預訓練模型的預測能力，比ULMFit任務適應性更高。

考據者Jonathon Belotti最後總結到：

成為第一重要麼？我認為有一點重要。軟體行業和學術界尊重其創始人，我們都是開源社群中構建開拓智域文化（homesteads the noosphere）的一部分。

而Jeremy Howard本人對此的後續回應是我們創造了第一個“通用語言模型”，但後續論文沒有沿用，反而創造了“大型語言模型”這個新術語。

蘋果工程師Nathan Lawrence認為，雖然今天大家對誰是第一個LLM可能存在爭議，但最終大家都會把ULMFiT視為一個轉折點。

當時即使我這樣的懷疑論者，也快開始意識到大規模通用訓練將成為NLP的未來。

也有人建議Jeremy Howard以後說ULMFit是第一個“通用預訓練模型”。

“我發明了ChatGPT中的GP”，這句話說起來也很酷，一點也不誇張。

ULMFithttps://arxiv.org/abs/1801.06146

GPT-1https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

參考連結：[1]https://x.com/jeremyphoward/status/1905763446840607164[2]https://thundergolfer.com/blog/the-first-llm

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）來了！想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料，歡迎掃描下方二維碼，加入CVer計算機視覺（知識星球），已彙集上萬人！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請點贊和在看

相關文章

GPT-4.5被DeepSeek500倍吊打！基準測試全班墊底，OpenAI痛失護城河

GPT-4.5被DeepSeek500倍吊打！基準測試全班墊底，OpenAI痛失護城河

引爆全網！GPT-4o影像生成的秘密，OpenAI沒說，網友已經拼出真相？

引爆全網！GPT-4o影像生成的秘密，OpenAI沒說，網友已經拼出真相？

CVPR2025Oral|多模態互動新基準OpenING：新版GPT-4o殺瘋了？

CVPR2025Oral|多模態互動新基準OpenING：新版GPT-4o殺瘋了？

奧特曼自曝：GPT-5要來了，所有人免費！DeepSeek逼急OpenAI，最強路線圖曝光！

奧特曼自曝：GPT-5要來了，所有人免費！DeepSeek逼急OpenAI，最強路線圖曝光！

CVPR2025|RandAR：用隨機順序自迴歸探索視覺領域的“GPT時刻”

CVPR2025|RandAR：用隨機順序自迴歸探索視覺領域的“GPT時刻”

不要自迴歸！擴散模型作者創業，首個商業級擴散LLM來了！

不要自迴歸！擴散模型作者創業，首個商業級擴散LLM來了！

清華姚班校友等揭Transformer致命缺陷，OpenAI科學家緊急回應：學術界節奏太慢

清華姚班校友等揭Transformer致命缺陷，OpenAI科學家緊急回應：學術界節奏太慢

CVPR2025|大模型全軍覆沒！中科院提出MV-MATH：數學推理新基準

CVPR2025|大模型全軍覆沒！中科院提出MV-MATH：數學推理新基準

ICLR2025|南京大學等提出CG-Bench：線索推理驅動的長影片理解新標杆

ICLR2025|南京大學等提出CG-Bench：線索推理驅動的長影片理解新標杆

Transformer作者之一加入Anthropic，參與Claude3.7Sonnet研究！

Transformer作者之一加入Anthropic，參與Claude3.7Sonnet研究！

Copyright © 2025 | WordPress Theme by MH Themes