新鮮真話,關注一下👆

身邊有人說,AI好像是前兩年突然火起來的,一下子就成了我們今天熟悉的產品的模樣。
2022年11月,ChatGPT橫空出世,如驚雷。只是,雷從何而來?
從學界研究的脈絡看,近兩年AI的爆發,其實早已有跡可循。多年的基礎研究和發現,積累而形成了今天Infra、Data、Model、Application等等層面的突破。
有些公司比如OpenAI,本就是以研究為初衷。也有一些研究機構,雖然默默無聞,但他們的論文卻啟發的無數的創業者。
今天的文章主要來自Lightspeed Venture Partners,是我非常非常推薦的內容!
15年,19篇論文,4大研究陣營,一次性系統看完AI的前世今生!
一直覺得,如果想判斷未來,必定要從過去看起。作為目錄和研究框架,值得收藏!
Lightspeed作為美國最頭部的VC之一,投資了我們熟悉的Zoom,AI領域的Scale AI、Poni.ai等,更在非常初期階段就投中了美團、拼多多等。
Lightspeed在過去十年中,一直密切關注人工智慧研究。經常積極參與幫助科研人員,將他們的想法轉化為開創性的企業。是 Mistral、SKILD 和 Snorkel 的早期支持者,這些公司都源自AI技術的底層基礎發現。
在這篇文章中,列出了過去 15 年最具影響力的 AI 研究論文,並且從學界、企業相交融的視角,梳理了最重磅的學術派系和業界創新的影響。

一、AI領域的四波浪潮
過去 15 年,AI研究成果間相互啟發、繼承、發展,有的研究在創業界一石激起千層浪,有的科學家成為創始人,有的科研機構變成了偉大的公司……
學術界輕輕扇動翅膀,AI企業、生態卻逐漸走向世界舞臺中央,在能源、腦機、航天等不同領域受到了AI的影響。
我們觀察到,在AI學術探索中,有四波主要的研究浪潮相互依存,推動了AI達到今天的高度——
1. 模型架構改進
自 2010 年代以來,人工智慧模型架構的進步推動了重大突破和初創企業創新。
其中包括 AlexNet 於 2012 年在深度卷積神經網路方面的工作,以及備受讚譽的論文Attention is all you need,該論文徹底改變了自然語言處理。
2. 開發人員生產力提升
過去十年,工具和框架取得了重大進步,顯著提高了開發人員的工作效率,這對於初創企業的發展至關重要。
里程碑包括 TensorFlow的推出 (以及 2015 年推出的 PyTorch 等其他工具)、 2018 年推出的HuggingFace Transformers 庫,以及 Meta 在 2023 年開源的 Llama 模型。
3. 任務表現的最佳化
過去 10 年發表的幾篇不同的論文,徹底改變了人工智慧執行任務的效率和多樣性:
訓練「深度神經網路」以執行復雜任務,「聯合學習」以進行「對齊和翻譯」,從而降低了訓練複雜度。
在「無監督學習」方面取得突破 ,從而在不進行任何微調的情況下提高了任務效能。並使用「檢索增強生成」 (RAG) 和「外部資料儲存」來執行知識密集型任務。
4. 計算最佳化
在 2010 年代,dropout 和批次歸一化等新的最佳化技術提高了模型效能和穩定性。2020 年,OpenAI 的里程碑式論文,強調了模型效能如何隨著計算資源的增加而可預測地擴充套件。
緊隨其後的是 2022 年的 DeepMind,它證明了「平衡模型大小和訓練時間,以獲得最佳效能」的重要性。
二、人工智慧研究譜系
直接看圖——



Facebook系的論文和研究者,論文指向我們熟悉的郭文景(Pika)

斯坦福系的論文和研究者,略顯稀疏,但成果極為重磅
三、早期突破
早期的論文透過介紹已成為初創企業發展和後續研究基礎的框架、模型和方法,為當今的 AI 生態系統奠定了基礎。這些論文中提出的 Transformers、GPT、Tensorflow、Bert 等框架為自然語言處理、訓練語言模型和微調模型開發引入了新的架構。
2012
ImageNet Classification with Deep Convolutional Neural Networks
《使用深度卷積神經網路進行 ImageNet 分類》 (2012),Geoffrey Hinton、Ilya Sutskever、Alex Krizhevsky
這篇論文通常被稱為 AlexNet(因作者 Alex Krizhevsky 而得名),是深度學習領域的一項里程碑式成就。它證明了具有五個卷積層的深度卷積神經網路 (CNN) 在 ImageNet 資料集上取得的結果明顯優於之前的方法,消除了人們的懷疑,並證明了深度學習架構對於影像分類等複雜任務的可行性。
論文還強調了利用 GPU(圖形處理單元)訓練深度 CNN 的重要性。GPU 在處理訓練中涉及的平行計算方面速度更快,使大規模訓練成為可能。
論文連結:
https://papers.nips.cc/paper_files/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html
2015
Deep Residual Learning for Image Recognition
《用於影像識別的深度殘差學習》(2015),何凱明 ,張翔宇,任少清,孫健
在本文發表之前,訓練深度 CNN 一直面臨效能下降的問題。隨著網路越來越深,準確率會趨於穩定甚至下降。本文引入了殘差學習的概念,重新規劃了 CNN 中的各層,使其能夠學習修改輸入的殘差函式,而不是嘗試從頭開始學習整個對映,從而使網路能夠更輕鬆地學習恆等對映,並實現更深層次的架構。
殘差連線使研究人員能夠訓練比以前更深的 CNN。殘差連線現在是大多數現代模型架構的基本構建塊。這包括非常成功的模型,如 ResNet(原始論文中的模型)、Inception 和 DenseNet。
論文連結:https://arxiv.org/abs/1512.03385
2016
Neural Machine Translation by Jointly Learning to Align and Translate
《透過聯合學習對齊和翻譯實現神經機器翻譯》 (2016),Dzmitry Bahdanau、Kyunghyun Cho、Yoshua Bengio
傳統的神經機器翻譯 (NMT) 模型通常難以準確對齊源句子和目標句子之間的元素,從而導致翻譯文字中出現資訊缺失或詞序錯誤等問題。本文介紹了一種新架構,其中模型學習聯合對齊和翻譯,使其能夠更好地捕捉源語言和目標語言中單詞和短語之間的關係。聯合學習方法有助於模型生成更準確、更流暢的翻譯,並且與單獨的對齊和翻譯模型相比,可以簡化訓練過程。
論文連結:https://arxiv.org/abs/1409.0473
2016
TensorFlow: A system for large-scale machine learning
《TensorFlow:一種用於大規模機器學習的系統》 (2016),Martín Abadi、Paul Barham、Jianmin Chen、Zhifeng Chen、Andy Davis、Jeffrey Dean、Matthieu Devin、Sanjay Ghemawat、Geoffrey Irving、Michael Isard、Manjunath Kudlur、Josh Levenberg、Rajat Monga、Sherry Moore、Derek G Murray、Benoit Steiner、Paul Tucker、Vijay Vasudevan、Pete Warden、Martin Wicke、Yuan Yu、Xiaoqiang Zheng
TensorFlow 對機器學習開發人員的生產力產生了重大影響。它允許開發人員定義機器學習模型,而無需編寫用於數值計算的低階程式碼,從而簡化了開發流程並減少了構建和試驗模型所需的時間。
此外,TensorFlow 可以部署在各種硬體平臺上,包括 CPU、GPU 和 TPU(張量處理單元)。這種靈活性使開發人員可以根據自己的特定需求選擇最佳硬體,並高效地訓練大型模型。
論文連結:
https://scholar.google.com/citations?view_op=view_citation&hl=en&user=NMS69lQAAAAJ&citation_for_view=NMS69lQAAAAJ:JqN3CTdJtl0C
2017
Attention Is All You Need
《你所需要的就是注意力》 (2017),Ashish Vaswani、Noam Shazeer、Niki Parmar、Jacob Uszkoreit、Lilon Jones、Aidan Gomez、Lukasz Kaiser
Transformer 是模型架構的一個重大突破。在本文發表之前,大多數序列傳導模型都依賴於迴圈神經網路 (RNN) 或卷積神經網路 (CNN) 來捕捉序列中元素之間的關係。由於 RNN 具有順序性,因此訓練速度可能特別慢。
本文提出了一種新架構 Transformer,它完全依賴於一種稱為“自注意力”的注意力機制。這使模型能夠直接關注輸入序列的相關部分,從而更好地理解長距離依賴關係。
Transformer 架構透過消除 RNN 來加快訓練速度,在機器翻譯任務上表現出色,並廣泛適用於文字摘要、問答和文字生成等任務。
論文連結:https://arxiv.org/abs/1706.03762
2019
Language Models are Unsupervised Multitask Learners
《語言模型是無監督的多工學習者》 (2019),Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、Ilya Sutskever
《語言模型是無監督的多工學習者》 (2019),Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、Ilya Sutskever
過去,訓練 LLM 涉及監督學習,需要大量針對所需任務的標記資料。本文探討了無監督學習的潛力,其中模型從大量未標記的文字資料中學習。
透過對大量未標記的文字資料進行訓練,LLM 可以自然而然地學會執行各種任務(多工學習),而無需明確的任務特定監督。這種無監督學習使模型能夠捕獲一般的語言理解和可應用於各種下游任務的能力。
無監督學習還可以提高效率 – 當針對特定任務進行微調時,LLM 可以從較少量的標記資料中學習。
論文連結:
https://scholar.google.com/citations?view_op=view_citation&hl=en&user=dOad5HoAAAAJ&citation_for_view=dOad5HoAAAAJ:YsMSGLbcyi4C
2019
Roberta: A robustly optimized bert pretraining approach
《Roberta:一種穩健最佳化的 bert 預訓練方法》 (2019) Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、Veselin Stoyanov
該論文重點介紹了 BERT(Transformers 的雙向編碼器表示)預訓練過程的改進,與 BERT 相比,該論文在各種 NLP 任務上的表現普遍更好,訓練收斂速度更快,從而使開發人員能夠更快地迭代模型並減少時間。
這意味著縮短了訓練時間,使開發人員能夠更快地迭代模型,並在微調階段花更少的時間在超引數上。
儘管 Roberta 的論文不如其前作那麼具有變革性和知名度,但它的獨特之處在於,幾位合著者透過創立或領導新的初創公司來發展 AI 生態系統,其中包括 Tome、Character.ai 和 Birch.ai 的高管。
論文連結:
https://scholar.google.com/citations?view_op=view_citation&hl=en&user=dOad5HoAAAAJ&citation_for_view=dOad5HoAAAAJ:YsMSGLbcyi4C
2019
Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences
《將無監督學習擴充套件到 2.5 億個蛋白質序列,生物結構和功能浮現 (2019) Alexander Rives、Siddharth Goyal、Joshua Meier、Demi Guo、Myle Ott、C Lawrence Zitnick、Jerry Ma、Rob Fergus
傳統上,分析蛋白質結構和功能依賴於需要標記資料(例如,實驗確定的結構)的技術。本文探討了在大量蛋白質序列資料集(2.5 億)上使用無監督學習來學習蛋白質的固有屬性。
透過對大量未標記的序列資料訓練深度學習模型,該模型可以學習捕獲有關蛋白質的重要生物資訊的表示。這包括二級結構、殘基間接觸甚至潛在生物活性等方面。
論文連結:
https://www.pnas.org/doi/abs/10.1073/pnas.2016239118

四、最新進展
2020年以後,人工智慧發展和應用的速度加快。
最近的人工智慧研究在學習和處理方面取得了重大進展,使技術更加高效,並可擴充套件到更廣泛的應用。
我們還看到人工智慧解決方案在現實世界中的應用,基於早期模型的初創公司蓬勃發展,基於新模型的初創公司不斷湧現。
2020
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
《知識密集型 NLP 任務的檢索增強生成》 (2020) Patrick Lewis、Ethan Perez、Aleksandra Piktus、Fabio Petroni、Vladimir Karpukhin、Naman Goyal、Heinrich Küttler、Mike Lewis、Wen-tau Yih、Tim Rocktäschel、Sebastian Riedel、Douwe Kiela
LLM 經過大量文字資料的訓練,但經常難以完成需要訪問和推理特定事實知識的任務。本文提出了一種稱為檢索增強生成 (RAG) 的新模型架構。RAG 結合了兩個關鍵元件 – 檢索(一個根據輸入提示或問題從外部知識庫檢索相關文件的模組)和生成(一個強大的 LLM,它使用檢索到的文件及其自身知識來生成響應)。
這種雙記憶體架構提高了知識密集型任務(問答、總結事實主題)的效能,並且語言更加精確和真實。RAG 為 LLM 知識訪問受限問題提供瞭解決方案。它表明,透過將強大的語言模型與外部知識源相結合,我們可以在知識密集型任務上取得更好的結果。
論文連結:https://arxiv.org/abs/2005.11401
2020
Transformers: State-of-the-art natural language processing
《Transformers:最先進的自然語言處理》(2020) Thomas Wolf、Lysandre Debut、Victor Sanh、Julien Chaumond、Clement Delangue、Anthony Moi、Pierric Cistac、Tim Rault、Rémi Louf、Morgan Funtowicz、Joe Davison、Sam Shleifer , Patrick Von Platen, Clara Ma, Yacine Jernite, Julien Plu, 徐燦文, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, Alexander M Rush
Hugging Face Transformers 是一個流行的開源庫,建立在 Transformer 架構的基礎上。它提供了大量針對各種 NLP 任務的預訓練 Transformer 模型,並提供了一個使用者友好的 API,讓開發人員可以專注於根據特定需求微調模型,而不是從頭開始訓練大量模型,從而節省大量時間和資源。
論文連結:https://aclanthology.org/2020.emnlp-demos.6/
2020
Language Models Are Few-Shot Learners
《語言模型是少樣本學習器》 (2020) Amanda Askell、Tom Henighan、Jack Clark、Benjamin Mann、Dario Amodei、Sam McCandlish、Tom Brown、Pranav Shyam、Rewon Child、Aditya Ramesh、Arvind Neelakantan、Christopher Burner、Christopher Hesse、Clemens Winter、Girish Sastry、Gretchen Krueger、Jeffrey Wu、Mark Chen、Matusz Litwin、Nick Ryder、Prafulla Dhariwal、Sanhini Agarwal、Scott Gray、Ilya Sutskever
本文表明,LLM 只需幾個示例(小樣本學習)即可學習新任務,這使得它們更適合各種任務,在這些任務中,獲取大量標記資料可能成本高昂或困難重重。
這挑戰了 LLM 始終需要大量資料才能獲得良好效能的傳統觀點,並凸顯了 LLM 的小樣本學習能力——提高了樣本效率,這意味著僅使用幾個示例進行微調就可以在新任務上獲得令人驚訝的良好效能,並加快了模型部署速度,這意味著即使在標記資料稀缺的情況下,模型也可以快速適應。
論文連結:https://arxiv.org/pdf/2005.14165
2020
Scaling Laws for Neural Language Models
《神經語言模型的縮放定律》 (2020) Jared Kaplan、Sam McCandlish、Tom Henighan、Tom B. Brown、Benjamin Chess、Rewon Child、Scott Gray、Alec Radford、Jeffrey Wu、Dario Amodei
透過量化模型大小、資料大小、計算機和效能之間的關係,本文在理解如何最佳化用於訓練大型語言模型(LLM)的計算資源方面取得了重大突破。
通過了解這些擴充套件規律,研究人員和開發人員可以就如何為 LLM 培訓分配計算資源做出明智的決策。
論文連結:https://arxiv.org/pdf/2001.08361
2021
Efficiently Modeling Long Sequences with Structured State Spaces
《使用結構化狀態空間高效建模長序列》(2021) Albert Gu、Karan Goel、Christopher Ré
這篇論文通常縮寫為 S4,它提出了一種利用狀態空間模型 (SSM) 處理長序列的新方法。RNN 和 CNNS 很難捕捉非常長的序列(數千個元素或更多)中的長距離依賴關係。S4 透過使用 SSM 來解決這個問題,SSM 具有更有效地處理長距離依賴關係的理論能力。
S4 還引入了一種名為“結構化狀態空間”的新引數化技術,該技術提供了一種利用 SSM 的優勢來處理長距離依賴關係同時保持計算效率的方法。這為構建能夠有效處理非常長序列的模型打開了大門,同時與傳統方法相比,訓練和使用速度更快。
論文連結:https://arxiv.org/abs/2111.00396
2022
Flamingo: a Visual Language Model for Few-Shot Learning
《Flamingo:用於小樣本學習的視覺語言模型》 (2022) Jean-Baptiste Alayrac、Jeff Donahue、Pauline Luc、Antoine Miech、Iain Barr、Yana Hasson、Karel Lenc、Arthur Mensch、Katie Millican、Malcolm Reynolds、Roman Ring、Eliza Rutherford、Serkan Cabi、Tengda Han、Zhitao Gong、Sina Samangooei、Marianne Monteiro、Jacob Menick、Sebastian Borgeaud、Andrew Brock、Aida Nematzadeh、Sahand Sharifzadeh、Mikolaj Binkowski、Ricardo Barreira、Oriol Vinyals、Andrew Zisserman、Karen Simonyan
本文介紹了 Flamingo,這是一種專為 VLP 任務中的小樣本學習而設計的視覺語言模型 (VLM)。雖然以前的研究主要關注語言或視覺的小樣本學習,但 Flamingo 專門解決了組合 VLP 領域的挑戰。Flamingo 利用預先訓練的模型進行影像理解和語言生成,從而減少了微調所需的資料量。
論文連結:https://arxiv.org/abs/2204.14198
2022
Training Compute-Optimal Large Language Models
《訓練計算最佳化大型語言模型》 (2022) Jordan Hoffmann、Sebastian Borgeaud、Arthur Mensch、Elena Buchatskaya、Trevor Cai、Eliza Rutherford、Diego de Las Casas、Lisa Anne Hendricks、Johannes Welbl、Aidan Clark、Tom Hennigan、Eric Noland、Katie Millican、George van den Driessche、Bogdan Damoc、Aurelia Guy、Simon Osindero、Karen Simonyan、Erich Elsen、Jack W Rae、Oriol Vinyals、Laurent Sifre
本文探討了訓練 LLM 的最佳計算預算的概念,認為當前的模型往往訓練不足,因為人們注重擴充套件模型大小,同時保持訓練資料量不變 – 而為了實現最佳計算使用率,模型大小和訓練資料量應按比例縮放。本文介紹了 Chinchilla,這是一種使用這種最佳計算方法訓練的大型語言模型。
論文連結:https://arxiv.org/abs/2203.15556
2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
《思維鏈提示在大型語言模型中引發推理》(2023) Jason Wei、Xuezhi Wang、Dale Schuurmans、Maarten Bosma、Brian Ichter、Fei Xia、Ed Chi、Quoc Le、Denny Zhou
通常,LLM 可以給出看似正確的答案,而無需揭示其背後的推理過程,但思路鏈提示可以顯著改善大型語言模型 (LLM) 執行推理任務的方式,將推理步驟的示例納入用於指導 LLM 的提示中,引導其在解決問題時逐步明確地展示其推理過程。
使用這種技術訓練的 LLM 在數學應用題、回答常識性問題和執行符號操作等推理任務上表現出更好的表現。
論文連結:https://arxiv.org/abs/2201.11903
2023
Llama: Open and efficient foundation language models
《Llama:開放高效的基礎語言模型》 (2023) Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard紀堯姆·蘭普爾·格雷夫
本文介紹了 LLaMA 系列聯邦學習模型 (FLM),該模型的訓練重點是效率。這些模型在各種 NLP 任務上實現了最佳效能,同時與以前的模型相比,所需的計算能力更少,這意味著訓練時間更快,訓練成本更低。
即使使用較少量的微調資料,LLaMA 模型也可能在 NLP 任務上實現良好的效能,這對那些使用有限資料集或需要快速調整模型以適應新任務的人來說大有裨益。
LLaMA 模型還允許開發人員利用預先訓練的元件來完成各種任務 – 減少了從頭開始構建模型的需要並促進程式碼重用,從而節省了開發時間和精力。
論文連結:
https://scholar.google.com/citations?view_op=view_citation&hl=fr&user=tZGS6dIAAAAJ&citation_for_view=tZGS6dIAAAAJ:roLk4NBRz8UC
2023
Legged locomotion in challenging terrains using egocentric vision
《利用自我中心視覺在具有挑戰性的地形中進行腿部運動》 (2023) Ananye Agarwal、Ashish Kumar、Jitendra Malik、Deepak Pathak
在崎嶇複雜的地形上導航是機器人運動的關鍵挑戰。通常,腿式機器人依靠預先構建的地圖或複雜的深度感測器來導航周圍環境,這限制了它們適應不可預見的障礙的能力,並且需要大量的計算資源。本文的新穎方法是讓機器人使用單個前置深度攝像頭(自我中心視覺)來感知周圍環境並即時規劃其運動,從而無需預先構建地圖並減少對笨重感測器的依賴。
透過依靠自我中心視覺,機器人可以對看不見的障礙物做出反應,並在樓梯、路緣和不平坦的路面等具有挑戰性的地形上導航,使機器人的運動更加穩健並適應現實世界的環境。
論文連結:
https://scholar.google.com/citations?view_op=view_citation&hl=en&user=AEsPCAUAAAAJ&pagesize=80&sortby=pubdate&citation_for_view=AEsPCAUAAAAJ:rO6llkc54NcC
2023
Multimodal Foundation Models: From Specialists to General-Purpose Assistants
《多模態基礎模型:從專家到通用助理》 (2023) Chenyu Wang, Weixin Luo, qianyu Chen, Haonan Mai, Jindi Guo, Sixun Dong, Xiaohua (Michael) Xu, Chengxin Li, Lin Ma, Shenhua Gau
多模態基礎模型的開發可以處理不同模態(如視覺和語言)的各種任務,這與專注於單一資料型別的傳統模型(例如,僅處理影像的影像分類模型)相比具有重大轉變。
多模態基礎模型在複雜任務上取得了更好的表現,這項研究為開發能夠以更自然、更多樣化的方式與世界互動的人工智慧系統鋪平了道路,類似於人類使用各種感官來理解和響應周圍環境的方式。
論文連結:https://arxiv.org/abs/2309.10020
以上就是按時間演進的19篇論文。
未來 5 到 10 年,新興的人工智慧將在各個領域實現變革性飛躍。期待開啟下一個尖端人工智慧技術時代。

參考閱讀:
1. Lightspeed原文地址:https://lsvp.com/research-to-reality/
新鮮真話,關注一下👆
朋友圈會發一些具體的案例和商業化日常~
AI交流,歡迎加我本人微信:FrankGPTs
