
阿里妹導讀
前言
大模型和AI毫無疑問是近幾年最熱的話題和方向。生成式AI在2024年的全球市場規模已經超5000億美元,預計在2030年前有望為全球經濟貢獻7萬億美元的價值,中國則有望貢獻約2萬億美元。OpenAI作為大語言模型技術的重要推動者,引領了本次技術變革。在2022年11月上線的ChatGPT引爆全球,影響力度大到國家戰略層面,小到改變了個體的工作模式。近兩年,為了追趕業界最先進的大模型,國內在大模型行業呈現出“百模大戰”的競爭格局,通義千問、DeepSeek和豆包等等。毫無疑問,大模型以“威力之巨大,範圍之廣泛”的影響力再次掀起了AI的浪潮。未來,AI必然會顛覆性地改變甚至替代某些行業。我也堅信AI取代不了人,但懂AI的人勢必更具競爭力。本文的動機是希望能夠幫助小夥伴們對大模型和AI有更深刻的瞭解。主要包括,瞭解關鍵技術革新的前因後果,尤其是本次大模型時代對再次AI的浪潮。正確看待大模型,沒有萬能的技術和模型,只有瞭解大模型的優勢和弊端,才能知道如何更好地落地應用。同時也瞭解下目前大模型在各行各業的落地案例及其遇到的問題。2030年回頭來看這篇文章,說不定工作模式已經發生了很大的改變,兒時的科幻畫面已成現實。希望未來的我們成為能夠駕馭AI的人,讓AI釋放人類更多的時間和精力去做更具有意義的事情。
寫這篇文章的動機
希望能夠幫助小夥伴們對大模型和AI有更深刻的瞭解。主要包括,瞭解關鍵技術革新的前因後果,尤其是本次大模型時代對再次AI的浪潮。正確看待大模型,沒有萬能的技術和模型,只有瞭解大模型的優勢和弊端,才能知道如何更好地落地應用。同時也瞭解下目前大模型在各行各業的落地案例及其遇到的問題。值得說明的是,本文引用的圖片來源都整理在文末的參考文獻了。本文的章節組織如下:
-
第1節的引言主要從“全球、國內和身邊”等視角表達“大模型時代再次掀起的AI浪潮,威力很大,範圍很廣”。個人的感悟是“我們應該擁抱大模型技術,取其精華並知其弊端,注重沉澱AI不可替代的經驗和能力”。
-
第2節主要圍繞“百模大戰和大模型理論知識展開介紹”,本節儘量介紹一些通俗易懂的概念,幫助大家瞭解大模型到底是什麼、支撐大模型發展的核心技術是什麼、大模型並不等於AI,那它們的關係又是什麼?
-
第3節將結合在AICON的現場參會經歷,介紹大模型在各技術域的實踐案例。包括大模型在搜廣推能否帶來正規化性的革新,大模型實際落地所面臨的安全性和可控性等問題,面向大模型的向量化資料庫,大模型在諸如PPT等辦公提效方面的落地案例等。
-
第4節作為Call Back主要總結個人的感悟和思考。一句話概括就是,“對大模型時代掀起的AI浪潮是充滿期待,積極參與瞭解AI的優勢和弊端,緊跟本次全球性的前沿技術風暴”。
-
第5節總結了參考文獻,按小標題各取所需,包括綜述類文章、大模型Tech Report、大模型排行榜、相關技術的發展史等。
一、引言
從全球的視角看AI。早在20世紀50年代,夏農和圖靈先後提出的計算機博弈和圖靈測試,讓機器產生智慧這一想法開始進入人們的視野。如下圖所示,人工智慧技術歷經數十年掀起了四次技術革新,分別是“專家系統時代、機器學習時代、深度學習時代和大模型時代”。深度學習時代的爆發期在2012~2017年,這段時間橫跨了我的本科和碩士階段。印象特別深刻的是學校一半以上的實驗室都開始轉向深度學習相關的研究,著手購買GPU顯示卡。從搭建caffe環境開始,到復現各種深度模型,再到應用在學術或者工業界資料集做實驗。當時,有不少機器學習研究者並不奉承深度學習,甚至嗤之以鼻。他們認為深度學習是一種透過堆疊算力和資料的暴力建模方式。但不可否認的是,深度學習在效率和潛力方面都具有突破性的提升。2012年,Hinton等人提出AlexNet深度模型在ImageNet影像識別比賽碾壓第二名(傳統機器學習SVM方法)的分類效能,業界迅速從模型深度和廣度視角提出了各種版本的深度模型,在很多領域都取得了顯著的效果。就個人而言,我也是從傳統機器學習時代過渡到深度學習時代的人,前者大部分精力在研究各種手工運算元和特徵工程,後者直接透過端到端的訓練方式替代甚至遠超前者。以史為鑑,本輪從深度學習時代過渡到大模型時代必然也會發生巨大改變(程度甚至遠超以往),我認為“每次技術革新必然是在某些方面取得了突破性的效果,但也必然引發一些新的問題。我們應該擁抱新技術,取其精華並知其弊端,不斷微調自身並沉澱那些機器不可替代的經驗和能力”。往長遠去想,如果機器真的能夠替代人類大量危險、繁雜和無意義的事情,讓人類有更多的時間去創新和享受生活,豈不美哉。
人工智慧技術的前三個階段由於資料、算力、場景落地和投資回報等方面的原因未能形成AI產業的商業閉環。第四個階段基於大模型通用性、湧現性和強計算能力,大模型時代有望形成商業閉環。從身邊的環境變化來看,無論是資本對AI領域的投入,還是各大廠對大模型相關技術的資源和迭代頻率,甚至是大模型崗位的需求和待遇,都足以可見“全球對大模型賦能AI及其商業化具有很高的期待,未來很多事情都會圍繞AI展開”。

從國內的視角看AI。2024年12月中旬,我去北京參加了AICON會議(全球人工智慧與機器學習技術大會,聚焦大模型訓練與推理、AI agent、RAG、多模態大模型等熱門方向),讓我再次深入感受到大模型對各行各業的影響,有一種再不參與大模型就有可能跟不上時代前沿的危機感。本次會議總共約75個課題分享,講師包括演算法、工程、數科和產品等職位。課題具體包括:大模型+資料課題9個,大模型+加速&最佳化課題8個,大模型+搜廣推2個,大模型+實際落地案例30+個(包括適配大模型的工程架構升級),大模型+商業化探索8個(包括落地的成本和安全性)。如下圖所示,大模型和生成式AI是本年度最熱的搜尋詞,以ChatGPT為首的大語言模型已經成為很多人的輔助工具(甚至有不少私人和企業的產業鏈在租用大模型服務),再加上近兩年國內愈發激烈的百模大戰,再次佐證了大模型時代的影響力。

從身邊的視角看AI。阿里巴巴集團CEO吳泳銘也明確提到:“電商業務和AI科技是集團最關鍵的發展方向。AI方面,我們將持續加大投入,推動以AI為動力的生產力革命,完善AI基礎設施和配套支撐體系,堅持開源開放,在toB和toC領域持續的投入AI的產品研發,把握住AI時代的機遇”。大模型掀起的AI浪潮是以技術驅動的創新,作為技術從業者我們為此感覺到激動。但AI在電商領域具體以什麼樣的產品模式、能夠為哪些方面帶來突破性的革新仍是未知數。我相信已經有不少同事在各自的領域不斷地探索和嘗試,沉澱寶貴的落地經驗。
二、大模型基礎知識
2.1. 大模型是什麼?
大模型的定義。大模型(Large Model,也稱基礎模型,即Foundation Model)本質上是一個使用海量資料訓練而成的深度神經網路模型,透過巨大的資料和引數規模實現了智慧的湧現,展現出類似人類的智慧(例如,自然語言處理、計算機視覺、語音識別等能力)。如下圖所示,模型引數從2022年飛速提升,從百億到十萬億的引數量,並且大部分是稠密型的dense類特徵。要訓練如此龐大的模型,需要海量的資料和算力(Money is all u need)。這也是近幾年英偉達迅猛發展的主要原因,未來的算力將成為類似水電等基建。目前的大模型主要包括語言大模型、視覺大模型和多模態大模型。

大模型和小模型的區別。小模型通常指引數較少、層數較淺的模型,它們具有輕量級、高效率、易於部署等優點,適用於資料量較小、計算資源有限的場景。而當模型的訓練資料和引數不斷擴大,直到達到一定的臨界規模後,其表現出了一些未能預測的、更復雜的能力和特性,模型能夠從原始訓練資料中自動學習並發現新的、更高層次的特徵和模式,這種能力被稱為“湧現能力”。具備湧現能力的機器學習模型就被認為是獨立意義上的大模型,這也是其和小模型最大意義上的區別。下表給出了大模型和小模型在某些維度上的差異,核心就是小模型能處理任務明確的場景,但類似通用型人工智慧等複雜開放的場景只能依賴大模型。

大模型的縮放法則(Scaling Law)和湧現性(Emergent Ability)。大模型的縮放法則和湧現性與AGI的發展息息相關。如下圖所示,縮放法則是指隨著模型規模逐步放大,任務的表現越來越好;如下圖所示,湧現性是指隨著模型的規模增長,當規模跨過一定閾值,對某類任務的效果會出現突然的效能增長,湧現出新的能力。當全部人類的知識被儲存在大模型中,這些知識被動態連線起來時,其所具有的智慧遠超人們預期。

大模型與AI的關係:大模型不等於AI。大模型是人工智慧發展的一個重要方向,它們代表了當前AI技術的前沿。隨著計算能力的提升和資料量的增加,大模型在多個領域的應用越來越廣泛。但大模型並非AI的全部,AI還包括許多其他技術和方法,如傳統機器學習、增強學習等。生成式AI是大模型的核心方向,近幾年諸如ChatGPT等火熱的大模型都屬於生成式大模型。總之,大模型的出現和發展推動了AI技術的進步,但同時也帶來了新的挑戰和問題,需要科研人員、政策制定者和社會各界共同努力解決。
2.2. 百模大戰
**說明:本節主要參考億歐智庫的分析報告
百模大戰是什麼?2022年12月ChatGPT-3.5的釋出引發了全球範圍內對大模型的廣泛關注。2023年2月,國內復旦和北大等高校率先發布大模型產品。2023年3月,以百度、阿里、360和商湯等為代表的企業陸續推出各自的大模型,2023年6月開始國內通現出眾多的通用大模型和垂直大模型。截止2024年2月,國內公佈的大模型數量已超過300個,市場競爭激烈,大模型行業呈現出“百模大戰”的競爭格局。

引發百模大戰的核心原因是什麼?從技術的角度來看,如引言所述,大模型時代引發的AI浪潮有望形成商業閉環,因此基於技術可行性和未來巨大想象空間,眾多企業和機構湧入大模型賽道,都想抓住AI的機遇。從企業長遠發展來看,通用大模型經歷爆發期,市場同質化競爭嚴重,資源、技術、人才能夠落地能力成為廠商邁向下一階段的核心競爭力。如下圖所示,預計2025-2026年市場逐漸趨於清晰,優質企業堅守戰場,剩餘企業陸續退出競爭。2027-2028年預計通用大模型市場將出現頭部競爭,約3-5家廠商的大模型將成為中國大模型生態的底座。

國內大模型在全球範圍內已具有一戰之力,但仍任重道遠。如下圖所示,聊天機器人競技場是一個開源平臺,透過人類偏好評估 AI,旨在使用布拉德利-特里模型生成即時排行榜。截止2024年12月份,幻方量化旗下的DeepSeek-v2.5和阿里的Qwen2.5-plus版本在全球並列排名11。谷歌和OpenAI霸榜top10,據說他們還有很多更牛的版本還未釋出,國內大模型仍任重道遠。補充:DeepSeek-V3在2024年12月底正式釋出,核心亮點包括:1)效能對齊海外領軍閉源模型;2)生成速度從20TPS大幅提高至60TPS,提升至3倍;3)API服務價格調整,每百萬輸入tokens 0.5 元(快取命中)/ 2 元(快取未命中),每百萬輸出 tokens 8 元。

2.3. 大模型理論知識:
人類主要使用語言進行表達與交流。為了使計算機能夠與人類進行有效交流,科研人員一直致力於研發具有類人語言能力的人工智慧演算法,使之能夠掌握以自然語言形式進行溝通與交流。讓機器擁有像人類一樣閱讀、理解、寫作和交流的能力。語言模型是提升機器語言智慧的主要技術途徑之一,本節主要以大語言模型為例介紹相關的概念和核心技術。除了大語言模型以外,還有視覺大模型和多模態大模型等方向,核心思路都能互相借鑑。但最終想要實現通用型人工智慧(AGI),多模態大模型是必經之路。
如下圖所示,根據個人理解的視角,整理了大模型理論學習知識的路線。就好像一個剛出生的嬰兒,到中學時期都在學習通用知識和能力。到了大學時期,開始選擇專業並在該領域內不斷學習和調整,在滿足人類世界觀和道德觀的基礎上成為業界專家,併為社會做出力所能及的貢獻。本節拋開數學和公式相關部分,感興趣的小夥伴可以前往參考文獻中精讀《大語言模型綜述》。

2.3.1. 語言模型的發展歷程
語言模型旨在對於人類語言的內在規律進行建模,從而準確預測詞序列中未來(或缺失)詞或詞元(Token)的機率。根據所採用技術方法的不同,語言模型的研究工作可以分為四個主要發展階段。如下圖所示,透過任務求解能力的角度對比了四代語言模型所表現出的能力優勢與侷限性,可見在語言模型的演化過程中,能夠解決的任務範圍得到了極大擴充套件,所獲得的任務效能得到了顯著提高,這是人工智慧歷史上的一次重要進步。

2.3.2. 通用大模型:預訓練技術
2.3.2.1. 預訓練資料集:
與早期的預訓練語言模型相比,大語言模型需要更多的訓練資料,這些資料需要涵蓋廣泛的內容範圍。多領域、多源化的訓練資料可以幫助大模型更加全面地學習真實世界的語言與知識,從而提高其通用性和準確性。如下圖左表給出了目前常用於訓練大語言模型的代表性資料集合。根據其內容型別進行分類,這些語料庫可以劃分為:網頁、書籍、維基百科、程式碼以及混合型資料集。從下圖給出的圖示看到,絕大多數的大語言模型都選用了網頁、書籍和對話文字等通用語料作為預訓練資料。這些通用語料涵蓋了多個主題類別的文字內容。

2.3.2.2. 預訓練方法:
預訓練是研發大語言模型的第一個訓練階段,也是最為重要的一個階段。有效的預訓練能夠為大語言模型的能力奠定堅實的基礎:透過在大規模語料上進行預訓練,大語言模型可以獲得通用的語言理解與生成能力,掌握較為廣泛的世界知識,具備解決眾多下游任務的效能潛力。在這一過程中,預訓練語料的規模和質量對於提升大語言模型的能力至關重要。在進行模型的大規模預訓練時,往往需要設計合適的自監督預訓練任務,使得模型能夠從海量無標註資料中學習到廣泛的語義知識與世界知識。目前,常用的預訓練任務主要分為三類,包括語言建模、去噪自編碼以及混合去噪器。此外,《大語言模型綜述》還介紹了模型引數量計算與效率分析,這部分能夠幫助一線的研發同學計算大模型的引數量、運算量、訓練時間和所需視訊記憶體等資料,此處不展開贅述。
2.3.3. 通用大模型:主流的大模型結構
2.3.3.1. Transformer:
當前主流的大語言模型都基於Transformer模型進行設計的。Transformer是由多層的多頭自注意力(Multi-head Self-attention)模組堆疊而成的神經網路模型。原始的Transformer模型由編碼器和解碼器兩個部分構成,而這兩個部分實際上可以獨立使用,例如基於編碼器架構的BERT模型和解碼器架構的GPT模型。具體地,如下圖所示,Transformer主要由三個關鍵元件組成,包括:Embedding(文字輸入被劃分為更小的單元,稱為標記,可以是單詞或子詞。這些標記被轉換為稱為嵌入向量的數字向量,用於捕獲單詞的語義)、Transformer Block(處理和轉換輸入資料的模型,核心是attention機制)和Output Probabilities(最終的線性層和 softmax 層將處理的嵌入轉換為機率,使模型能夠預測序列中的下一個標記)。

介紹具體的原理之前,先安利一款名為Transformer Explainer的視覺化開源工具,由佐治亞理工學院和IBM研究員聯合開發,它能有效地幫助使用者理解Transformer模型的複雜結構以及背後的數學運算。如下圖所示,首先輸入詞經過embedding層得到對應的數字化向量X,然後對每個詞向量xi∈X都經過如圖中的Attention(Q,K,V)公式計算更新詞向量。以self attention為例,每個詞向量與其他詞向量都進行attention計算後得到新的向量,從而能夠有效地捕捉上下文資訊,使得每個詞的表示不僅與它自身的特徵有關,還與它周圍詞語的特徵相關聯。目前,主流的搜廣推模型中,multi-head target attention是對使用者行為序列處理非常重要的技術,也是眾多消融實驗中效果最好的模組。

2.3.3.2. 大模型結構:
解碼器架構。在預訓練語言模型時代,自然語言處理領域廣泛採用了預訓練+微調的正規化, 並誕生了以BERT為代表的編碼器(Encoder-only)架構、以GPT為代表的解碼器(Decoder-only)架構、以T5為代表的編碼器-解碼器(Encoder-decoder)架構的大規模預訓練語言模型。隨著GPT系列模型的成功發展,當前自然語言處理領域走向了生成式大語言模型的道路,解碼器架構已經成為了目前大語言模型的主流架構。進一步,解碼器架構還可以細分為兩個變種架構,包括因果解碼器(Causal Decoder)和字首解碼器(Prefix Decoder)。值得注意的是,學術界所提到解碼器架構時,通常指的都是因果解碼器架構。下圖針對這三種架構進行了對比。其中,藍色、綠色、黃色和灰色的圓角矩形分別表示字首詞元之間的注意力、字首詞元和目標詞元之間的注意力、目標詞元之間的注意力以及掩碼注意力。

2.3.4. 領域大模型:高效微調技術(PEFT)
由於大語言模型的引數量巨大,進行全引數微調需要較多的算力資源開銷。在現有文獻中,引數高效微調是一個重要的研究方向,旨在減少需要訓練的模型引數量,同時保證微調後的模型效能能夠與全量微調的表現相媲美。同時,以低秩適配微調方法(LoRA)為例的PEFT也是目前工業界常用的技術。本節主要圍繞LoRA展開介紹,其他諸如“介面卡微調 Adapter Tuning、字首微調 Prefix Tuning、提示微調 P-tuning v1&v2”等PEFT方法詳見《大語言模型綜述》。
LoRA的計算原理。和其它序列的介面卡演算法不同,LoRA的做法如下圖(左)所示,在LLM的某些矩陣(

)旁插入一個和它並行的新的權值矩陣

。但是因為模型的低秩性的存在,我們可以將ΔW拆分成降維矩陣

和升維矩陣

。其中 r≪min(hxh) ,從而實現了以極小的引數數量訓練LLM。在訓練時,我們將LLM的引數固定,只訓練矩陣A和B。

如下式所示,在模型訓練完成之後,我們可以直接將A和B加到原引數上,從而在推理時不會產生額外的推理時延。在初始化時,A使用高斯初始化,B使用的零矩陣0進行的初始化。因為r通常是一個非常小的值,所以LoRA在訓練時引入的引數量是非常小的,因此它的訓練也是非常高效的,也不會帶來顯著的視訊記憶體增加。LoRA要求A或者B其中之一必須使用零矩陣進行初始化,這樣當資料第一次透過網路時,它和預訓練的結果是一致的,這樣便保證了模型在初始階段便有一個不錯的效果。

2.3.4.1. RAG(Retrieval-Augmented Generation,檢索增強生成)vs Fine-tuning
檢索增強生成(Retrieval-Augmented Generation,RAG)指的是在LLM回答問題之前從外部知識庫中檢索相關資訊,RAG有效地將LLM的引數化知識與非引數化的外部知識庫結合起來,使其成為實現大型語言模型的最重要方法之一。本節重點討論RAG和Fine-tuning的關係。
RAG像是一個會查資料的助手,RAG=搜尋+LLM提示。RAG要求模型回答查詢,並提供透過搜尋演算法找到的資訊作為上下文,查詢和檢索到的上下文都被注入到傳送給 LLM 的提示中。如下圖所示,RAG能夠避免模型幻覺、提高答案准確性。但同時也依賴外部資料的質量,增加了複雜度和資源等問題。Fine-tuning像是一個在特定領域裡經過深造的專家,透過在特定領域進行二次訓練的方式更好地完成特定任務。
選擇RAG還是Fine-tuning?當需要訪問外部資料來源時,RAG更適合。當需要修改模型的行為、寫作風格或特定領域的知識時,Fine-tuning更適合。但如果將RAG和Fine-tuning結合起來會達到更好的效果,就像給這個既聰明又有強大資料庫的助手進行針對性的訓練。他會先學習如何使用資料庫,然後針對特定任務進行練習,學習如何將資料庫中的知識應用到實際任務中,成為該領域的資深專家。

2.3.5. 人類對齊:RLHF技術分解
為了加強大語言模型與人類價值觀的一致性,基於人類反饋的強化學習旨在利用收集到的人類反饋資料指導大語言模型進行微調,從而使得大語言模型在多個標準(例如有用性、誠實性和無害性)上實現與人類的對齊。RLHF 首先需要收集人類對於不同模型輸出的偏好,然後使用收集到的人類反饋資料訓練獎勵模型,最後基於獎勵模型使用強化學習演算法微調大語言模型。如下圖所示,RLHF算法系統主要包括三個關鍵組成部分:預訓練模型、獎勵模型和強化學習演算法。

2.3.6. 提示學習
經過預訓練、指令微調、人類對齊和提示學習後,我們接下來討論如何透過提示學習方法來有效地使用大語言模型解決實際任務。目前常用的方法是設計合適的提示 (Prompting),透過自然語言介面與大模型進行互動。在現有研究中,任務提示的設計主要依靠人工設計和自動最佳化兩種策略來實現。為了更好地解決未見過的任務,一種典型的提示方法是上下文學習,它將任務描述與示例以自然語言文字形式加入到提示中。此外,思維鏈提示作為一種增強技術,將一系列中間推理步驟加入到提示中,以增強複雜推理任務的解決效果。
提示工程(Prompt Engineering)。下圖給出了Prompt的核心要素。這些要素並不是每個Prompt都必須包含的,但根據特定的需求和上下文,合適地結合這些要素可以提高LLM生成的文字質量和相關性。Prompt是大部分。此外,這裡推薦一個Prompt評分工具,它能夠從多個維度為你提供的Prompt提示詞進行評分並給出建議。
https://alsc-info-ai.alibaba.net/workflow/bqSk2eNoRuqzXhSo

思維鏈(Chain-of-Thought,CoT)。從文科生到文理兼備的昇華。OpenAI的ChatGPT4及其之前的版本都屬於“快思考模式”,強調知識的學習、檢索、生成問題和對話的能力。GPT-o系列版本開始引入“慢思考模式”,轉向邏輯思維鏈,透過多步&複雜的推理來解決更難的問題,這才是人的智力精華所在。透過讓大模型逐步參與將一個複雜問題分解為一步步的子問題並依次進行求解的過程可以顯著提升大模型的效能,這一系列推理的中間步驟就被稱為思維鏈。區別於傳統的Prompt從輸入直接到輸出的對映 <input->output> 的方式,CoT完成了從輸入到思維鏈再到輸出的對映,即<input->reasoning chain->output>。
2.3.7. 模型壓縮
透過預訓練、高效微調和RLHF等技術,我們已經得到了一個能力強大,具備較強的指令遵循能力使其能夠勝任眾多下游任務,同時也保證了人類價值觀和社會倫理的基本準則,已經迫不及待想上線感受一番。但此時的大模型因其引數量巨大,在解碼階段(指在自迴歸架構中,大模型針對輸入內容逐個單詞生成輸出內容的過程)需要佔用大量的視訊記憶體資源,在實際應用中的部署代價非常高。舉個例子,以GPT-175B模型擁有1750億引數,至少需要320GB的半精度(FP16)格式儲存空間。此外,為了有效管理操作,部署該模型進行推理至少需要五個A100 GPU,每個GPU配備80GB記憶體。因此,我們需要透過一些模型壓縮方法來減少大模型的視訊記憶體佔用,從而使得能夠在資源有限的環境下使用大模型。首篇大模型壓縮綜述《A Survey on Model Compression for Large Language Models》給出瞭如下圖所示的四類大模型壓縮方法,包括:剪枝、知識蒸餾、量化和低秩分解等。

2.3.8. Agent 智慧體:
AI Agent是人工智慧技術的集大成者(包含上述提到的所有能力),其能力涵蓋感知、推理、互動和行動。它是一種能夠感知環境、決策制定及動作執行能力的自主算法系統。這些系統能夠執行被動的任務,也能夠主動尋找解決問題的方法,適應環境的變化,並在沒有人類直接干預的情況下做出決策。如下圖所示,鋼鐵俠的賈維斯就是一款理想型的超級智慧體,能夠理解自然語言、處理複雜的資料、進行自主決策,並與鋼鐵俠的戰甲和其他裝置進行無縫協作。它不僅能夠執行主人的命令,還能夠學習和適應,表現出高度的智慧和情感理解。在許多科幻作品中,像賈維斯這樣的人工智慧通常超越了現有技術的發展水平,展示了理想化的人工智慧能力。大膽想象下,如果在未來人均一個賈維斯,那該是個什麼樣子的社會水平。

三、大模型的實踐案例
大模型+推薦的故事得從Meta這篇論文開始講起《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》。Meta團隊認為大規模推薦系統的特點在於依賴於高基數、異構的特徵,以及每天處理數十億的使用者行為。儘管這些模型在具有數千個特徵的大量資料上進行訓練,但大多數行業中的深度學習推薦模型(DLRMs)在計算能力方面無法擴充套件。受到Transformer在語言和視覺領域成功的啟發,他們重新審視了推薦系統的基本設計選擇。緊接著,他們將推薦問題重新表述為生成建模框架內的順序轉換任務,並提出了一種新架構HSTU,旨在處理高基數、非平穩流式推薦資料。HSTU在合成數據和公共資料集上的NDCG指標上比基線提高了最多65.8%,並且在長度為8192的序列上比Transformer快5.3到15.2倍。更重要的是,生成式推薦器的模型質量在三個數量級的訓練計算量上經驗上呈冪律增長,達到GPT-3/LLaMa-2的規模,這減少了未來模型開發所需的碳足跡,併為進一步建立推薦領域的基礎模型鋪平了道路。
今年是我入職的第6年,期間持續在營銷演算法團隊做供給和個性化相關的模型最佳化。我也很期待大模型時代是否也會對傳統搜廣推領域產生正規化性的革新?根據近期的調研和AICON會上的分享,結論是“大模型也會對搜廣推產生正規化性的革新”。據這個廣告團隊的分享,他們透過將結合生成式大模型和判別式模型進行cotrain(原因是生成式大模型能夠提供更豐富的候選集,但最終還是需要判別模型完成對使用者x商品的偏好),成功落地了召排一體方案(召回&粗排),在廣告上取得10+%的線上收益,這是當時現場討論最多的議題。就個人體感而言,這個工作講了很多工程和演算法協同最佳化的內容,演算法細節講的不多。這也符合從業者的體感,不論是模型的離線落地還是上線服務(要求在100ms以內)都離不開工程鏈路的升級。此外,包括阿里和百度等各大廠都在嘗試生成式大模型在搜廣推的應用,最終在各自的業務場景下能發生多大的改變、取得怎樣的效果都仍在路上。如下圖所示,當前主流的推薦系統架構從召回到重排歷經了多個漏斗,每個方向都有眾多從業者投入研究。未來大模型在搜廣推的應用,是嵌入到各層中,還是重構整個架構都是值得期待的事情。

大膽做個預測。以電商領域的商品推薦為例,在現有的技術架構和模型基線下,未來能夠再次取得顯著提升的兩個方向。第一毫無疑問是生成式AI對推薦架構、模型、甚至是產品互動形態等都產生了正規化性的技術革新。第二是突破商品ID的推薦正規化,走向興趣簇的推薦模式,這涉及到從商品底層屬性到推薦技術構架的完整改造。
除了搜廣推以外,大模型在各界的探索仍在激烈展開,包括但不限於:大模型實際落地所面臨的安全性和可控性等問題,面向大模型的向量化資料庫,大模型+醫療,大模型+智慧化研發,大模型在諸如PPT等辦公提效方面的落地案例等等。更詳細的內容可移步AICON2024的官網。
四、Call Back:以史為鑑,未雨綢繆
行文至此,我們圍繞“大模型時代掀起的AI浪潮”這一主題對大模型技術原理和實際應用進行總結,作為個人在大模型領域的學習材料,也分享給大家。生成式AI這波由技術帶來的創新確實讓人激動,浪潮波及全球,並且離我們很近。作為一名演算法工程師,我對大模型+AI時代的感悟是:“以史為鑑,未雨綢繆”。
以史為鑑。正如前文所述,AI時代的四次技術革新中,我在碩士期間經歷了從機器學習到深度學習的革新。對於技術從業者,當時的我也是一頭扎進深度學習領域,學習和研究各種深度模型。八年時間過去了,回頭看深度學習確實在很多領域超越了傳統機器學習,因其強大的特徵提取、更強的表徵能力及其處理大規模資料的優勢,釋放了從業者設計手工運算元和特徵的時間,甚至在一定程度上降低了從業者的門檻。其實,讀完大模型理論知識後,你會發現這裡面大部分都不是新技術,而是透過業界多年持續迭代和升級的產物。是隨著社會協同發展創造出諸如算力和大資料等新條件,啟用和放大了相關技術的潛力。基於此,對待本次大模型+AI的技術革新,我也依然選擇擁抱大模型,取其精華並知其弊端。對於大部分人來說,大模型+AI必然會釋放一波技術紅利,不需要大家都懂AI原理,但如果能將AI技術更好地結合在自己的領域中,你就更有機會超越同行。
未雨綢繆。作為搜廣推領域的從業者,大模型暫時還沒對這個方向產生較大的影響,(未雨)但我覺得這是遲早的事情,(綢繆)那為何不主動參與其中,打基礎&攢經驗。未來的人工智慧將會融入我們每個人的生活,變得無處不在。任何技術的發展都是有高峰和低谷,人工智慧的發展也一樣。我們在保持樂觀態度的同時,也有保留理智,不過分誇大其作用,盲目從眾。真正將人工智慧的長處發揮出來,改善人類生活,助力經濟發展。希望未來的自己,能夠對技術保持情懷和堅持,為每次技術帶來的創新感到發自內心的激動。
參考文獻:
綜述和概念類文獻:適合入門者
-
大語言模型綜述(中文版):https://github.com/LLMBook-zh/LLMBook-zh.github.io/blob/main/LLMBook.pdf
-
人工智慧技術發展史
-
深度學習(deep learning)發展史:https://blog.geohey.com/-xie-shen-du-xue-xi-deep-learningfa-zhan-shi/
-
一文讀懂大模型的基本概念:https://xie.infoq.cn/article/c73d7cd6c89fa88279e6e0afe
-
大模型壓縮綜述論文:https://arxiv.org/abs/2308.07633
-
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models:https://arxiv.org/abs/2201.11903
-
一文讀懂:大模型的思維鏈 CoT(Chain of Thought):https://www.zhihu.com/tardis/zm/art/670907685?source_id=1003
-
奇點學堂的課程《AI大模型之美》講師bothub創始人–徐文浩:https://grow.alibaba-inc.com/course/4800014498447731
-
TRANSFORMER EXPLAINER(transformer視覺化工具):https://poloclub.github.io/transformer-explainer/
-
The Illustrated Transformer(詳細介紹transformer技術原理):https://jalammar.github.io/illustrated-transformer/
-
超詳細圖解Self-Attention(知乎高贊):https://zhuanlan.zhihu.com/p/410776234
-
ChatGPT 背後的“功臣”——RLHF 技術詳解:https://huggingface.co/blog/zh/rlhf
-
LoRA: Low-Rank Adaptation of Large Language Models:https://arxiv.org/abs/2106.09685
-
LoRA(Low-Rank Adaptation)詳解:https://zhuanlan.zhihu.com/p/663557294
-
Scaling Instruction-Finetuned Language Models(FLAN-T5):https://arxiv.org/abs/2210.11416
-
萬字詳解 DeepSeek-V3 技術報告:https://mp.weixin.qq.com/s/XA-vrdF66PkBQdZhkJRgBQ
-
生成式推薦系統與京東聯盟廣告-綜述與應用:https://www.53ai.com/news/LargeLanguageModel/2024072180765.html
大模型Technical Report:
-
DeepSeek V3 Technical Report:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
-
Qwen2.5 Technical Report:https://arxiv.org/abs/2412.15115
-
GPT-4 Technical Report:https://arxiv.org/pdf/2303.08774
-
Llama 2: Open Foundation and Fine-Tuned Chat Models:https://arxiv.org/pdf/2307.09288
-
Gemini: A Family of Highly Capable Multimodal Models:https://arxiv.org/pdf/2312.11805
大模型排行榜:
-
Chatbot Arena Leaderboard排行榜(即時更新)
-
AGICTO大模型排行榜(更新較不即時):https://agicto.com/llm-leaderboard
即時與AI智慧體進行語音通話
AI即時語音互動是一種旨在幫助企業快速構建AI與使用者之間的語音通話應用的解決方案。使用者只需透過白屏化的介面操作,即可快速構建一個專屬的AI智慧體,並透過影片雲ARTC網路與終端使用者進行即時互動。
點選閱讀原文檢視詳情。