引言:網上關於大模型的文章也很多,但是都不太容易看懂。小棗君今天試著寫一篇,爭取做到通俗易懂。
廢話不多說,我們直入主題。
█ 什麼是大模型?
大模型,英文名叫Large Model,大型模型。早期的時候,也叫Foundation Model,基礎模型。
大模型是一個簡稱。完整的叫法,應該是“人工智慧預訓練大模型”。預訓練,是一項技術,我們後面再解釋。
我們現在口頭上常說的大模型,實際上特指大模型的其中一類,也是用得最多的一類——語言大模型(Large Language Model,也叫大語言模型,簡稱LLM)。
除了語言大模型之外,還有視覺大模型、多模態大模型等。現在,包括所有類別在內的大模型合集,被稱為廣義的大模型。而語言大模型,被稱為狹義的大模型。

從本質來說,大模型,是包含超大規模引數(通常在十億個以上)的神經網路模型。
之前給大家科普人工智慧(連結)的時候,小棗君介紹過,神經網路是人工智慧領域目前最基礎的計算模型。它透過模擬大腦中神經元的連線方式,能夠從輸入資料中學習並生成有用的輸出。

這是一個全連線神經網路(每層神經元與下一層的所有神經元都有連線),包括1個輸入層,N個隱藏層,1個輸出層。
大名鼎鼎的卷積神經網路(CNN)、迴圈神經網路(RNN)、長短時記憶網路(LSTM)以及transformer架構,都屬於神經網路模型。
目前,業界大部分的大模型,都採用了transformer架構。
剛才提到,大模型包含了超大規模引數。實際上,大模型的“大”,不僅是引數規模大,還包括:架構規模大、訓練資料大、算力需求大。

以OpenAI公司的GPT-3為例。這個大模型的隱藏層一共有96層,每層的神經元數量達到2048個。
整個架構的規模就很大(我可畫不出來),神經元節點數量很多。
大模型的引數數量和神經元節點數有一定的關係。簡單來說,神經元節點數越多,引數也就越多。例如,GPT-3的引數數量,大約是1750億。
大模型的訓練資料,也是非常龐大的。
同樣以GPT-3為例,採用了45TB的文字資料進行訓練。即便是清洗之後,也有570GB。具體來說,包括CC資料集(4千億詞)+WebText2(190億詞)+BookCorpus(670億詞)+維基百科(30億詞),絕對堪稱海量。
最後是算力需求。
這個大家應該都聽說過,訓練大模型,需要大量的GPU算卡資源。而且,每次訓練,都需要很長的時間。

GPU算卡
根據公開的資料顯示,訓練GPT-3大約需要3640PFLOP·天(PetaFLOP·Days)。如果採用512張英偉達的A100 GPU(單卡算力195 TFLOPS),大約需要1個月的時間。訓練過程中,有時候還會出現中斷,實際時間會更長。
總而言之,大模型就是一個虛擬的龐然大物,架構複雜、引數龐大、依賴海量資料,且非常燒錢。
相比之下,引數較少(百萬級以下)、層數較淺的模型,是小模型。小模型具有輕量級、高效率、易於部署等優點,適用於資料量較小、計算資源有限的垂直領域場景。
█ 大模型是如何訓練出來的?
接下來,我們瞭解一下大模型的訓練過程。
大家都知道,大模型可以透過對海量資料的學習,吸收資料裡面的“知識”。然後,再對知識進行運用,例如回答問題、創造內容等。
學習的過程,我們稱之為訓練。運用的過程,則稱之為推理。

訓練,又分為預訓練(Pre-trained)和微調(Fine tuning)兩個環節。
-
預訓練
在預訓練時,我們首先要選擇一個大模型框架,例如transformer。然後,透過“投餵
”
前面說的海量資料,讓大模型學習到通用的特徵表示。
那麼,為什麼大模型能夠具有這麼強大的學習能力?為什麼說它的引數越多,學習能力就越強?
我們可以參考MIT(麻省理工)公開課的一張圖:

這張圖是深度學習模型中一個神經元的結構圖。
神經元的處理過程,其實就是一個函式計算過程。算式中,x是輸入,y是輸出。預訓練,就是透過x和y,求解W。W是算式中的“權重(weights)”。
權重決定了輸入特徵對模型輸出的影響程度。透過反覆訓練來獲得權重,這就是訓練的意義。
權重是最主要的引數類別之一。除了權重之外,還有另一個重要的引數類別——偏置(biases)。

引數有很多種類
權重決定了輸入訊號對神經元的影響程度,而偏置則可以理解為神經元的“容忍度”,即神經元對輸入訊號的敏感程度。
簡單來說,預訓練的過程,就是透過對資料的輸入和輸出,去反覆“推算”最合理的權重和偏置(也就是引數)。訓練完成後,這些引數會被儲存,以便模型的後續使用或部署。
引數越多,模型通常能夠學習到更復雜的模式和特徵,從而在各種任務上表現出更強的效能。
我們通常會說大模型具有兩個特徵能力——湧現能力和泛化能力。
當模型的訓練資料和引數不斷擴大,直到達到一定的臨界規模後,會表現出一些未能預測的、更復雜的能力和特性。模型能夠從原始訓練資料中,自動學習並發現新的、更高層次的特徵和模式。這種能力,被稱為“湧現能力”。
“湧現能力”,可以理解為大模型的腦子突然“開竅”了,不再僅僅是複述知識,而是能夠理解知識,並且能夠發散思維。
泛化能力,是指大模型透過“投餵”海量資料,可以學習複雜的模式和特徵,可以對未見過的資料做出準確的預測。
簡單來說,就像董宇輝一樣,書讀得多了,有些書雖然沒讀過,他也能瞎掰幾句。
引數規模越來越大,雖然能讓大模型變得更強,但是也會帶來更龐大的資源消耗,甚至可能增加“過擬合”的風險。
過擬合,是指模型對訓練資料學習得過於精確,以至於它開始捕捉並反映訓練資料中的噪聲和細節,而不是資料的總體趨勢或規律。說白了,就是大模型變成了“書呆子”,只會死記硬背,不願意融會貫通。
預訓練所使用的資料,我們也需要再說明一下。
預訓練使用的資料,是海量的未標註資料(幾十TB)。
之所以使用未標註資料,是因為網際網路上存在大量的此類資料,很容易獲取。而標註資料(基本上靠人肉標註)需要消耗大量的時間和金錢,成本太高。
預訓練模型,可以透過無監督學習方法(如自編碼器、生成對抗網路、掩碼語言建模、對比學習等,大家可以另行了解),從未標註資料中,學習到資料的通用特徵和表示。
這些資料,也不是隨便網上下載得來的。整個資料需要經過收集、清洗、脫敏和分類等過程。這樣可以去除異常資料和錯誤資料,還能刪除隱私資料,讓資料更加標準化,有利於後面的訓練過程。
獲取資料的方式,也是多樣化的。
如果是個人和學術研究,可以透過一些官方論壇、開源資料庫或者研究機構獲取。如果是企業,既可以自行收集和處理,也可以直接透過外部渠道(市場上有專門的資料提供商)購買。
-
微調
預訓練學習之後,我們就得到了一個通用大模型。這種模型一般不能直接拿來用,因為它在完成特定任務時往往表現不佳。
這時,我們需要對模型進行微調。
微調,是給大模型提供特定領域的標註資料集,對預訓練的模型引數進行微小的調整,讓模型更好的完成特定任務。

行業資料類別
微調之後的大模型,可以稱之為行業大模型。例如,透過基於金融證券資料集的微調,可以得到一個金融證券大模型。
如果再基於更細分的專業領域進行微調,就是專業大模型(也叫垂直大模型)。
我們可以把通用大模型理解為中小學生,行業大模型是大學本科生,專業大模型是研究生。

微調階段,由於資料量遠小於預訓練階段,所以對算力需求小很多。
大家注意,對於大部分大模型廠商來說,他們一般只做預訓練,不做微調。而對於行業客戶來說,他們一般只做微調,不做預訓練。
“預訓練+微調”這種分階段的大模型訓練方式,可以避免重複的投入,節省大量的計算資源,顯著提升大模型的訓練效率和效果。
預訓練和微調都完成之後,需要對這個大模型進行評估。透過採用實際資料或模擬場景對大模型進行評估驗證,確認大模型的效能、穩定性和準確性等是否符合設計要求。
等評估和驗證也完成,大模型基本上算是打造成功了。接下來,我們可以部署這個大模型,將它用於推理任務。
換句話說,這時候的大模型已經“定型”,引數不再變化,可以真正開始幹活了。
大模型的推理過程,就是我們使用它的過程。透過提問、提供提示詞(Prompt),可以讓大模型回答我們的問題,或者按要求進行內容生成。
最後,畫一張完整的流程圖:

█ 大模型究竟有什麼作用?
根據訓練的資料型別和應用方向,我們通常會將大模型分為語言大模型(以文字資料進行訓練)、音訊大模型(以音訊資料進行訓練)、視覺大模型(以影像資料進行訓練),以及多模態大模型(文字和影像都有)。
語言大模型,擅長自然語言處理(NLP)領域,能夠理解、生成和處理人類語言,常用於文字內容創作(生成文章、詩歌、程式碼)、文獻分析、摘要彙總、機器翻譯等場景。大家熟悉的ChatGPT,就屬於此類模型。
音訊大模型,可以識別和生產語音內容,常用於語音助手、語音客服、智慧家居語音控制等場景。
視覺大模型,擅長計算機視覺(CV)領域,可以識別、生成甚至修復影像,常用於安防監控、自動駕駛、醫學以及天文影像分析等場景。
多模態大模型,結合了NLP和CV的能力,透過整合並處理來自不同模態的資訊(文字、影像、音訊和影片等),可以處理跨領域的任務,例如文生圖,文生影片、跨媒體搜尋(透過上傳圖,搜尋和圖有關的文字描述)等。
今年以來,多模態大模型的崛起勢頭非常明顯,已經成為行業關注的焦點。
如果按照應用場景進行分類,那麼類別就更多了,例如金融大模型、醫療大模型、法律大模型、教育大模型、程式碼大模型、能源大模型、政務大模型、通訊大模型,等等。
例如金融大模型,可以用於風險管理、信用評估、交易監控、市場預測、合同審查、客戶服務等。功能和作用很多很多,不再贅述。
█ 大模型的發展趨勢?
截至2024年3月25日,中國10億引數規模以上的大模型數量已經超過100個,號稱“百模大戰”。
這些大模型的應用領域、引數規模各有不同,但是,背後都是白花花的銀子。
根據行業估測的資料,訓練一個大模型,成本可能在幾百萬美元到上億美元之間。例如,GPT-3訓練一次的成本,約為140萬美元。Claude 3模型的訓練費用,高達約1億美元。
如此多的企業推出大模型,實際上也是一種資源的浪費。
而且,大模型也分為開源大模型和閉源大模型。行業裡有能力做閉源大模型的企業,並不是很多。大部分的大模型,都是基於開源大模型框架和技術打造的,實際上是為了迎合資本市場的需求,或者為了蹭熱度。
行業裡,目前仍有部分頭部企業在死磕引數規模更大的超大模型(擁有數萬億到數千萬億個引數),例如OpenAI、xAI等。馬斯克之前就在X平臺宣佈,xAI團隊已經成功啟動了世界上最強大的AI訓練叢集。該叢集由10萬塊H100組成,主要用於Grok 2和Grok 3的訓練和開發。
對於大部分企業來說,萬卡和萬億引數其實已經是個天花板了,再往上走的意願不強烈,錢包也不允許。
隨著行業逐漸趨於理性,現在大家的關注焦點,逐漸從“打造大模型
”
,變成
“
使用大模型
”
。如何將大模型投入具體應用,如何吸引更多使用者,如何透過大模型創造收入,成為各大廠商的頭等任務。
大模型落地,就涉及到能力“入”端(下沉到終端)。所以,AI手機、AI PC、具身智慧的概念越來越火,成為新的發展熱點。
以AI手機為例,像高通、聯發科等晶片廠商,都推出了具有更強AI算力的手機晶片。而OPPO、vivo等手機廠商,也在手機裡內建了大模型,並推出了很多原生AI應用。
第三方AI應用的數量,就更不用說了。截止目前,根據行業資料顯示,具有AI功能的APP數量已達到300多萬款。2024年6月,AIGC類APP的月活躍使用者規模達6170萬,同比增長653%。
大模型入端,也帶來了輕量化的趨勢。為了在資源受限的裝置上執行,大模型將透過剪枝、量化、蒸餾等技術進行輕量化,保持效能的同時減少計算資源需求。
█ 大模型會帶來哪些挑戰?
大模型是一個好東西,能夠幫我們做很多事情,節約時間,提升效率。但是,大模型也是一把雙刃劍,會帶來一些新的挑戰。
首先,是影響失業率。大模型所掀起的AI人工智慧浪潮,肯定會導致一些人類工作崗位被替代,進而導致失業率上升。
其次,是版權問題。大模型基於已有資料進行學習。大模型生成的內容,尤其是用於文字、影像、音樂和影片創作,可能引發版權和智慧財產權問題。它雖然幫助了創作,但也“引用”了人類創作者的作品,界限難以區分。長此以往,可能打擊人類的原生創作熱情。
第三,大模型可能引發演算法偏見和不公平。也就是說,訓練資料中存在的偏差,會導致大模型學習到這些偏差,從而在預測和生成內容時表現出不公平的行為。模型可能無意中強化社會上的刻板印象和偏見,例如性別、種族和宗教等方面的偏見。大模型生成的內容也可能被用於政治宣傳和操縱,影響選舉和公共輿論。
第四,被用於犯罪。大模型可以生成逼真的文字、影像、語音和影片,這些內容可能被用於詐騙、誹謗、虛假資訊傳播等惡意用途。
第五,能耗問題。大模型的訓練和推理需要大量的計算資源,這不僅增加了成本,還帶來了巨大的碳排放。很多企業為了服務於資本市場或跟風,盲目進行大模型訓練,消耗了大量的資源,也導致了無意義的碳排放。
總而言之,大模型在倫理、法律、社會和經濟層面帶來的威脅和挑戰還是很多的,需要更多時間進行探索和解決。
好啦,以上就是今天文章的全部內容,希望對大家有所幫助!
對於人工智慧這個領域,小棗君也是學習階段。文章如果有錯漏的地方,還請大家多多指正!謝謝!