大模型入門超全指南來了!人大團隊力作,內附一線開發經驗

人大團隊爆火綜述論文編纂成書,獲多位院士推薦。
作者 |  陳駿達
編輯 |  漠影
2025年,DeepSeek-R1的釋出在國內AI領域掀起了一場前所未有的開源風暴。作為一款效能卓越的開源大模型,它不僅開放了模型的獲取許可權,還主動分享演算法細節以及最佳化策略,激發了整個行業的開放共享熱潮。
與此同時,科研論文、技術部落格和開源社群的討論如雨後春筍般湧現,這種開放透明的氛圍極大地推動了AI科研知識的共享與傳播,吸引了更多研究者和開發者參與到大模型的創新與應用中。
不過,對於剛剛入門大模型的初學者而言,這些論文、研究中涉及的諸多高階概念或許意味著較高的認知挑戰。
一方面,國內外主流AI教科書的成書或更新時間,大多早於本輪生成式AI浪潮,對新近AI技術的發展缺乏全面覆蓋。
另一方面,許多大模型“Know How”只能從一線實踐中獲取,且需要大量算力的投入,但像DeepSeek這樣願意分享此類知識的AI企業,依舊是少數。
令人慶幸的是,已經有一批一線AI研究者在從事大模型基礎知識和應用經驗的普及工作。
在國內,中國人民大學的科研團隊於2023年3月底釋出A Survey of Large Language Models論文,全面綜述了大模型界的最新研究成果,此後,這篇綜述持續更新,截至2025年3月,已有整整16個版本,最新一版文章達144頁,引用了1000餘篇論文。
去年年底,由上述文章整理而來的《大語言模型》一書,在歷經數月的編輯之後,由高等教育出版社正式出版。與英文綜述文章的定位不同,修訂後的中文版更關注為大模型學習者供整體的技術講解,對內容上進行了大範圍的更新與重組,力圖展現一個系統的大模型技術框架和路線圖。
《大語言模型》一書由中國人民大學高瓴人工智慧學院趙鑫教授和文繼榮教授領銜主編,博士生李軍毅、周昆和碩士唐天一參與編著,作者團隊在大模型領域有著豐富的研究與開發經驗,曾主導研發了文瀾、玉蘭等大模型。
編者團隊認為,大模型研發的眾多訓練細節無法從已有的科學文獻中直接獲取,通常需要開展實驗進行摸索。但實際上,很多研究人員並沒有充足的算力資源去完成一次完整的大規模預訓練實驗,無法獲取一手經驗,極大限制了學術界在此次AI技術發展中所起到的作用。
然而,學術界在AI研究中的獨特價值依然不可替代,且需要在多個領域持續發聲並貢獻力量。學術界更為長遠和多元的研究視角,可以在大模型的基礎理論研究中發揮重要作用,或是深入探索如AI安全、AI治理這樣短期內難以變現,但對人類未來至關重要的議題。
本書前言中有這麼一句話:“人類社會的技術發展從不會因為某個公司或某個國家的技術封鎖而停滯不前。”《大語言模型》一書的出版,恰好為學術界提供了獲取一線大模型知識和實踐經驗的渠道。這本書全面覆蓋了大語言模型訓練與使用的全流程,從預訓練到微調與對齊,從使用技術到評測應用,幫助讀者全面掌握大語言模型的核心技術。
在核心演算法技術的基礎之上,編者團隊還提供了大量的程式碼實戰與講解,同時搭配相關的開發工具包LLMBox與YuLan大模型,供讀者深入閱讀理解相關技術。
書中大量的視覺化內容可幫助讀者更好地理解相關概念,下方這張圖表就呈現了基於LLaMA模型的各類衍生工作,透過繼續預訓練、指令微調等方法,LLaMA可以適配到不同的語言、多樣的領域。
釋出之際,《大語言模型》一書也得到了多位知名AI學者的推薦。北京智源人工智慧研究院學術顧問委員會主任、美國國家工程院外籍院士張宏江稱:“本書內容深入結合了編者在研發大模型過程中的第一手經驗,……,可以作為深入學習大模型技術的參考書籍。”北京大學講席教授、中國科學院院士鄂維南、清華大學智慧科學講席教授、中國工程院外籍院士張亞勤也為本書撰寫了推薦語。
在AI技術飛速發展的當下,《大語言模型》的出版恰逢其時,相信無論是普通讀者還是專業讀者,都能從此書中獲得關於AI前沿技術的最新見解。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)

GenAICon 2025北京站預告

相關文章