日報
專欄
熱點
國際
活動

“近日,清華大學五道口金融學院財富管理研究中心撰寫釋出了《LLM時代小模型的應用潛力與挑戰》研究報告(以下簡稱《報告》),透過分析國內外小模型的發展現狀與具體案例探討了小模型的應用潛力與面臨的挑戰,為我國AI行業發展提供參考建議。”(首圖來自圖蟲創意)
近年來,隨著人工智慧技術的飛速發展,大語言模型在自然語言處理領域取得了顯著成就。然而,由於其高昂的成本和資源消耗,其商業化應用仍處於早期階段。相比之下,小語言模型憑藉較低的訓練成本和較小的計算資源需求等優勢,展現出很大的潛力。
基於此,清華大學五道口金融學院財富管理研究中心撰寫了《LLM時代小模型的應用潛力與挑戰》研究報告(以下簡稱《報告》)。《報告》透過分析國內外小模型的發展現狀與具體案例探討了小模型的應用潛力與面臨的挑戰,為我國AI行業發展提供了參考建議。
LLM時代小模型的發展現狀
《報告》對小模型(SLM)與大模型(LLM)在多個維度上的差異進行了對比分析,並總結了小模型的優勢。《報告》指出,儘管小模型相較於大模型在引數數量上較少,但在特定應用場景下,它們展現出了諸如成本效益、部署靈活性以及快速響應能力等顯著優勢。因此,小模型在移動裝置、智慧家居、語音識別等領域具有廣泛的應用前景。
《報告》進一步分析了國內外小模型的研發現狀及其特點。研究發現,國際大公司如微軟、谷歌等主要集中在通用大模型的開發,其開發成本較高,依賴強大的計算能力和豐富的資料資源支援。與此不同,國內企業更多關注於垂直領域的小模型應用,特別是在金融、醫療和教育等行業。這些小模型的開發成本較低、見效快,並且能夠靈活適應各行業的具體需求和生態環境。
《報告》還探討了小模型技術的進展。透過採用LLM剪枝(pruning)和知識蒸餾(knowledge distillation)等技術,研究人員顯著提升了小模型的效能。雖然小模型的體積較小,但它們在多語言處理、數學推理等常規任務中的表現同樣出色。如今,這些小模型已經能夠接近甚至達到大模型的水平。
小模型的應用案例
《報告》介紹了幾款國內外具有代表性的小語言模型,探討它們在特定任務中的表現,展示小模型在實際應用中的潛力。國外以通用小模型為主,例如,微軟推出的通用小模型Phi-3-Mini專為低資源、高效率、通用領域的任務而設計。Phi-3-Mini在語言理解和生成中表現出色,能夠與GPT-3.5媲美。蘋果團隊釋出的通用小模型OpenELM專為終端裝置設計,聚焦隱私保護和資料安全,彌補了以往大規模語言模型(LLM)產品在這些領域的短板。國內以垂直領域小模型為主。例如,浙江大學等研發了智慧教學小模型智海·三樂、山東大學等研發了法律諮詢小模型夫子·明察、DeepSeek開發了程式碼智慧小模型DeepSeek-Coder-V2-Lite、度小滿推出了金融諮詢軒轅-6B小模型。
《報告》透過國內外案例比較發現,我國發展小模型具有比較優勢。第一,小模型體積雖小,但對具體場景中的最佳化能力能夠超越國外通用模型。第二,小模型綜合能力大幅提升,在成本和效率上有明顯優勢。第三,小模型具有技術創新性。我國具有豐富AI模型的落地場景,以及龐大的使用者資料基礎。在全球AI競賽中,發展小模型能夠幫助中國有效規避高階晶片和算力資源的制約,透過以靈活、高效、經濟的方式,在特定領域快速形成技術優勢並實現彎道超車。
小模型面臨的挑戰及解決方案
《報告》指出,小模型由於其引數較少和網路結構較小,在處理複雜任務時通常面臨一定的侷限性。一是小模型處理複雜任務能力有限。小語言模型的處理能力受限於其較小的引數量,導致在執行需要深入理解上下文、生成流暢多樣的文字或應對複雜語言模式的任務時表現不佳。因此,要適當增加模型的引數量,提升資料質量,透過遷移學習的方式增強小模型的針對性和精度。
二是資料質量依賴性。如果訓練資料中存在偏差或不平衡,小模型可能會在特定場景下表現出較低的泛化能力,甚至產生不準確的預測或生成內容。因此,要確保訓練資料的質量。一方面,在資料清洗時要進行去噪處理,透過去除重複項、糾正標註錯誤等方式來提高資料質量。另一方面,要結合外部的知識庫,彌補資料中存在的不足,增強模型的泛化能力。
三是小模型使用的侷限性。小語言模型通常設計為專門處理特定領域或任務,因此其知識庫相對有限,難以應對跨領域的複雜問題。為了解決小模型使用侷限性的問題,一是模組化設計,將小模型設計為可擴充套件的模組系統,可以透過引入專門的外掛或外部知識庫,擴充其對不同主題的處理能力。二是多模型整合,透過將多個小模型進行整合,形成一個組合型的系統,充分發揮每個模型在特定領域的優勢。
小模型的未來發展趨勢和建議
在全球AI科技競賽中,探索合適的發展路徑對於超越對手至關重要。美國以大模型為主導的AI發展模式成本高昂,加之其對中國技術出口的限制,包括高階晶片的制裁。在此背景下,資源限制成為中國AI發展的一大挑戰。中國發展小而精的模型可以有效規避資源制約,快速實現技術突破。相比耗資巨大的大模型,中國的人工智慧產業鏈已較為完善,創新型企業與高校科研機構眾多,為小模型的研發和應用提供了堅實支撐。同時,中國擁有豐富的產業生態與實際應用需求,能夠更高效地推動技術普及和產業轉型。
中國發展小模型,一是要精準最佳化與資料賦能打造高效小模型。透過最佳化提示工程(Prompt Engineering)和高效微調(Fine-Tuning)技術,小模型能夠顯著提升模型表現力。同時,利用高質量、跨領域的多模態資料,將極大增強小模型的泛化能力與應用場景的多樣性,推動其在垂直領域和本地化應用中的廣泛落地。二是科技創新與生態建設推動小模型多元化發展。我國要堅持高水平科技自立自強,加速關鍵核心技術的突破和創新,實現關鍵核心技術自主可控,打破外部技術封鎖和制裁的束縛。同時,要構建開放包容的創新生態系統。擴大國際科技交流與合作,積極融入全球創新網路,深度參與全球科技創新治理,透過吸引國際頂尖人才,為我國AI領域的崛起注入活力。
中國發展小模型,能夠有效規避資源和技術限制,發揮我國自身優勢,充分釋放小模型在垂直場景中的潛力,實現人工智慧領域的全面突破和產業升級,增強我國在人工智慧領域的全球競爭力。
報告作者
張曉燕 清華大學五道口金融學院副院長、金融學講席教授
張藝偉 清華大學五道口金融學院財富管理研究中心 研究專員
張遠遠 清華大學五道口金融學院 博士後研究員
REVIEW




