
(本文閱讀時間:11分鐘)
儘管大語言模在新聞撰寫、文件總結、客服助理和虛擬助手等以語言為中心的任務上表現出色,但在深入理解和處理特定的行業資料時仍存在侷限。為了應對大模型在產業界應用中所面臨的挑戰,微軟亞洲研究院提出了構建產業基礎模型(Industrial Foundation Models)的創新思路,並在表資料上成功驗證了實現跨領域通用資料智慧的可行性及其巨大潛力。研究員們設計的生成式表資料學習(Generative Tabular Learning,GTL)框架,成功地將多行業資料智慧相關的知識融入大語言模型中,使其具備在新領域、新資料及新任務上的直接遷移和泛化能力,更加敏捷地響應不同的產業需求。現在,微軟亞洲研究院正式開源這一技術正規化,並希望透過此正規化推動資料科學在各行業中的廣泛應用,促使複雜的資料智慧技術變得人人可及。
專案連結:
https://github.com/microsoft/Industrial-Foundation-Models
相關論文:From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models(已收錄於KDD 2024)
https://dl.acm.org/doi/10.1145/3637528.3671975

微軟亞洲研究院的研究員們發現,大語言模型在利用產業資料這一關鍵資源方面,尚未充分發揮其潛力。產業資料通常以特定結構儲存在不同行業和部門的資料倉庫中,比如用於關係結構的表資料、記錄時變訊號的時間序列資料,以及用於複雜相互關聯的圖資料。這些結構中蘊含的豐富資料知識往往難以透過自然語言捕捉,因此當前以語義知識為核心的大語言模型在掌握資料智慧相關的知識與能力方面存在不足。
更重要的是,產業資料及其蘊含的智慧,為多個領域的重要應用奠定了基礎。這種智慧不僅來源於數值和結構化資訊,還包括特定任務的需求和領域專有知識。例如,在醫療健康領域,來自患者的基本資訊、生理訊號和治療歷史的資料,可用於輔助精確診斷和預後分析。在能源儲存領域,分析電池迴圈資料中的模式,可以加速材料篩選、最佳化充放電協議、指導電池回收中的價值評估。在商業領域,歷史銷售和需求資料可以輔助預測未來的市場趨勢並制定定價策略。傳統的資料智慧方法通常依賴於特定的資料模式與任務需求,具體表現為各個垂直領域中獨立開發及最佳化的小模型。
為應對這些挑戰與機遇,微軟亞洲研究院提出構建產業基礎模型的新思路。其核心策略是以統一的方式表徵產業資料,並在此基礎上對大語言模型進行持續預訓練,從而將通用的資料智慧知識與能力整合到大語言模型中,創造出在新場景上可直接應用的產業基礎模型。這種模型不僅能夠在各行業部門中執行以語言指令為中心的任務,還可以提取跨任務和跨部門的產業知識,並進行資料驅動的預測和邏輯推理。
此外,透過提供一個以語言為中心、無需引數調優和編寫程式碼的使用者介面,產業基礎模型還有潛力改變傳統的資料科學應用正規化。這個使用者友好的介面將使各行業的領域專傢俱備全面的資料科學技能,推動先進資料分析技術的普及。
同時,產業基礎模型強大的跨領域能力,也使其能夠有效地進行知識遷移與技能泛化。這對在資料有限的領域進行有效地少樣本上下文學習尤為關鍵。

圖1:產業基礎模型的架構概覽

表資料(Tabular Data)通常儲存於關係型資料庫中,是眾多產業領域中最普遍的資料格式之一,也是預測建模的基礎。因此,微軟亞洲研究院的研究員們從表資料著手,構建能夠橫跨不同產業領域的基礎模型。
研究員們收集了來自不同產業領域的各種表資料集及其相應的預測任務,並將這些資料轉換為面向指令的語言格式。這種轉換使得大語言模型能夠適應多樣化的資料模式,例如不同特徵的語義和數值含義,支援數值和類別特徵的任意組合。此外,透過將大語言模型與資料樣本及可選的背景資訊結合,模型不僅能夠處理迴歸和分類任務,還能夠支援零樣本(Zero-Shot)學習和少樣本上下文學習(In-Context Learning)的場景。

圖2:基於表資料的產業基礎模型開發流程
然而,將大語言模型的語言處理能力融入表資料的學習中仍面臨巨大的挑戰。最主要的問題在於,大語言模型通常在自然語言資料上進行預訓練,因此在處理格式化表資料的精細差別時顯得力不從心,並且缺乏對特定領域知識的深入理解,而這些知識對於有效的表資料學習至關重要。
為了解決這些挑戰,研究員們引入了一個持續預訓練階段,即生成式表資料學習(Generative Tabular Learning,GTL)。透過對特徵和標籤標記進行自迴歸式生成建模,GTL 框架可以將資料知識與統計學習能力有效整合到大語言模型中。經過 GTL 框架增強的大語言模型,可以透過調整指令提示,直接應用於新的產業資料和任務需求。這意味著,模型能夠在無需複雜引數調優的情況下,實現高效的資料處理,並且在不同領域知識、資料模式和任務之間進行廣泛遷移,從而推動大語言模型向產業模型的方向進化。

為了驗證 GTL 的有效性,研究員們收集了來自超過400個不同領域的表資料集,經過嚴格的去重過濾和篩選,最終保留了384個獨立的資料集。其中,44個數據集被用於模型評估,其餘的資料集用於構建1000多個不同的預測任務,以支援 GTL 的持續預訓練。研究員們選擇 LLaMA 2 作為基礎大語言模型,並將其與開源和私有的大語言模型,以及傳統表資料機器學習演算法進行了比較。
如圖3所示,實驗結果表明,GTL 顯著增強了 LLaMA 模型對錶資料的理解能力。這表明,表資料中所蘊含的行業知識尚未被開源的 LLaMA 模型充分掌握,而 GTL 則有效彌補了純語言資料訓練出的語言模型在產業資料智慧上的不足。值得一提的是,儘管 GTL 增強的 LLaMA 模型引數規模較小,但其效能與 GPT-4 等更大規模的模型相比仍具有競爭力,甚至在某些情況下表現更為優異。不過需要注意的是,與 GPT-4 在公開表資料上的對比結果可能因其私有訓練資料中潛在的“資料汙染”問題而產生偏差。
此外,GTL 增強的 LLaMA 模型不僅在少樣本學習場景中透過無須調參的上下文學習,超越了傳統表資料機器學習方法的統計學習能力,還具備了這些方法所缺乏的零樣本學習能力。

圖3:GTL 增強的 LLaMA-2-13B 與其他基線模型的對比(更多詳細結果請參閱論文)
研究員們還初步探究了 GTL 的規模定律。如圖4所示,資料的多樣性和模型引數規模都以冪律方式提升了新資料和新任務上的效能。這一發現表明了產業基礎模型在跨多樣任務和領域的廣泛泛化潛力,有望使複雜的資料智慧技術變得更加普及,即便在資料可得性有限的行業中也能發揮重要作用。

圖4:初探 GTL 的規模定律

生成式表資料學習(GTL)為會話式表資料深度學習打開了大門,使使用者能夠透過與模型對話來實現資料智慧相關的分析、預測、推理和決策。透過將 GTL 與語言模型整合,模型不僅能夠生成預測結果,還可以提供對相應結果的解釋,從而為表資料學習的可解釋性帶來了新的機遇。基於這一正規化所展現出的巨大潛力,微軟亞洲研究院從兩個角度展望了產業基礎模型未來的研究和應用前景。
首先,產業基礎模型本身的多維度擴充套件蘊含著巨大的潛力。這包括擴充套件資料集的種類和規模、增加模型規模、延長上下文長度,以及整合多樣化的資料格式,如時間序列和圖資料等。全面的擴充套件將使產業基礎模型能夠以更高的精度和更強的適應性,處理更多領域的更廣泛任務。同時,產業資料知識與大語言模型生態系統的前沿進展相結合,如工具使用、智慧體和對話互動,將進一步拓展產業基礎模型的能力邊界。這種協同作用可以打造更魯棒和多功能的模型,將產業資料智慧與大語言模型的複雜功能無縫融合。
其次,從使用者視角來看,產業基礎模型的發展將徹底革新產業資料智慧的實現方式,重新定義資料科學的使用者介面和工具鏈,進而催生出創新性的產品和服務。例如,領域專家無需掌握深厚的程式設計和資料科學知識,即可藉助資料科學助手獲得先進的資料分析和預測能力,從而推動前沿資料科學工具的普及。另外,產業基礎模型可以作為決策支援工具,為行業領導者和從業者提供深刻的資料洞察和個性化分析,幫助企業做出更明智的戰略決策,最佳化運營流程,併發掘新的增長機遇。
將大語言模型與產業資料智慧相結合,是邁向產業基礎模型的關鍵一步。透過持續擴充套件和創新,建立以使用者為中心的工具,使前沿的資料智慧技術更易於獲取,能夠釋放出產業基礎模型在各個行業中的更多潛能。微軟亞洲研究院將持續推動這一程序,不斷突破界限,讓前沿的資料智慧技術惠及更多的行業領域。
相關連結:
論文:From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models(已收錄於KDD 2024)
論文連結:
https://dl.acm.org/doi/10.1145/3637528.3671975
專案連結:
https://github.com/microsoft/Industrial-Foundation-Models
你也許還想看:
