
(本文閱讀時間:16分鐘)
近年來,生成式基座模型(Generative Foundation Model)在自然語言處理、影像和影片生成等領域取得了巨大成功,推動了新一輪的學術研究和產業應用浪潮,逐步為多個行業塑造出新的生產正規化。生成式基座模型的強大能力離不開三個關鍵要素:海量且高質量的訓練資料;能夠將資料中的核心資訊(如文字中的語義資訊)進行有效的令牌化(tokenization)和序列化(sequentialization);透過自迴歸(auto-regressive)的訓練方式對資料進行建模,從而獲得對核心資訊的深刻理解和隱含的推理能力。
基於多年來在多個行業成功落地人工智慧的實踐經驗,微軟亞洲研究院的研究員們意識到,將這種正規化與行業特有的核心資料相結合,可構建出具有行業獨特性的生成式基座模型,進而推動相關領域的跨越式發展。
金融市場的交易訂單資料就是一個典型例子。研究員們發現,金融市場訂單資料具有三大重要特徵:
1. 細粒度:訂單作為金融場景下最基礎的原子資料,能夠全面、精細地刻畫真實市場,結合相應的撮合規則,能夠還原出市場的完整執行過程;
2. 大規模:全球交易所經過多年的電子化交易,積累了海量的交易訂單資料;
3. 結構化:訂單資料具有良好的結構化特性,便於進行令牌化和序列化。
這些特徵使訂單流資料有望成為金融市場生成式基座模型的堅實基礎。基於此目標,微軟亞洲研究院提出了大市場模型 (Large Market Model,LMM),並設計推出了基於 LMM 的金融市場模擬引擎 MarS(Financial Market Simulation Engine Powered by Generative Foundation Model),旨在助力金融研究人員為不同場景定製生成式模型,以及構建適用於金融市場所有下游任務的生成式基座模型應用新正規化,為金融行業的效率提升和精準洞察帶來變革。

圖1:股票交易市場及訂單的示意

作為金融市場生成式基座模型的核心要素,訂單流資料不僅能精細地體現市場參與者圍繞投資標的的即時博弈過程,還在不同尺度下展現出了兩類獨特的價值:
細粒度的市場反饋:從單一市場參與者的視角來看,每筆訂單(特別是大額訂單)發出後,其他市場參與者在觀察到該訂單後可能會調整自身決策。這種調整往往會體現在後續訂單中,進而形成市場整體對該訂單的反饋。這種反饋展現了金融市場價格博弈過程中的微觀視角。
宏觀的市場博弈過程:從整體市場的視角來看,所有市場參與者之間的複雜博弈匯聚在一起,形成了某一時間段內的市場交易特性。隨著時間的推移,這種交易特性的變化記錄了市場中多空雙方分歧的起始、演進及最終彌合的博弈過程。
研究員們根據訂單流資訊的特殊價值,分別對單筆訂單及其相關的訂單簿,以及一段時間內的所有訂單集合進行建模,進而構建了 LMM。兩種不同層次的建模分別對應上述的細粒度反饋和宏觀市場博弈特性,即訂單模型(order model)和批次訂單模型(order-batch model)。針對原始訂單流資料,圖2展示了服務於訂單模型和批次訂單模型的兩種令牌化設計。這種令牌化設計使模型能夠精準捕捉訂單流中的微觀和宏觀資訊,從而對金融市場的複雜動態進行更準確的建模和模擬。

圖2:針對單一訂單的令牌化(上)及針對批次訂單的令牌化(下)

隨著訓練資料的增多以及模型引數的擴充套件,生成式基座模型的能力會持續提升,帶來傳統小模型難以企及的想象空間。基於上述兩種令牌化方式,研究員們在 LMM 中分別設計了基於 Transformer 架構的生成式模型,並在不同規模的訓練資料和引數規模下進行了測試。結果如圖3所示,無論是訂單模型還是批次訂單模型,都表現出了顯著的擴充套件定律(scaling law)。這意味著,在生成式基座模型的支援下,金融場景中海量的歷史交易資料有望釋放其長期潛藏且尚未充分發掘的巨大價值。
在 LMM 中,研究員們還融合了訂單模型及批次訂單模型,對不同尺度和不同博弈視角的訂單流進行建模,保證了模型所生成的訂單流能夠體現對市場準確且深刻的理解。這不僅提升了模型的生成能力,還為市場訂單資料的時序建模開闢了新路徑,使 LMM 在生成市場訂單流時具有更高的精準性和現實模擬能力。

圖3:訂單模型及批次訂單模型在不同引數規模下的擴充套件曲線(scaling curve)

生成式基座模型一經訓練完成,便能透過簡單的適配應用於廣泛的下游任務,並且在許多場景中超越為單一任務設計的傳統小模型。為了充分發揮 LMM 對金融市場的強大建模能力,研究員們分析了各類金融場景中的潛在下游任務需求,設計並推出了基於 LMM 的金融市場模擬引擎 MarS。
MarS 不僅是一種通用的金融市場模擬工具,還為金融行業的多種下游任務提供了全新的生成式基座模型應用正規化。藉助 MarS,金融研究人員能夠為不同的金融場景定製生成式模型解決方案,覆蓋領域廣泛,從市場預測、風險評估到交易策略最佳化等等。

圖4:金融市場模擬引擎 MarS 框架圖

傳統的金融市場解決方案往往需要專家針對不同場景和任務設計專門的演算法和策略。然而,金融市場的天然動態性使得這些演算法和策略必須不斷調整和更新,耗費了相關人員大量的時間和精力。而在生成式基座模型時代,LMM 已經有能力對金融市場進行細緻深入的建模,並且可以根據最新的市場資料進行定期更新。因此,研究員們希望利用 LMM 強大的市場建模能力,構建一個適用於金融市場所有下游任務的“一力降十會”的新正規化。
在 MarS 中,研究員們設計了模擬真實訂單撮合規則的虛擬交易所(如圖4右上角所示)。然後在虛擬交易所中撮合由 LMM 生成的訂單流,模擬生成與這些訂單流相對應的成交情況,並推演出市場的模擬軌跡(simulated market trajectories)。基於這一機制,金融場景中最常見的預測類和檢測類任務便有機會在生成式基座模型的框架下,設計出全新的解決方案。
應用於預測類任務
金融市場中的預測類任務非常廣泛,任何依賴於對未來市場指標進行估計的任務都屬於這一範疇。當前,無論是基於經濟學理論還是資料驅動的主流金融預測模型,都遵循“擬合特定場景和指標”的設計正規化。這種正規化的侷限在於,一旦預測目標發生變化,就需要重新調整和設計模型。例如,圖5展示了資料驅動模型 DeepLOB 在預測股票價格走勢時的情況,通常這種情況需要分別訓練5個模型來獲得未來1-5分鐘的走勢預測。
但在 MarS 的新正規化下,只需將最近的真實市場資料輸入到 LMM 中持續生成未來的訂單流,並在虛擬交易所中進行撮合,就能得到一條可能的未來市場軌跡。透過多次模擬,不僅能夠獲得未來走勢的預測,還能推斷出其他任何市場指標。如圖5所示,基於 MarS 新正規化的預測效能顯著優於傳統的標杆演算法,為金融市場的預測類任務提供了極具吸引力的解決方案,同時也從側面體現了 LMM 在股票市場建模方面的強大能力。

圖5:以“預測股票價格未來趨勢”任務為例,在金融場景預測類任務中基於 MarS 的新正規化具有顯著優勢
應用於檢測類任務
對於金融市場的監管者而言,精準有效地檢測潛在的系統性風險或惡意交易行為是維護金融市場健康高效執行的重中之重。檢測任務中的關鍵是在於找到能夠區分異常情況與正常市場行為的指徵。LMM 所刻畫和建模的正是金融市場的通用規律,生成的訂單流代表了普遍情況下的市場行為。因此,透過將真實市場軌跡與 MarS 生成的模擬軌跡進行對比,就有機會獲得傳統方法難以察覺的異常指徵。
圖6展示了一次真實的惡意市場操縱行為的前、中、後三個時段內,模擬市場軌跡與真實市場軌跡之間的 Spread 分佈差異(Spread 指最優買賣價格之間的差值,可用於反映資產的即時流動性,Spread 大意味著流動性較差)。可以明顯觀察到,在監管機構披露的惡意操縱的時間段內,模擬市場軌跡與真實市場軌跡之間的相關程度顯著降低,這是一個有助於監管機構更高效查處惡意市場操縱行為的重要指徵。這一類依賴於對微觀市場行為有高質量建模的監管指徵,在沒有高質量的訂單流生成的基座模型之前是難以獲得的。利用這種方法,許多金融市場的檢測類任務都將可以透過對比模擬市場與真實市場,找到高效的檢測指徵。

圖6:模擬市場軌跡與真實市場軌跡在 Spread 分佈下的相關度在已被證實的市場操縱的前、中、後的差異,操縱進行中的相關度顯著降低,有潛力成為一項檢測市場操縱嫌疑的指標。

生成式模型能夠透過簡單的描述生成符合特定條件的內容。在模擬引擎 MarS 中,研究員們設計了一種方案,可以根據自然語言描述生成特定市場狀況下的訂單流。考慮到金融場景的極端市場狀態具有特殊的研究意義,研究員們特意設計了一套基於層次擴散模型的訂單流調控訊號生成系統,從而保證即便是在生成真實世界中罕見的極端市場情況下,例如股災、熔斷等,也能生成若干有區別又有高保真度的調控訊號。透過這些細粒度的高保真調控訊號,MarS 得以將宏觀的市場描述轉化為對微觀訂單流的精細調控,實現精準的訂單流生成。
此外,由於市場參與者的所有意圖和行為最終都會透過訂單這一形式表達和互動,所以對市場的研究本質上是對訂單及其互動行為的深入分析。MarS 內建了能撮合任意合法訂單流的虛擬交易所,透過研究員們開發的機制可以使外部互動訂單能夠無縫插入由 LMM 生成的訂單流中,同時確保後續訂單流仍保持高保真度,真實地反映這些互動訂單所帶來的影響。透過觀察外部互動訂單對模擬市場的影響,相關研究人員能夠在生成式模型的幫助下,收集到以往只能靠投入巨大財力才能獲取的珍貴資料。
透過結合 MarS 的可調控訂單流生成能力和對互動訂單的真實反饋,研究員們發現 LMM 不僅為主流的預測和檢測任務提供了一種新的統一正規化,更有希望重新定義金融科技的研究方向、應用技術、市場探索以及理解市場的方式。為此,研究員們嘗試將原本只能在實驗室環境中構想的兩類應用場景帶入了現實——“假設……會怎樣”的分析(“What If” Analysis)以及為強化學習等演算法提供接近真實金融市場的數字孿生訓練和測試環境。
“如果……會怎樣?”類的分析研究任務
“在不同市場環境下,不同規模的交易訂單的投入會對市場產生怎樣的影響?”這一假設性問題對金融市場非常重要。但傳統研究方法依賴於收集真實訂單交易的市場反饋以及諸多經驗總結和假設,成本高昂,致使相關研究進展緩慢。而生成式模型為這一問題的解決提供了突破性的契機。
圖7左上展示了在 MarS 市場模擬中,一批買入訂單如何影響資產價格軌跡並演化出不同的市場軌跡。圖7右上則展示了 MarS 模擬不同交易策略的市場影響曲線,它們與傳統研究總結出的真實市場模式幾乎一致,證明了 MarS 在替代傳統高成本研究方法上的巨大潛力,也間接證明了 MarS 在模擬和刻畫訂單間複雜市場行為方面的強大建模能力。
更進一步,研究員們利用 MarS 的低成本優勢,透過模擬市場軌跡的大量資料,藉助常微分方程(ODE)構建了較為準確的市場影響模型。圖7左下展示了透過 ODE 得到的市場影響公式,圖7右下則展示了該公式的高可解釋性。
研究員們相信,藉助 LMM 對金融市場的準確建模,以及 MarS 對可控生成和互動式訂單的支援,金融場景中的“假設……會怎樣?”類研究問題將迎來快速的發展和顯著進步。

圖7:基於 MarS 的“訂單的市場影響”問題的研究成果示例
金融市場中強化學習演算法的訓練環境
過去,強化學習等自主探索和最佳化演算法只能在實驗室環境下執行,在實際場景中的應用受限。這類演算法依賴於在模擬環境中進行結果評估和最佳化決策。然而,金融市場的行為和決策往往表現為訂單流的變化,進而影響市場。如果訓練所依賴的模擬環境不能夠準確模擬市場影響,且無法根據演算法的行為/決策的改變及時調整反饋,那麼在模擬環境中表現良好的演算法在實際場景中可能無法達到預期。此外,由於強化學習演算法需要自主探索和調優,如果模擬環境只能模擬常規場景而無法刻畫現實中的極端情況,那麼訓練得到的演算法在實際應用時可能會在極端場景下出現極其不佳的表現。
MarS 的高保真調控生成能力和對外部互動訂單的即時反饋,為強化學習演算法在金融市場下游任務中的應用提供了更廣闊的空間。圖8展示了在 MarS 模擬引擎中從頭開始訓練交易智慧體的過程。研究表明,隨著市場反饋的不斷更新,強化學習演算法在真實模擬環境中逐步學會了更優的交易策略,並獲得了令人滿意的回測結果。這一成果顯示了 MarS 作為強化學習訓練環境的潛力,將可以為金融市場演算法的自主最佳化提供有力支援。

圖8:以 MarS 為環境訓練的強化學習交易代理的訓練表現。在訓練過程中,代理的效能顯著提升,展示了 MarS 在幫助訓練強大且面向真實市場的強化學習演算法的能力。

隨著基於生成式基座模型的新正規化不斷完善,金融市場相關領域的各類下游任務有望透過適配這一新正規化實現效能提升和突破。更重要的是,這一新正規化具有普適性。未來,其他擁有海量且複雜核心資料的垂直領域,包括醫療健康、能源、物流和製造業等,也具備開發行業特有生成式基座模型的潛力。例如,能源領域可以利用歷史能源消耗和價格波動等資料,建立智慧化的能源分配和預測系統。
生成式基座模型的廣泛應用將不僅僅推動金融市場相關技術的飛躍,也為其他資料密集型領域提供了全新的研究方向和解決方案。伴隨新正規化的發展,未來會有更多行業和領域在生成式人工智慧的支援下,邁向智慧化、自動化和精準化的新高度。
相關文獻:
MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process
https://arxiv.org/abs/2403.05751
Controllable Financial Market Generation with Diffusion Guided Meta Agent
https://arxiv.org/abs/2408.12991
MarS: a Financial Market Simulation Engine Powered by Generative Foundation Model
https://arxiv.org/abs/2409.07486
相關連結:
https://mars-lmm.github.io/
https://github.com/microsoft/MarS
你也許還想看:
