量化投資與機器學習微信公眾號,是業內垂直於量化投資、對沖基金、金融科技、人工智慧、大資料等領域的主流自媒體。公眾號擁有來自公募、私募、券商、期貨、銀行、保險、高校等行業40W+關注者,曾榮獲AMMA優秀品牌力、優秀洞察力大獎,連續4年被騰訊雲+社群評選為“年度最佳作者”。
作者:Tian Guo、Emmanuel Hauptmann

前言
量化投資依賴於從各種資料來源(包括市場價格、經濟指標、財務文字等)提取定量特徵或訊號,以構建和最佳化投資組合。近年來,由於自然語言處理(NLP)技術的發展,使用文字資料進行量化投資的趨勢顯著增長。特別是,大語言模型(LLMs)在各種語言理解和生成任務上展示了卓越的效能,並且微調技術允許將預訓練的LLMs適應於量化投資。
本文專注於使用財務新聞進行股票預測以進行選股。傳統使用財務新聞資料應用於選股方法涉及,如下圖a所示,包括特徵標註(例如,情感、主題、受歡迎程度等),提取特徵(例如,訓練財務情感分類模型),並透過統計分析或構建預測模型來驗證提取特徵的預測能力。這個過程可能是耗時的,並且需要額外的資料(例如,標記的財務情感資料)和持續的改進。

本文探索了透過微調LLMs使用新聞直接進行股票收益預測,如上圖b所示:
1、我們設計了一個包含文字表示和預測模組的基於LLM的收益預測模型。
2、我們假設,僅包含編碼器的和僅包含解碼器的大型語言模型在預訓練和微調階段對文字序列的處理方式不同,因此它們的文字表示效能可能會有所差異;基於此,我們提出比較僅使用編碼器的模型(如DeBERTa)和僅使用解碼器的模型(如Mistral和Llama3)作為預測模型中的文字表示模組。
3、考慮到LLM生成的文字表示在Token級別,我們提出了兩種簡單的方法將Token表示整合到預測模組中:bottleneck表示和aggregated表示。
4、我們在真實的財務新聞和各種股票池上進行實驗。除了評估預測誤差外,我們還透過在樣本外時期進行回測來評估基於收益預測構建的兩種型別的投資組合。對僅包含編碼器的和僅包含解碼器的LLMs的實驗,為識別適合不同投資策略和市場的文字表示提供了幫助。
具體介紹
下圖為使用大模型基於新聞資料進行股票收益預測的流程:

我們知道大語言模型大部分是基於Transformer結構,其中又分為encoder-only(僅使用編碼器部分),decoder-only(僅使用解碼器部分)和encoder-decoder。本文中對encoder-only和decoder-only兩類大語言模型的預測效果進行了對比。
Encoder-Only LLMs(編碼器LLMs):
這類模型主要關注於學習輸入文字的上下文嵌入(contextual embeddings)。它們透過預訓練階段的掩碼語言建模(masked-language modeling)來實現這一目標。
在掩碼語言建模中,文字序列中的一些標記(tokens)會被隨機遮蔽(mask),然後模型的任務是預測這些被遮蔽的標記。這個過程使得模型學習到的每個標記的向量表示能夠結合其左側和右側的上下文資訊。
一個著名的例子是(BERTBidirectional Encoder Representations from Transformers),它透過這種方式生成輸入文字的雙向表示。
在預訓練中,模型會看到如“[MASK]”這樣的特殊標記,並嘗試根據周圍的上下文來預測這個位置原本的詞。
Decoder-Only LLMs(解碼器LLMs):
decoder-onlyLLMs在預訓練中使用下一個詞預測任務(next-token prediction task),它們被訓練來生成文字,透過預測序列中下一個詞來建模。
這類模型的預訓練目標是自迴歸地(autoregressively)建模輸入序列,即每個詞的預測都依賴於之前已經看到的詞。
為了模擬序列的第一個詞,通常會在序列開始處新增一個特殊的開始序列標記(BOS,Beginning-of-Sequence token)。
一個例子是GPT-3(Generative Pretrained Transformer 3),它透過這種方式生成文字,並能夠捕捉序列的流動性和連貫性。
作者還提到了兩種將LLMs生成的標記級(token-level)向量表示整合到預測模組的方法:瓶頸表示(bottleneck representations)和聚合表示(aggregated representations)。這兩種方法都旨在將LLMs生成的文字表示轉化為能夠用於預測股票回報的形式,但它們在如何整合序列資訊方面採取了不同的策略。瓶頸表示透過一個單一的向量來捕捉整個序列的資訊,而聚合表示則透過綜合考慮序列中所有標記的資訊來實現。論文的實驗結果表明,這兩種方法在不同的投資領域和不同的LLMs中表現各有優劣。
瓶頸表示(Bottleneck Representations):
1、這種方法的核心思想是在微調(fine-tuning)過程中,促使LLMs將整個文字序列的資訊壓縮成一個單一的向量表示。
2、實際操作中,透過在輸入序列的末尾新增一個序列結束(End-of-Sequence, EOS)標記來實現。由於EOS標記在所有序列中都是相同的,它的向量表示將依賴於序列中的實際標記。
3、在微調過程中,EOS標記的向量表示被送入預測模組,並在訓練過程中透過反向傳播(backpropagation)來調整,以總結序列中實際標記的表示。
4、對於encoder-only LLMs,這種方法與預訓練階段的掩碼語言建模任務一致,可能有助於更有效地總結序列級特徵。
聚合表示(Aggregated Representations):
1、與瓶頸表示不同,聚合表示不是將資訊壓縮成一個單一的向量,而是允許預測模組綜合考慮序列中所有標記的向量表示。
2、這種綜合可以透過簡單的方法實現,例如對所有標記的向量表示進行平均,或者使用更復雜的方法,如注意力機制(attention mechanisms)。
3、論文中選擇了簡單的平均方法,因為它不需要訓練額外的引數,並且可以清晰地與瓶頸表示進行比較。
4、對於decoder-onlyLLMs,使用聚合表示可能會增加預訓練和微調之間的差異,因為每個標記的表示是基於上下文和自身,而不是預訓練中的掩碼標記。
5、對於decoder-only LLMs,平均所有標記的表示可能會導致對輸入序列中早期標記的偏見,因為在自迴歸設定中,早期標記會反覆合併到後續所有標記的表示中。
實證結果
作者使用了2003年至2019年間的公司級財務新聞流資料,這些資料由一家金融資料供應商提供。每條新聞都包含一個或多個公司識別符號,表示新聞主要關注的公司。測試範圍為北美、歐洲及新興市場。
模型訓練和驗證資料覆蓋了2003年至2014年,剩餘的資料用於樣本外測試(out-of-sample testing)。模型訓練使用了32的批次大小(batch size)、1e-5的學習率。微調LLMs時,所有線性層都應用了秩為4的低秩適應(Low-Rank Adaptation, LoRA)技術。所有模型都在兩個A100 GPU上進行了10個epoch的訓練。
此外,我們還將基於預測的投資組合與傳統基於情感分析的投資組合進行了比較,使用了FinBERT和FinVader這兩種情感分析方法來構建基於情感的投資組合,並使用相同的方法,但以情感值為排名標準。透過這些設定和指標,作者能夠全面評估不同LLMs和表示方法在股票回報預測任務上的有效性。



上門的兩幅圖和表格揭示了在北美市場進行股票收益預測時,大語言模型(LLMs)的實證研究成果。研究表明,聚合表示法(Aggregated Representations)通常在生成增強多頭倉位和長空頭倉位投資組合表現的回報預測方面優於瓶頸表示法(Bottleneck Representations)。具體來說,在頂部分位數(如第9分位數)上,聚合表示法能夠產生更高的回報,這對多頭倉位投資組合有利。然而,瓶頸表示法在某些情況下,如Llama模型,也能展現出與聚合表示法相當的效能。
在不同模型的對比中,Mistral模型在多個投資領域展現出了更為穩健的表現,尤其是在使用聚合表示法時。DeBERTa模型雖然在某些情況下表現良好,但在大型投資領域中,其基於瓶頸表示法的預測模型表現不如基於聚合表示法的模型。Llama模型雖然在某些分位數上表現不俗,但在整體的一致性和穩健性方面似乎不如Mistral。
表格內容進一步證實了這些發現,顯示基於預測的投資組合在年化收益和夏普比率上普遍優於傳統的基於情感分析的投資組合。這表明,直接從LLMs的文字表示中派生出的回報預測是一個強有力的訊號,能夠有效地支援量化投資組合的構建,超越了傳統的基於情感的分析方法。


上圖是在北美市場對不同大語言模型(LLMs)的效能進行了深入的比較分析,揭示了研究的關鍵發現。首先,第一幅圖展示了encoder-only和decoder-only LLMs在適合的表示方法下的表現。結果表明,decoder-only模型Mistral和Llama在預測高回報(第9分位數)和低迴報(第0分位數)方面表現突出,這直接反映在多頭倉位和長空頭倉位投資組合的優越表現上。特別是,decoder-only模型在長空頭倉位投資組合中的表現尤為顯著,這強調了在投資組合的多頭和空頭兩邊都進行有效股票選擇的重要性。
第二幅圖進一步將基於預測的投資組合與基於情感分析的投資組合進行了對比。基於LLM的預測型投資組合不僅在年化收益和夏普比率上超越了情感型投資組合,而且在累積收益圖表中也顯示出更優的曲線。特別是,基於LLM預測的多空頭倉位投資組合的收益曲線比多頭倉位投資組合更為平滑,這表明空頭部分有助於降低整體投資組合的波動性。
更多閱讀