
摘
要
本文針對 A 股,使用 BGE 大語言模型構造並檢驗科技動量效應。實證結果表明,基於 BGE 和基於 IPC 分類構造的科技動量是互補而非替代關係。二者均含有關於 cross-section 的預測資訊。
0 引言
1 LDA
首先對每個專利的摘要資料分詞,之後去除 stop words。接著構建詞典,並將分詞後的文字轉換為文件-詞矩陣,使用 LDA 建模。這其中的坑是專利文字有很多特定的專有名詞,但它們對於專利的分類並無實質的幫助,例如“裝置”、“裝置”、“系統”等。下圖展示了保留這些特定詞彙時,LDA 的分類結果中不同主題的關鍵詞,其中“裝置”一詞出現在了圖中幾乎所有主題當中。

因此,我們需要對這些並沒有多少資訊含量的特定詞彙進行剔除。為了識別它們,最直觀的方法是考察詞頻,此外也可以使用資訊熵的方法篩選。這二者的相關性很高(下圖)。以資訊熵為例,挑選出的詞彙包括:設定、技術、結構、系統、利用、領域、表面、裝置、產生、特徵、步驟、過程、部分、材料、生產、工藝、資料等。

排除特定詞彙後,再次利用 LDA 建模,得到不同主題的關鍵詞更加合理。例如:

在使用資訊熵去除了 500 個特定詞彙之後,利用 Jensen–Shannon divergence(JS 散度)確定最優的主題個數。JS 散度是一個對稱的 measure,常用於比較兩個機率分佈的相似性。在 LDA 模型中,我們計算不同主題中詞分佈的 JS 散度,並使用平均散度衡量不同主題的整體差異程度,其取值越高,說明主題之間的差異越大。下圖結果表明,當主題個數在 350 個左右時,平均區分度最優。

值得一提的是,上述結果是剔除了 500 個特有詞彙之後的結果。為了考察結果的穩健性,進一步檢視剔除不同個數的特有詞彙和最優主題個數的關係(下圖)。結果表明,隨著剔除的詞的增多,最優主題個數從 500 下降至 300 左右。這個結果在一定程度上是合理的,因為剔除的特定詞彙越多,剩下的詞越有代表性,因此不需要得到更多的主題,就能發揮區分作用。作為對比,如果使用 IPC subclass 分類,那麼在 A 股上的主題個數為 584 個,在量級上和 300 到 500 相當(官方當前版本 IPC subclass 類別數量為 651)。

似乎到目前為止,LDA 這條技術路線還是 OK 的。但上述處理完全是基於文字分析的統計處理,沒有引入任何先驗資訊。為了驗證 LDA 是否靠譜,下面引入先驗資訊 —— 使用 IPC 的 subclass 作為主題的 benchmark —— 來考察 LDA 的分類結果。
具體而言,我們的分析目標如下:基於 LDA 和 IPC 主題都可以給每個專利分類;基於分類計算專利之間的相似度。之後,對於每個專利,找出兩個方法得到的和其相似度最高的 個專利,然後計算這兩個集合之間的 Jaccard 相似度。結果顯示,對於絕大多數專利而言,Jaccard 相似度都是零,表明基於 LDA 和 IPC 主題而計算的專利相似度差異巨大。所以,儘管 IPC 主題並非“標準答案”,但無論如何 LDA 的結果並沒有得到先驗資訊的支援。有鑑於此,我們轉向大語言模型技術路線。
2 BGE
本節介紹如何使用大語言模型對專利摘要文字構建語義向量,進而進行專利分類。
實證中選擇了智源研究院釋出的 BGE(BAAI General Embedding)通用語義向量模型 bge-large-zh-v1.5。選擇該模型的原因如下:該模型為語義向量模型,區別於詞向量模型,不僅考慮詞彙資訊,而且考慮詞彙在文字中的位置,對文字理解更為精準和合理。此外,該模型在中英文語義檢索精度與整體語義表徵能力均超越了社群所有同類模型,如 OpenAI 的 text embedding 002 等。最後,BGE 保持了同等引數量級模型中的最小向量維度,使用成本更低。
利用該模型,我們對專利摘要文字進行處理,構建 1024 維語義向量。由於當前模型只能處理小於等於 520 個字的文字內容,因此超過的部分會被截掉。由於專利摘要內容通常在 500 字以內,因此該處理不會造成實質性損失。在得到語義向量之後,對它們進行 K-means 聚類分析,得到最後的專利主題。其中,最優的主題數 用肘部法則計算得出。實證結果顯示, 維時有明顯肘部效應(如下圖)。這個結果和 LDA 的最優主題個數相一致。

作為 double check,我們依然使用 IPC 作為先驗資訊,比較了 BGE 和 IPC 兩種方法。結果表明,BGE 的分類結果和 IPC 的匹配程度遠遠高於 LDA,從側面印證了 BGE 比 LDA 更適用於我們的研究目標。
另外需要說明的是,考慮到整體專利數量超過 600 萬條,資料量極大;且專利本身處於持續新增狀態,因此整體來看不適合整體進行聚類。因此實證中隨機抽取了 10 萬條為樣本,並基於該樣本進行聚類,然後將其他專利和後續新增專利對應到分好的類別中。完成聚類後,共得到 500 個專利主題,然後將每個專利劃分到其中一個主題。
最後,由於我們的目標是構造科技動量,因此把專利的分類結果向上聚合到公司層面。為此,考察公司過去一年新增專利,構造 500 維的主題向量。之後,便可以透過比較兩兩公司之間的專利主題向量的相似性來構造科技動量指標。計算科技動量時,關聯公司的歷史收益率使用的是過去 1 個月的收益率,與 Lee et al. (2019) 一致。
3 實證結果
附錄 A IPC
國際專利分類(IPC)由《斯特拉斯堡協定》建立,提供了一種由獨立於語言的符號構成的分級系統,用於根據專利和實用新型所涉不同技術領域,對專利和實用新型進行分類。IPC 將技術分為 8 個部類,約七萬個復分類。每個復分類都有一個由阿拉伯數字和拉丁字母組成的分類號。
IPC 八個部類:

IPC 號結構說明:

作為科技動量的 benchmark,使用 IPC 的構建方法為:基於每條專利 IPC 號前四位(層級:Subclass),作為專利所屬分類,然後以公司過去一年新增專利為基礎,構建公司層面的 IPC 向量並計算科技動量。
附錄 B 專利資料處理
秩鼎(https://www.quantdata.com.cn/)提供超過 600 萬條發明專利資料,涵蓋了 A 股 / 港股 / 中概股 / 發債企業 / 其他非上市公司。歷史資料可回溯到 1990 年,更新頻率為周頻。
就專利資料而言,最大的處理難點是股權穿透處理。由於上市公司的專利多數由子公司持有(約 60%),例如百度這樣的公司,專利幾乎均為子公司持有,因此在上市公司層面,將子公司專利準確對應到母公司(上市公司)上十分重要。秩鼎透過完善的實體公司庫和自動化引擎,將國內外上市公司及其子公司的專利歸屬到母公司。資料處理覆蓋了超過 50 萬家企業,採用多源資料包括上市公司年報和工商資訊,構建了詳細的股權關係,包括 1-5 級的股權關聯度,以確保專利資料的準確性和歷史資料的穩定性。
經過以上處理後,專利資料有較好的覆蓋率。以下基於每年年末報告期,按 A 股公司及其股權關聯度為 1-3 級子公司的專利持有情況進行覆蓋率統計;其中行業覆蓋率按 2023 年最後一個報告期的情況統計。可見,個股層面覆蓋程度逐年提升,行業層面覆蓋程度整體保持高位,這些均為實證分析結果的可靠性提供了保障。


參考文獻
Bekkerman, R., E. M. Fich, and N. V. Khimich (2023). The effect of innovation similarity on asset prices: Evidence from patents' big data. Review of Asset Pricing Studies 13(1), 99-145.
Bybee, L., B. T. Kelly, A. Manela, and D. Xiu (forthcoming). Business news and business cycles. Journal of Finance.
Lee, C. M. C., S. T. Sun, R. Wang, and R. Zhang (2019). Technological links and predictable returns. Journal of Financial Economics 132(3), 76-96.
免責宣告:入市有風險,投資需謹慎。在任何情況下,本文的內容、資訊及資料或所表述的意見並不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自於相應論文,僅為介紹之用,版權歸原作者和期刊所有。

川總寫量化
分享量化理論和實證心得