量化投資與機器學習微信公眾號，是業內垂直於量化投資、對沖基金、Fintech、人工智慧、大資料等領域的主流自媒體。公眾號擁有來自公募、私募、券商、期貨、銀行、保險、高校等行業30W+關注者，曾榮獲AMMA優秀品牌力、優秀洞察力大獎，連續4年被騰訊雲+社群評選為“年度最佳作者”。

Campbell Harvey、王嘯

機器學習

近年來，機器學習技術的出現推動了量化投資策略的發展與迭代。事實上，這些技術其實已經存在很長一段時間了，當年很多人都在用。只不過因為算力、對模型的理解和資料等問題沒有像今天這樣如此繁榮。

機器學習是量化投資一個非常關鍵一環，但其只是整個量化投研框架中的一部分，它是很重要，但它只是其中的一個部分！

提一句：隨著數百種機器學習演算法以及越來越多的人工智慧技術的出現，選擇適合自己的其實是最重要的。只有合適的沒有最好的！

有三個具體因素導致了機器學習應用的激增，但我們也要注意很多問題：

1、資料

在Cray 2的時代，1GB的儲存成本是1萬美元。今天，1GB的成本不到一美分，這使得大量資料的收集和儲存變得廉價。除了廉價的儲存之外，資料的範圍從量化擴充套件到眾多非結構化資料（文字、語音、網路、地理衛星、圖片等）。

舉個例子。在我們做Alpha的時候，假設我們要預測未來5天的收益率，一年250個交易日，獨立的5天的資訊只有50點，你只有4000只股票，就算你有10年的資料，你可擁有的訓練資料量是也是極為有限的（大家可以自己算算）。相比網際網路場景，因為網際網路的文字、影像等資訊是無窮無盡的。

有的人會說我寫1萬個因子、寫10萬個因子，是不是就會增加資料量？

大家要理解一個概念就是“獨立資料量”，因為你簡單的把高開低收做各種各樣的組合，這樣的因子其實是沒有更多的資訊的。

例如一個量化研究員寫了一個和價格有關的一個因子，關於過去10分鐘的close（mean），然後把這個因子複製成close（high）、close（low）等等，但其實這些因子相關性是極其高的，看上去你是有很多的因子，但根本沒有增加任何資訊。也就是說在量化金融場景裡，真正有效的因子的數量也是有限的。

所以，資料量太少，是量化行業一個非常大的挑戰。所以我們才要在另類資料領域尋找一些新的因子與方向！

2、算力

1990年，一臺Cray 2超級計算機耗資3200萬美元，重5500磅，每秒能進行19億次浮點運算，同時還需要一個冷卻裝置。今天，我們使用的手機比Cray 2快500倍。

這裡我們引入另外2個話題：

1、一個從網際網路科技大廠去量化對沖基金的工程師可以順風順水嗎？

2、硬體算力強就代表量化投研能力強嗎？

我們結合起來回答：

演算法是對世界的簡化，通常是高度引數化的。它們對過去的行為進行最佳化，但世界在不斷的變化，即使使用今天的技術，構建一個可靠的演算法也會隨著時間的推移而改版。這時的難點在於如果你把模型訓練的太好，它對那段訓練的資料學的太好，如果接下來的是市場和你訓練的環境不一樣，你會虧很多錢，如果你不去訓練，你也會虧很多錢。

因為金融資料的信噪比很低，一個過擬合的演算法在回測中看起來很棒，但在即時交易中表現不佳。

所以量化的難點在於你怎麼找到在過擬合與欠擬閤中間的那個平衡點！

現在，我們可以回答第二個問題：量化的難點永遠不是你算力有多強！

如今網際網路進入大語言模型的時代，大家的工作都在做一個事，就是如何讓我的叢集把更多的GPU連線起來。把GPU連起來需要這個人有兩個能力：演算法的能力、工程能力。

所以，網際網路的難點之一是你需要把越來越多的GPU連起來，但你從來不需要擔心過擬合問題。

所以，我們可以回答第一個問題：因為在第一點我們講到了量化的難點之一是我們根本就沒有那麼多的資料，資料又極其的不穩定，所以管理人的難點是沒有那麼多很優秀的機器學習工程師。

所以現在國內的量化私募大量招聘從像騰訊、華為這樣的公司過來的工程師，但最後他們成功的人卻非常的少，而且有些留下來的都是後續培養出來的。雖然他們每個人在原來的崗位上都做出過一些成績。

再例如：我們在訓練一個預測未來1天或3天的模型，大概會放1000~2000個特徵。

有人就會問：放2萬個會不會更好？其實不會！

但如果你在高頻領域，你預測未來5分鐘的模型，你可以放1-2萬個特徵，但也就如此了。

所以到最後，算力其實是一個簡單的數字，且這個數字是有限度的，不像網際網路的那樣無窮無盡。

3、開源