一文搞懂“預測模型”:原理、模型、流程

“到底怎麼預測才準?”是資料領域終極難題。太多文章,在介紹預測方法本身,而具體到實際中:
1、可以用的資料非常少。
2、預測出來領導不滿意,讓再改改。
3、實際情況差距大,領導還是不滿意!
到底怎麼辦?!今天一篇文章講清楚,還沒有關注陳老師的同學,記得先關注點贊,文章較長,可以回頭慢慢看,但理解了思路,能避免後續很多坑。

01 預測演算法的本質

從本質上看,預測演算法只有2大類:
1、基於時間序列的。
  • 平滑:用於相對平穩的資料。
  • 自迴歸:用於趨勢性遞增、遞減的資料。
  • 帶季節因素自迴歸:用於有周期性波動的資料。
基於時間序列的預測,最大優勢在於:不需要很多資料(如下圖)只需要一個指標(比如收入/使用者數/訂貨數量)即可。根據該指標的時間走勢,選擇對應的模型,詳見:資料分析十大模型之六:預測模型
2、基於因果關係的
  • 二分類問題:未來會/不會發生XX,典型如LR。
  • 多分類問題:未來是ABC哪個情況,典型如決策樹。
  • 連續型問題:未來的數值是多少,典型如線性迴歸。
因果關係類模型,對於有投入產出的情況更管用,更能體現:“一分錢一分貨”的關係。不過現實中, 影響產出因素很多,往往很難收集到足夠多資料,實操的預測誤差可能比時間序列還大(如下圖)。

這是兩種基礎思路,在實操中,還要解決更多問題。

02 現實中難點

現實中,缺少資料是頭號問題,很多時候,領導就是扔給你一個excel表+幾個數字,讓你預測……巧婦難為無米之炊,很多時候,時間序列法是唯一選擇,因為就一個指標+十幾個數,沒得選……
現實中第二大麻煩,是怎麼衡量預測準確度。
比如預測銷量是1000萬:
  • 業務做到900萬,會說:預測得一點都不準,搞得貨積壓了
  • 業務做到1100萬,會說:預測得一點都不準,還是我厲害
總之,只要你不是100%精準,業務都有理由賴到你頭上。甚至可以反覆橫跳。比如:“本來業務能達標的,看到預測說能達標,我們就省點投入,結果不達標了,都怪預測干擾了業務判斷……”
因此,在實際工作中,不能孤零零隻談模型,要和業務動作結合起來,綜合提升效果。

03 用業務手段,提升準確度

所有的網際網路營銷模式,從小米到天貓到拼多多,都在用業務手段,對抗預測的不足,比如:
場景1:“貨物本身不耐儲藏,多進貨的話庫存損失率會很高,但銷售數量又很少,資料確實很多”——用團購,成團了才採購
場景2:“銷售資料很少,少到無法計算價格彈性,業務方又想預測價格彈性,多賺錢”——用拍賣,少量使用者競價,獲得更高價格
場景3:“新品是全新款,沒有資料,咋預測?”——做新品預售/粉絲憑碼購買,測試使用者群體規模
場景4:“大促期間備貨量難預測?拿捏不準使用者有多少需求?”——讓使用者先付10元定金,定金膨脹3倍,提前鎖定訂單

凡是有業務手段可以用的,優先上業務手段,人家大廠都沒能力100%精準預測,小廠就更別逞能了

04 用基礎分析縮小預測範圍

在實際工作中,大部分業務場景不需要100%精確度,業務本身就有波動。,業務怕的是突然暴增/暴跌的場景。預測目標與其設定為:“100%精準”,不如設定為:“是否暴增/暴跌超過業務消化能力”。
預測100%精準基本無解,但是發現哪裡可能暴漲/暴跌是很容易的。透過基礎分析,把不穩定因素區分出來,能大大縮減預測問題的難度(如下圖)。
做好基礎分析,拆分不穩定因素以後,也更方便挑選模型組合,解決問題(如下圖)。

05 用滾動式預測代替長期預測

預測時間週期越長,自然偏差越打。用滾動預測能很大程度彌補這個缺點。透過日/周滾動預測,既能補充資料缺失,又能反映業務方臨時調整帶來的效果,一舉兩得(如下圖)。

06 用買定離手模式保護自己

一個好問題+滾動預測,基本上能滿足實際工作需求。但作為做預測的人,得學會保護自己,避免業務方反覆橫條,瞎胡甩鍋。
買定離手法是很好辦法。預測結果給出以後,買定離手,所有相關業務方不再質疑預測結果,而是基於預測結果做疊加。
誰覺得預測少了,誰自己寫請示申請額外貨物,並且留下書面證據。到時候是預測得不準,還是業務自己申請多了所以賣不動,看得一清二楚(如下圖)。

07 再深層地看預測問題

從本質上看,如果業務發展可控,自然沒人需要賭命:
1、瞭解業務規律,把握常規走勢
2、透過基礎分析,找到波動來源

3、採取業務手段,規避波動風險

這樣的組合拳,比盲目賭命管用的多
源 |  接地氣的陳老師(ID:gh_abf29df6ada8
作者  接地氣的陳老師  ;  編輯 | 蝦餃
內容僅代表作者獨立觀點,不代表早讀課立場

相關文章