抖音首次公開推薦演算法原理!

轉自:IT之家
抖音總裁韓尚佑今日宣佈,“抖音安全與信任中心”網站上線。網站首次公開抖音推薦演算法原理,介紹其推薦演算法如何預估使用者行為機率,並透過多目標建模等方式實現更優質、豐富的內容推薦,而演算法需由平臺治理體系對其進行約束和規範。
據瞭解,網站也披露了抖音平臺治理的稽核流程,闡述平臺如何應對謠言、網暴等違規內容帶來的挑戰。
同時,抖音還介紹了自家的“Wide&Deep”和“雙塔召回”兩種模型。
Wide&Deep 模型的主要思路正如其名,是由單層的 Wide 部分和多層的 Deep 部分組成的混合模型。其中,Wide 部分的主要作用是讓模型具有較強的“記憶能力”(memorization),“記憶能力”可以被理解為模型直接學習並利用歷史資料中物品或者特徵的“共現頻率”的能力;Deep 部分的主要作用是讓模型具有“泛化能力”(generalization),“泛化能力”可以被理解為模型傳遞特徵的相關性,以及發掘稀疏甚至從未出現過的稀有特徵與最終標籤相關性的能力。
Wide&Deep 模型的這一結構特徵,可以解決協同過濾演算法的短板。協同過濾演算法優點突出,但是其侷限性也很明顯,就是泛化能力差,推薦的結果頭部效應比較明顯。也就是容易造成資訊單一問題。
一條影片從海量資訊中被選中,推送給使用者,一般要經過進入內容池、召回、排序三個環節。使用者釋出的新影片首先要經過初步評估進入內容池,然後進入召回環節,其作用是從海量的內容池中,初步快速粗篩出一大批使用者可能感興趣的內容。
舉例來說,召回環節需要用到召回模型,抖音最常用的召回模型是“雙塔召回模型”(Two-Tower Retrieval Model)。雙塔召回模型把使用者和內容都轉化為數學空間裡的一個個點,就像是給使用者和內容貼上了獨特的“數字標籤”,這個過程叫做向量化表徵學習。其大概過程如下:
  • (1)分別將使用者特徵、內容特徵進行數學轉化(如展示小貓的影片為 0,展示小狗的影片為 1,短影片為 0,長影片為 1,那麼一個展示小貓的長影片即(0,1),其實際長度取決於特徵有多少維度,使用者特徵同理);
  • (2)將轉化後的數學特徵輸入到使用者塔、內容塔兩個深度學習模型中,經過訓練,各自形成一組新的數字集合,這叫做使用者表徵和內容表徵。在這一步,原本各自代表一個現實特徵的數字不再具備任何實際語義,兩個模型會把使用者特徵和內容特徵都轉化為沒有現實意義的數字程式碼 —— 因此,演算法不用理解現實語義,只需處理純粹的數學符號;
  • (3)將兩組形式為純粹的數字集合的使用者表徵和內容表徵,放入同一個向量空間中,每一組數字集合便在向量空間中擁有了一組專屬的向量值,好比一組獨有的“數字指紋”;
  • (4)將訓練過的所有內容表徵的向量值和當前使用者表徵的向量值的距離進行對比,距離越接近代表使用者越喜歡。當你的“數字指紋”和某個影片的“數字指紋”在座標系裡剛好比較“匹配”(距離近),演算法就會推薦它。
今年 1 月,抖音集團宣佈擬推出 10 項措施,推動平臺工作透明化,建立安全與信任的平臺環境,打造更良好的網路生態,其中包括推進演算法透明化推進平臺治理透明化
1.推進演算法透明化。2025 年,抖音將建設安全與信任中心網站和線下公示展廳,面向社會全面深入地公開抖音的演算法基礎運作原理、運營機制,也將對外公佈各類熱點榜單的計算原理和機制,提高透明度。
2.推進平臺治理透明化。抖音將持續加大治理工作的技術研究、產品人力、資金投入。在抖音安全與信任中心,我們將面向社會全面公開抖音的社群規範、稽核標準、稽核機制;並將定期公開平臺治理的各類典型違規案件和現象,明確對各類問題的治理態度,接受公眾監督。
網友表示:
它這個演算法確實離譜,之前看女的扭屁股我點了個贊後面全給我推薦妞屁股的,我的抖音號已經廢了刷不出正常內容了”
各位還是要注意,個人的喜好儘量避免被標準化和視覺化。不然你的腦子會被困在自己的認知漩渦裡,接觸不到新的東西會讓自己的分析能力垮掉”
只要把興趣追蹤關閉就可以戒掉抖音了,根本沉迷不了一點”
至從刷了個基佬影片,從此以後全部都是基佬影片和相關直播,我這號廢了。”
END
官方站點:www.linuxprobe.com
 Linux命令大全:www.linuxcool.com

劉遄老師QQ:5604215
Linux技術交流群:2636170
(新群,火熱加群中……)
想要學習Linux系統的讀者可以點選"閱讀原文"按鈕來了解書籍《Linux就該這麼學》,同時也非常適合專業的運維人員閱讀,成為輔助您工作的高價值工具書!


相關文章