快手有著怎樣的算法?你看的推送視頻的時長是否有其他秘密?
快手社科推薦團隊
短視頻(比如快手、抖音和視頻號等)日益成為人們日常生活中最重要娛樂方式。短視頻推薦需要解決的一個基礎問題是,如何準確地預估用戶對某個視頻的觀看時長。觀看時長建模的精準度一定程度反映了推薦的質量,對提升用戶粘性意義重大。
業界普遍使用的方法是由 YouTube 在 RecSys 于 2023 年提出來的方法或其變種 [1],然而該方法最開始的提出是基于「點擊 - 觀看」的長視頻場景,在目前無顯式點擊 Label 的沉浸式瀏覽模式下并不適用, 同時短視頻場景視頻本身長度跨度很大,給模型預估帶來了極大的挑戰。
用戶對一個視頻的觀看時長受到兩方面影響,一是用戶對視頻內容的滿意程度,二是視頻本身的長度(duration)。現有建模方案,不管是直接回歸時長,還是 YouTube 的方法,均有訓練不穩定,誤差大等缺陷。
快手首次指出了時長預估中的 duration bias 問題,基于此提出了基于因果推斷的時長預估模型,有效地消除了 duration 混淆變量的影響,和 YouTube 方法相比,預估精度和穩定性得到了極大的提升。
該 paper 被 SIGKDD 2023 Applied Data Science Track 接收,同時被邀請做口頭報告。該論文的模型 D2Q 經過改進之后在快手全量上線,成為短視頻領域繼 YouTube DNN 之后最好用的時長預估模型。
作者:詹若涵、裴昶華、蘇強、文劍烽、王學良、穆冠宇、鄭東、江鵬
論文地址:https://arxiv.org/abs/2206.06003
問題建模
快手采用的沉浸式瀏覽模式(如下圖一),推薦系統通過建模用戶興趣為用戶推薦可能喜歡的視頻,優化視頻觀看時長、瀏覽深度、互動 (點贊、關注、轉發)、多樣性等多個維度的指標,以此營造良好的社區氛圍,提升用戶粘性。在上述眾多目標中,視頻觀看時長作為最稠密的指標,也作為用戶最稀缺的資源,客觀有效的反映用戶對視頻的喜好程度,是短視頻場景下推薦系統優化的重要指標。
圖一、快手上下滑場景展示
然而,時長預估 (Watchtime Prediction) 不僅取決于用戶興趣和視頻的匹配程度,還會被視頻長度(duration)的分布影響: 一方面,如圖二 (a) 所示,對于 100 秒以下的視頻,視頻觀看時長和視頻本身的時長有非常明顯的線性關聯關系,如何在如此優勢的特征下建模出用戶真正的興趣部分具有一定的挑戰;另外一個方面,下圖二(b)展示了平臺在一段時間不同 duration 的分布變化,可以看出隨著推薦系統的優化,曝光樣本中 duration 分布極不均衡,同時長視頻的占比會變大。使得模型的訓練被長視頻主導,影響時長預估模型的效果和穩定性。
圖二、 (a)視頻觀看時長和視頻長度的關系
圖二、 (b)不同時間區間視頻分布的變化
為了解決上述的問題, 論文提出使用因果推斷的方法消除時長預估任務中的 duration bias 問題。論文首次通過因果圖的方式給出了時長預估任務的形式化定義。圖三揭示了 duration 是時長預估中需要消除的混淆變量(Confounder):一方面視頻的 duration 和 觀看時長直接相關;另一方面,時長預估樣本中 duration 分布會影響到模型訓練本身:模型訓練會被長視頻主導,同時優勢特征 duration 會影響用戶側興趣的建模。為了消除 duration 的負向影響,論文提出 Duration-Deconfounded Quantile-based (D2Q) 時長預估方法。D2Q 采用后門準則的調整方法,對于不同 duration 的視頻,使用 Distribution-Aware 的時長分位數預估方法來消除 duration 帶來的影響,從而提升了時長預估精度。通過在快手數據集上大量的離線評估和在線實驗,論文發現 D2Q 顯著優于 SOTA 時長預估方法,離線評估預估精度提升 2.8pp。基于該方法改進版本的多目標版本已經在快手 APP 上全量,取得了時長和 VV(播放數)的雙重增量提升。
圖三、 視頻推薦場景下觀看時長(Watchtime)預估的因果圖。D 表示視頻的長度 duration,V 表示視頻 video, U 表示用戶 user, W 表示觀看時長 watchtime。
算法
圖三中,D 表示視頻的長度 duration,V 表示視頻 video, U 表示用戶 user, W 表示觀看時長 watchtime。視頻 duration 通過 D->V->W 和 D->W 兩條路徑影響時長預估,其中 D->W 表明視頻 duration 與觀看時長具有直接的因果關系,這也是符合預期的,因為相較于短視頻,用戶更加傾向于在長視頻上停留更長的時間,這是時長模型應該捕捉到的。但是,D->V->W 表示曝光視頻的 duration 分布會影響觀看時長的預估,這主要是因為推薦系統傾向于推薦長視頻來提升 app 時長,導致曝光視頻中長視頻占比過大;而模型訓練時長視頻會獲得比較大的權重,從而主導了梯度。為了消除 duration 的負面影響。對圖三 (a) 所示的原始因果圖,論文采用 back-door adjustment 對其進行調整,得到圖三(b)。這一操作背后的原理是:對于不同 Duration 的視頻,論文使用分開建模的方式來消除 Duration 帶來的影響,使得模型的預估更為準確。通過這種方式,時長優化模型可以使用下式表示,
進一步的,論文對 Duration 進行粗粒度的分組,來降低遍歷所有 Duration 帶來的計算開銷。具體做法為,對視頻的 Duration 進行排序,并等頻率分為 M 個桶,使用每個分桶下的樣本獨立訓練時長模型,因此時長優化模型轉化為以下形式:
其中,是每個 duration 分桶下的時長預估模型。
D2Q 算法的具體做法如下:
1. 統計訓練樣本的 duration 分布,得到等頻分桶分位點;
2. 將樣本按照等頻分桶分位點分成 k 個相互獨立的分桶 D_k;
3. 對不同 duration 分桶的樣本,在組內統計時長分位數作為 label,得到 Duration-Aware Watchtime-Distribution label;
4. 分別在上述的分桶上訓練時長預估模型 f_k;
算法偽代碼如下:
D2Q 模型給出每個時長分桶下的分位數預估值,為了讓預估值在桶間可比,論文通過觀看時長信號的累積概率分布得到預估值對應的觀看時長原始值。
模型
下圖四(a)展示了論文的模型,特征選擇上,photo 側包括粗精排預估值 dense/sparse 特征、固有時長 Duration、視頻類別標簽等,user 側包括 session 統計特征以及基礎屬性特征。在訓練方式上,第一個版本采用了 M 個網絡完全獨立,分別學習各自的 label,這種訓練方式不共享特征 embedding,特征 embedding 空間隨著分桶維度擴大線性增加,存儲、訓練的資源開銷隨之增加,實現成本較高,不符合工業界場景的要求;因此論文設計了如圖四(b)的網絡結構, M 個網絡共享底層特征,采用多輸出的訓練方式,則 batch 內樣本分布不均的問題會導致子塔訓練不穩定,收斂到局部最優。單塔單輸出的訓練方式在實際訓練時效果穩定,收斂速度較快,是 D2Q 實現的基線版本。為了進一步提升模型效果,論文在單塔單輸出模型中引入 Duration bias 模塊 (如圖四 c 所示),用于建模不同分桶下的樣本差異(Res-D2Q),離線訓練指標得到進一步的提升。
圖四、D2Q 模型結構示意圖
效果
論文使用 XAUC、XGAUC 以及 MAE 等指標對時長回歸效果進行評估。MAE 表示短視頻預估時長與觀看時長 label 的誤差絕對值,表示模型回歸精度,是回歸任務的常用評估指標。XAUC 的計算方式如下:將測試集中的樣本兩兩組合,若組合的標簽和預估值的序一致則為正序,否則為逆序,XAUC 是正序對數與總組合數的比值;XGAUC 是用戶維度計算的 XAUC。由于推薦系統主要優化候選集的排序,評估指標 XAUC 能夠更加直觀的反映預估時長序的好壞,與論文的優化目標更加適配。
論文分別評估了 0、10、20、30、50、100 時長分桶下,D2Q 以及 Res-D2Q 的預估效果,與常用的時長建模方案 (VR、WLR) 進行對比,結果如下圖表所示。其中,VR 表示觀看時長回歸任務;WLR 是 YouTube 提出的時長預估方式 (在快手單列場景下,使用 60% 全局時長分位數作為正負樣本劃分依據,并使用觀看時長對正樣本加權)。由表可知,D2Q 建模方式顯著優于 VR 和 WLR,其中 D2Q-30 與 VR 相比提升尤為顯著,XGAUC 指標提升 2.8pp;而 Res-D2Q 在相同的 duration 分桶下,XGAUC 相對 D2Q 也有千分位的提升。
圖五、D2Q 模型離線評估效果(上)及隨著分桶數量變化 XGAUC 變化曲線(下)
為了說明 duration 分桶數對模型預估效果的影響,論文做了消融實驗。實驗發現 D2Q 的預估效果在 30 分桶后隨著 duration 分桶數增加而下降,這一現象主要是由以下原因導致的:(1) 分桶數增加,各分桶下的樣本變少,全局分位數統計信噪比降低;(2) 樣本空間隨著分桶數增加而增大,單塔單輸出模型擬合能力有限,導致排序效果下降。在實際大規模線上生效時,論文將統計的數據量擴大的一個量級,通過分布式計算,使得 100 個分桶時效果也不會下降,進一步的提升了模型的效果。
挑戰和未來方向
一個高效的時長預估模型對于短視頻推薦場景顯得非常重要,是評價用戶滿意度、衡量平臺收益的一個重要的指標。該論文首次從因果推斷的角度對時長建模進行形式化的定義,同時指出了時長預估中最大的難點和挑戰: duration bias。并給出了一套行之有效的方法。然而現有的時長預估的精度和準確度還有很大的提升空間。一方面是由于現有的 Label 設計需要進行進一步的改進的空間:如融合一些其他目標,在時長為主目標的前提下兼顧其他目標;而另外一方面,用戶觀看視頻時長本身相比于其他的顯式反饋信號如點贊,評論等噪聲更大,如何在不損失信息量的情況下提升視頻時長的信噪比也是一個很有價值的研究方向。快手這篇論文也是第一次將時長預估這個問題進行了正式的總結和初探,旨在拋出問題,非常歡迎大家參與到該問題的優化和討論過程中,將視頻推薦的時長預估模型提升一個層次。
[1] Covington, Paul, Jay Adams, and Emre Sargin. "Deep neural networks for youtube recommendations." Proceedings of the 10th ACM conference on recommender systems. 2023.
聲明:本站所有文章資源內容,如無特殊說明或標注,均為采集網絡資源。如若本站內容侵犯了原著者的合法權益,可聯系本站刪除。
