博客專欄

EEPW首頁 > 博客 > WWW 2023 | 自動(dòng)長(zhǎng)度選擇的長(zhǎng)短期興趣建模模型

WWW 2023 | 自動(dòng)長(zhǎng)度選擇的長(zhǎng)短期興趣建模模型

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2023-04-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

這是一篇 WWW 2023 多機(jī)構(gòu)合作的文章，看這個(gè)題目 AutoMLP，就想起了 IJCAI 22 的一篇文章：MLP4Rec: A Pure MLP Architecture for Sequential Recommendations，果然是同一批人，屬于是新瓶裝舊酒，屬于是“MLP is all you need”在長(zhǎng)短期興趣建模上的應(yīng)用。

論文標(biāo)題：

AutoMLP: Automated MLP for Sequential Recommendations

論文鏈接：

https://arxiv.org/pdf/2303.06337.pdf

摘要：順序推薦系統(tǒng)旨在根據(jù)用戶的歷史交互預(yù)測(cè)用戶的下一個(gè)感興趣的項(xiàng)目。然而，一個(gè)長(zhǎng)期存在的問題是如何區(qū)分用戶的長(zhǎng)期/短期興趣，這些興趣可能是異構(gòu)的，對(duì)下一次推薦的貢獻(xiàn)也不同。現(xiàn)有方法通常通過詳盡搜索或依照經(jīng)驗(yàn)來設(shè)置預(yù)定義的短期利息長(zhǎng)度，這要么效率非常低，要么產(chǎn)生的結(jié)果不佳。

盡管存在上述問題，但最近基于 transformer 的高級(jí)模型可以實(shí)現(xiàn)最先進(jìn)的性能，但它們對(duì)輸入序列的長(zhǎng)度具有二次計(jì)算復(fù)雜度。為此，本文提出了一種新穎的順序推薦系統(tǒng) AutoMLP，旨在根據(jù)用戶的歷史交互更好地建模用戶的長(zhǎng)期/短期興趣。此外，我們通過端到端優(yōu)化設(shè)計(jì)了一種自動(dòng)自適應(yīng)搜索算法，以獲得更可取的短期興趣長(zhǎng)度。通過廣泛的實(shí)驗(yàn)，我們表明 AutoMLP 與最先進(jìn)的方法相比具有競(jìng)爭(zhēng)力的性能，同時(shí)保持線性計(jì)算復(fù)雜性。

01 引言

如下圖所示，一個(gè)用戶的行為，可能收到長(zhǎng)期行為的影響（user1），也可能收到短期行為的影響（user2），也有可能 both（user3）。

序列推薦的三個(gè)重要信息：
1. 相對(duì)靜態(tài)的長(zhǎng)期興趣；2. 相對(duì)獨(dú)立、動(dòng)態(tài)的短期興趣；3. item 的屬性特征。
現(xiàn)有的方法有：1. 基于 RNN 的方法，難以捕獲長(zhǎng)期依賴；2. 基于 transformer 的方法，位置不敏感，難以區(qū)分異構(gòu)的長(zhǎng)短期行為，并且由于 2 次復(fù)雜度，也不能應(yīng)用在太長(zhǎng)的序列上；3. 因此出現(xiàn)了長(zhǎng)短期興趣分開建模的方法，但這種方法往往利用經(jīng)驗(yàn)選擇固定長(zhǎng)度的短期興趣，顯然無法自適應(yīng)不同的場(chǎng)景與任務(wù)。
因此提出了 AutoMLP 模型，全稱為：Automated Long-term Short-term Multi-Layer Perceptron for sequential recommendation。AutoMLP 僅包含 MLP 塊，因此保持線性時(shí)間和空間復(fù)雜度。autoMLP 設(shè)計(jì)了一個(gè)長(zhǎng)期興趣模塊和一個(gè)短期興趣模塊來分別捕捉長(zhǎng)期和短期的依賴關(guān)系。為了自動(dòng)適應(yīng)不同任務(wù)的短期興趣窗口，利用連續(xù)松弛將離散序列長(zhǎng)度通過 AutoML 技術(shù)轉(zhuǎn)換為連續(xù)且可微分的表示，這可以通過梯度下降進(jìn)行優(yōu)化。
02 方法

現(xiàn)在我們介紹 AutoMLP 的概述——一種完全基于 MLP 架構(gòu)的順序推薦系統(tǒng)，它可以自動(dòng)學(xué)習(xí)適合不同順序推薦應(yīng)用的短期用戶興趣長(zhǎng)度。AutoMLP 的主體由兩個(gè)獨(dú)立的基于 MLP 的網(wǎng)絡(luò)組成，即長(zhǎng)期用戶興趣模塊和短期興趣模塊，如下圖所示。
具體來說，長(zhǎng)期用戶興趣模塊占據(jù)了整個(gè)用于預(yù)測(cè)的用戶歷史行為序列，因此更傾向于長(zhǎng)期的順序依賴。另一方面，短期用戶興趣模塊在 time 之前獲取一定數(shù)量的最新交互，傾向于對(duì)短期順序依賴性進(jìn)行建模。最近交互的數(shù)量將由神經(jīng)架構(gòu)搜索（NAS）算法 DARTS 確定，該算法利用連續(xù)松弛使神經(jīng)架構(gòu)搜索空間可微，因此可以通過梯度下降進(jìn)行優(yōu)化。最后，分離模塊的輸出將由全連接層融合以預(yù)測(cè)下一個(gè)交互項(xiàng)。

2.1 Embedding layer

用戶的行為序列有 T 個(gè)物品：，每個(gè) 有 C 個(gè)特征，embedding 化后過一個(gè) mlp 映射為 d 維，輸出 shape 為：[Batch, T, D]。

2.2 長(zhǎng)期興趣模塊

長(zhǎng)期興趣模塊的輸入是全部序列，過幾個(gè) SRSMLP 層得到用戶的長(zhǎng)期興趣表示。SRSMLP 層就是一個(gè) mlp-mixer，包括一個(gè) Sequence-mixer 和 Channel-mixer，具體結(jié)構(gòu)如下：
SRSMLP
這個(gè)結(jié)構(gòu)也非常簡(jiǎn)單，Sequence-mixer 就是在序列維度（embedding 層的 T）做 MLP，公式如下：

Channel-mixer 就是在特征維度（embedding 層的 D）做 MLP，公式如下：

2.3 短期興趣模塊

短期興趣模塊也是過幾個(gè) SRSMLP 層，關(guān)鍵在于能用數(shù)據(jù)驅(qū)動(dòng)的方式自動(dòng)選擇 k 個(gè)短期行為，即：Session Length Search。

實(shí)現(xiàn)參考了 DARTS 的網(wǎng)絡(luò)架構(gòu)搜索算法，先設(shè)置 M 個(gè)短期行為的候選長(zhǎng)度：，對(duì)每個(gè)候選 k 都過一個(gè) SRSMLP 層，并為每個(gè) k 分配一個(gè)可學(xué)習(xí)的架構(gòu)權(quán)重：，之后應(yīng)用 softmax 將權(quán)重轉(zhuǎn)換為連續(xù)且可微的近似值。

p.s. 讀者問：softmax 的結(jié)果仍是一個(gè)連續(xù)值，雖然訓(xùn)練時(shí)可微，但推理時(shí)并非是 ont-hot 那樣的選擇，而是加權(quán)融合，那么 Session Length Search 的選擇體現(xiàn)在哪里？
Discussion：由于短期興趣長(zhǎng)度的值與模型性能之間的影響不是單調(diào)的，因此要確定局部最優(yōu)值必須應(yīng)用窮舉搜索，這對(duì)于長(zhǎng)用戶-項(xiàng)目交互序列來說計(jì)算量極大，因?yàn)橛懈嗫赡艿暮蜻x人。因此，這種方法的主要優(yōu)點(diǎn)是在不枚舉所有可能的模型架構(gòu)的情況下學(xué)習(xí)局部最優(yōu)用戶短期興趣長(zhǎng)度并重復(fù)訓(xùn)練它們，從而使選擇短期興趣長(zhǎng)度的決策過程高效且自適應(yīng)。

2.4 輸出層

將長(zhǎng)短期興趣拼接或相加（文中沒有明確說明）后過一個(gè) mlp。

2.5 損失函數(shù)

03 訓(xùn)練

訓(xùn)練過程包含兩個(gè)階段。第一階段是搜索階段，旨在找到代表優(yōu)選短期長(zhǎng)度的局部最優(yōu)A*（長(zhǎng)度權(quán)重）。第二階段是再訓(xùn)練階段，在找到 A? 后，我們用最佳短期長(zhǎng)度重新訓(xùn)練 AutoMLP 框架。（回答了前面的讀者問）

3.1 搜索階段

雖然是 AutoMLP 可學(xué)習(xí)參數(shù)的一個(gè)子集，但文獻(xiàn)表明，簡(jiǎn)單地更新 W和A 完全會(huì)導(dǎo)致訓(xùn)練過程中的過度擬合問題，因?yàn)樗鼈儽舜烁叨纫蕾嚒Ｒ虼耍疚陌凑諔T例使用訓(xùn)練數(shù)據(jù)集優(yōu)化W，同時(shí)使用驗(yàn)證數(shù)據(jù)集優(yōu)化A。具體來說，本文將其表述為雙層優(yōu)化，其中上層變量和下層變量。形式上，將其表示為：

上式是一個(gè)嚴(yán)格的等式，很難優(yōu)化，因此替換為下式近似：

完整的訓(xùn)練過程為：

3.2 retrain階段

這一階段就是固定短期興趣長(zhǎng)度后，再訓(xùn)練 W。

04 實(shí)驗(yàn)

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

博客專欄

WWW 2023 | 自動(dòng)長(zhǎng)度選擇的長(zhǎng)短期興趣建模模型

相關(guān)推薦

技術(shù)專區(qū)