【Notes】Multi-Behavior Sequential Recommendation with Temporal Graph Transformer（2022）

Xia L, Huang C, Xu Y, et al. Multi-Behavior Sequential Recommendation with Temporal Graph Transformer[J]. IEEE Transactions on Knowledge and Data Engineering, 2022.

Key challenge:

(1)如何处理交叉行为之间的关系（不同行为可能传递互补的信号）

(2) 时序多行为的融合

1-1

问题定义：

给定用户 $u_i\in U$ ，其行为序列 $S_i\in S$ 由三元组构成： $v_{k,i},b,t)$ ，其中行为 $b\in B$

给定序列 $s_i$ ，预测经过 $t_{K,i}$ 后可能进行交互的商品

1.对于用户 $u_i$ 分为几个sub-users，对应sub-sequence $S_i^k$ （如何进行切分是一项调整的参数）（划分sub-sequence的我认为目的是分别对short-item和long-item两方面进行处理）

2.利用transformer的结构捕捉short-term的信息：首先分割为sub-sequence（short-term）；（a）Behavior-Aware Context Embedding: 然后对于sub-sequence，time的embedding采用正余弦函数；与item和behavior的embedding相加构成使用的embedding（使得embedding可以包含时间信息和行为信息）（b）Item-Wise Sequential Dependency: 利用transformer的结构捕捉（ $\overline{E}_k^r=\Vert_{h=1}^H\sum^K_{k'=1}\alpha_{k,k'}V^hE_{k'}^r$ ）

3.Aggregation：（local）

分为两步（a）区分不同行为重要程度进行encode，（b）aggregation

构建二分图 $G_r=$ { $u_i^r\cup S_{i,r},\xi_r$ }

$H_b^r=Aggre(\overline{E}^r,b)=\sigma(\sum_{k=1}^K\phi(b_k^r=b)\overline{E}_k^rW_b)$

Multi-channel Projection: 区分不同行为的效果(重要性），得到 $W_b$ ，这也用于区分global item-wise 依赖

After the behavior embedding projection over multiple base transformations, the behavior-aware semantics are encoded with the developed channel-wise aggregation layer, which endows our TGT method to preserve the inherent behavior semantics of different types of user-item interactions.(这里不是很清楚为什么可以让TGT保留信息)

Aggregation over Cross-Type Relation:（这一步的重点在于动态的用户偏好，因此提出适应性的注意力网络），在中心思想aggeration的基础上进一步处理，计算注意力权重，得到 $\overline{H}^r=\sum_{b=1}^B\gamma_bH_b^r$

$\gamma_b=\sigma_1({H_b^r}^T\sigma_2(\sum_{b=1}^BH_b^rW_A+\mu_A))$

这样得到的结果包含了上下文信息

$\overline{E}_j^b=\sigma(\sum_{v_k^r=j}\phi(b_k^r=b)\overline{H}^rW_b);\overline{E}_j=\sum_{b=1}^B\gamma_b\overline{E}_{j,b}$

这样的到的结果就是从user(节点)到item(节点)的信息传递的结果

4.Global context learning（通过这个部分（解决long-term），representation将同时包含short，long-term）：

Global user representation: $\Gamma_i:$ user的embedding， $\overline{\Gamma}_i=\phi(\overline{H}^r)=\sigma(\sum_{r=1}^{R_i}\eta_r\overline{H}^r);$

$\eta_r=\Gamma_i^T\overline{H}^r;\overline{H}^r=\Gamma_i+t_r$

$\eta_r$ 判断 $u_i$ ， $u_i^r$ 之间关系的权重

如图所示，（1）global to local：计算不同sub-user的embedding

（2）local to global：计算权重之后，得到加权和

High-order Relation Aggregation根据上面的分析，得到了：

i) short-term multi-behavior interactions between user and item ; ii) long-range dynamic structural dependency of user interest across-time durations

最后一步介绍了l到（l+1）层如何传递信息（转换）

5.模型预测和优化

1-2

实验结果说明

BPR，NCF，DeepFM：多行为的重要性
Bert4Rec的良好表现也说明，相较于其他attention机制，transformer更好
相较于其他以GNN为基础的图神经网络，本文对于行为（behavior）的影响（heterogeneity）也进行encode
对于考虑heterogenity的神经网络进行比较，没能捕捉行为的动态依赖

The goal of TGT is to aggregate dynamic relation contextual signals from different types of user behaviors and generate contextualized representations for making predictions on target behaviors.

本文含有隐藏内容，请开通VIP 后查看

【Notes】Multi-Behavior Sequential Recommendation with Temporal Graph Transformer（2022）

【Notes】Multi-Behavior Sequential Recommendation with Temporal Graph Transformer（2022）

网站公告

今日签到

热门文章

最新发布