1 动机
可解释推荐系统(ERS)通过提供透明的推荐解释,提高用户信任度和系统的说服力,如下图所示,然而:
1:现有工作主要关注推荐算法的去偏(流行度偏差),但未显式建模模型生成的解释如何影响推荐结果(解释偏差),导致推荐系统仍可能在解释层面继承流行度偏差,使得推荐解释偏向热门物品的共性特征,放大推荐系统中的偏差,而非用户的真实兴趣。
2:忽略了模型生成的解释本身可能存在的偏差,例如,热门物品往往具有更丰富的用户交互数据,因此其解释更容易被模型学到,而冷门物品的解释则可能受限,导致推荐系统的解释不够个性化,甚至进一步放大推荐结果的偏差。
2 贡献
从因果推理的视角,提出了一种因果可解释推荐系统(Causal Explainable Recommendation System, CERS)
1:提出了基于因果推理的可解释推荐系统框架,通过因果图建模用户-物品交互与推荐解释之间的关系,明确解释变量在推荐过程中的影响,揭示推荐系统中的解释偏差来源。
2:引入因果干预消除解释偏差,采用前门调整,利用模型生成的解释作为中介变量,有效去除推荐和解释中的流行度偏差,使推荐更加个性化。
3:结合用户反馈优化推荐与解释,CERS设计了一种交互机制,允许用户对推荐解释进行点击反馈,使得系统能够自适应地调整推荐逻辑,提高推荐结果的个性化程度和用户满意度。
3 问题定义
结合了可解释推荐系统的特点,引入模型生成的解释作为中介变量,为后续的前门调整提供基础。
这段就不说了,用户项目集合以及交互:
预测函数用于估计用户对物品的偏好,然而在可解释推荐系统(ERS)中,不仅要生成推荐,还要提供解释:首先是候选解释集合 ,包含所有可能的解释维度(例如电影推荐系统中的“剧情”“演员”等)以及解释向量
,表示推荐物品 i 时,生成的解释概率分布。
ERS流程:1 基于用户和物品计算匹配表示m;2基于m使用解释生成模型生成解释;3基于 m和解释
计算最终推荐分数
4 因果图
CERS目的是同时去除推荐结果和和生成解释的偏差:
U:用户特征;I:物品特征;M:用户-物品匹配嵌入;E:模型生成的解释;Y:推荐分数
传统推荐系统的因果关系表示为图 2a,目标是学习用户和物品的匹配函数,通过 M计算最终推荐分数 Y, 但由于历史数据中热门物品更容易被曝光和交互,导致 M 存在偏差,从而影响最终的推荐结果 Y。
在可解释推荐系统中,模型生成的解释E起到了中介变量的作用,解释 E 由匹配嵌入 M 生成,并影响最终的推荐结果 Y。如果E存在解释偏差,会进一步放大推荐系统的流行度偏差。因此使用因果干预的前门调整来减少 E的偏差。
前门调整
通过将解释 E作为中介变量,避免推荐系统直接受到匹配嵌入 M的流行度偏差影响。前门调整通过分解路径 M→E→Y来去除偏差。根据因果推理中的前门调整定理,通过公式计算因果效应:
P(Y∣do(M)):表示在去除了偏差后,M 对 Y 的真实因果效应;P(E∣M):解释 E 由匹配嵌入 M生成的概率;P(Y∣M′,E)P(M′):通过解释 E 来计算调整后的推荐分数(通过调整 M的分布,使得 M 的影响仅通过 E传播到 Y,避免直接受流行度偏差的影响。)
5 CERS
流程:首先从历史数据中提取用户和项目嵌入。 同时,从用户评论中获得候选解释集(E)。 这些预处理方法在整个数据提取过程中保持一致。 给定𝑢和item,通过基于神经网络的表示提取模块(如多层感知器(MLP)生成M。 解释生成模型处理用户-项目匹配并产生一个表示解释可能性的向量(Eu)。 最后,项目排名模块使用多层感知器算法计算用户项目对的分数。
5.1 匹配嵌入M计算
首先计算用户 u和物品 i之间的匹配嵌入 mui,通过基于神经网络的表示提取模块。
5.2 生成解释嵌入
首先生成候选集,并利用神经网络计算每个候选item与用户和物品的匹配表示M的得分,并生成
5.3前门调整
eui,j 表示用户 u对物品 i的解释向量中第 j个解释项的概率;y(m′,eui,j) 表示在解释 影响下,用户 u对物品 i进行的交互评分;M′ 是用户-物品匹配集合的一个随机子集。首先计算用户-物品匹配 m′及其对应的推荐评分,其次计算该推荐评分在所有可能的解释
下的均值,从而去除模型生成解释的偏差。
5.4 用户模拟器
CERS 希望优化推荐结果和生成的解释,但是现实世界的数据集很少包含显式用户反馈关于模型生成的解释。大多数数据集只有用户点击某个物品的记录,但没有用户是否认可推荐解释的记录。因此使用用户模拟器提供了一种方法,可以自动生成用户的模拟反馈,以评估解释质量并提供监督信号,训练解释生成模型。
首先基于用户的历史交互,通过短语级情感分析提取属性特征向量(剧情质量,视觉效果),
表示表示物品 i在某个解释 j上的评分,如果用户过去的交互记录中某个解释的评分较高,则用户更有可能接受该解释。
t 是用户交互过的物品数量,δ 是预设的阈值。如果用户历史交互的物品在某个解释维度 j上的平均得分超过 δ,那么用户更可能接受该解释,并生成模拟点击反馈,从而提供监督信号,用于计算解释损失
推荐分数衡量用户是否点击了推荐物品,解释损失衡量推荐解释的质量
6 实验分析
6.1 评价指标
为了评估推荐的准确性,论文使用了NDCG衡量推荐列表的排名质量;
为了衡量推荐系统去偏差的能力,使用了以下两个去偏指标:
Concentration Ratio (C-Ratio)集中度比率,用于衡量推荐系统是否存在马太效应,即是否过度偏向热门物品。
Pu 表示用户u的前 K 个推荐物品集合,Ihot 表示数据集中最流行的前 15% 物品集合,较低的 C-Ratio说明模型减少了对热门物品的依赖,推荐更加多样化。
Average Recommendation Popularity(ARP)平均推荐流行度,衡量模型在推荐时偏向流行物品的程度。
ϕ(i) 表示物品在数据集中被交互的次数,Pu 表示用户u的前 K 个推荐物品集合,较低的 ARP说明模型更倾向于推荐长尾物品,提升推荐的公平性和多样性。
6.2 去偏能力
为了评估去偏差能力,首先根据项目受欢迎程度分为七组进行了实验分析。
此外,通过对不同受欢迎程度的项目进行不同的评估,评估缓解流行度偏差的能力。 将数据集分为“热门项目”(推荐频率前15%)和“长尾”项目。
7 总结
前门调整的实现:1 基于匹配嵌入M生成候选解释 E;2 用户模拟器提供解释反馈 eui;3通过前门调整计算去偏推荐分数。而用户模拟器解释E真实反映用户兴趣,而非流行度偏差,前门调整通过用户模拟器提供的解释反馈来去偏。