正样本:
二八法则,少部分物品占据了大多数点击,会导致正样本大多是热门物品。以一定的概率抛弃一些热门物品,抛弃的概率与样本的点击次数正相关。
负样本:
简单负样本
上述简单负样本是从全体样本中抽样。其中,0.75是一个经验值。
batch内负样本
下面是从batch内生成负样本。针对第一个用户,除了第一个物品,其他的物品都可以看做从全部样本中随机抽样得到的,那么大概率第一个用户对此不感兴趣,可以组成负样本。
但batch内负样本存在问题:
抽样概率本应该是取0.75次方,但在这里是1次方,热门物品成为负样本的概率太大,会导致打压太大。
如何修正偏差:根据文献,训练时调整兴趣的计算进行纠偏,训练完成线下召回的时候不需要调整,仍使用余弦相似度。
困难负样本:
负样本的错误选择:
不应该把曝光但是没有点击的物品作为召回的负样本!!!可以用于排序。
召回的目的:区别不感兴趣和比较感兴趣的
排序的目的:区别比较感兴趣和非常感兴趣的