【深度学习】Pytorch项目实战-基于协同过滤实现物品推荐系统

一、推荐系统的了解

1. 定义

推荐系统是一个信息过滤系统，旨在为用户提供个性化的内容推荐。它利用用户的历史行为、偏好以及其他相关数据来推测用户可能感兴趣的项目或信息。推荐系统广泛应用于电子商务、社交媒体、流媒体服务等领域，帮助用户发现商品、电影、音乐、文章等。

2. 推荐系统的基本类型

推荐系统主要可以分为以下几类：

2.1 基于内容的推荐（Content-based Filtering）

基于用户过去喜欢的物品的特征，推荐具有相似特征的新物品。
例如，如果用户在看电影时对科幻类电影表现出偏好，系统会推荐其他科幻电影。
使用特征提取技术（如词袋模型、TF-IDF等）来分析物品内容。

2.2 协同过滤推荐（Collaborative Filtering）

基于用户与其他用户之间的互动和偏好，推荐相似用户喜欢的物品。
（1）有两种主要的协同过滤方法：

用户协同过滤：寻找与目标用户相似的用户，推荐这些用户喜爱的物品。
物品协同过滤：寻找与目标物品相似的物品，推荐用户已喜欢的物品。

优点是无需了解物品的具体内容，只需关注用户行为。

2.3 混合推荐（Hybrid Methods）：

结合多种推荐方法来产生更准确和强大的推荐结果。
例如，可以结合内容过滤和协同过滤，以弥补各自的不足。

3. 推荐系统在实际应用中面临一些挑战

（1）冷启动问题：新用户或新项目没有足够的数据来生成推荐。
（2）用户隐私：如何在不泄漏用户隐私的情况下收集和使用数据。
（3）多样性与新颖性：避免过于集中于用户过去的偏好，提供更多样化和新颖的推荐。
（4）数据稀疏性：特别是在大规模用户和物品的情况下，数据稀疏会影响推荐质量。

二、推荐系统项目实战

在本例中，使用矩阵分解（Matrix Factorization）方法来实现协同过滤。这种方法通过将用户-物品交互矩阵分解为两个低维矩阵（用户嵌入和物品嵌入），从而预测用户对未评分物品的偏好。以下是实现步骤：

1. 数据准备

我们需要一个用户-物品交互数据集。例如：
用户 ID
物品 ID
评分（或点击次数）
示例数据：

import pandas as pd
# 创建模拟数据
data = {"user_id": [0, 0, 1, 1, 2, 2, 3, 3],"item_id": [0, 1, 0, 2, 1, 2, 0, 1],"rating": [5, 3, 4, 2, 5, 1, 3, 4]
}
df = pd.DataFrame(data)
print(df)

输出：

   user_id  item_id  rating
0        0        0       5
1        0        1       3
2        1        0       4
3        1        2       2
4        2        1       5
5        2        2       1
6        3        0       3
7        3        1       4

2. 数据预处理

我们需要将用户 ID 和物品 ID 转换为连续的索引，并创建训练数据集。
数据预处理代码：

from torch.utils.data import Dataset, DataLoader
class RatingDataset(Dataset):def __init__(self, df):self.users = df["user_id"].valuesself.items = df["item_id"].valuesself.ratings = df["rating"].valuesdef __len__(self):return len(self.users)def __getitem__(self, idx):return {"user_id": self.users[idx],"item_id": self.items[idx],"rating": self.ratings[idx]}
# 创建数据集和数据加载器
dataset = RatingDataset(df)
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

3. 模型设计

我们使用矩阵分解方法，将用户和物品映射到低维嵌入空间，并通过点积计算预测评分。
模型代码：

import torch
import torch.nn as nn
class MatrixFactorization(nn.Module):def __init__(self, num_users, num_items, embedding_dim):super(MatrixFactorization, self).__init__()self.user_embedding = nn.Embedding(num_users, embedding_dim)self.item_embedding = nn.Embedding(num_items, embedding_dim)def forward(self, user_ids, item_ids):user_embeds = self.user_embedding(user_ids)item_embeds = self.item_embedding(item_ids)ratings = (user_embeds * item_embeds).sum(dim=1)return ratings

4. 训练模型

定义损失函数和优化器，并训练模型。
训练代码：

# 初始化模型、损失函数和优化器
num_users = df["user_id"].nunique()
num_items = df["item_id"].nunique()
embedding_dim = 8
model = MatrixFactorization(num_users, num_items, embedding_dim)
criterion = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
# 训练循环
num_epochs = 10
for epoch in range(num_epochs):total_loss = 0for batch in dataloader:user_ids = batch["user_id"]item_ids = batch["item_id"]ratings = batch["rating"]# 前向传播predicted_ratings = model(user_ids, item_ids)loss = criterion(predicted_ratings, ratings.float())# 反向传播optimizer.zero_grad()loss.backward()optimizer.step()total_loss += loss.item()print(f"Epoch {epoch+1}, Loss: {total_loss:.4f}")

5. 模型评估

我们可以使用测试数据集评估模型性能，或者直接预测用户对未评分物品的偏好。
预测代码：

# 测试预测
test_user_id = torch.tensor([0])  # 用户 ID
test_item_id = torch.tensor([2])  # 物品 ID
predicted_rating = model(test_user_id, test_item_id)
print(f"Predicted rating for user {test_user_id.item()} and item {test_item_id.item()}: {predicted_rating.item():.4f}")

6. 推荐物品

根据预测评分，为用户推荐评分最高的物品。
推荐代码：

def recommend_items(model, user_id, num_items, top_k=3):item_ids = torch.arange(num_items)user_ids = torch.full_like(item_ids, user_id)predicted_ratings = model(user_ids, item_ids)# 获取评分最高的物品top_items = torch.topk(predicted_ratings, top_k).indicesreturn top_items.tolist()
# 为用户 0 推荐物品
recommended_items = recommend_items(model, user_id=0, num_items=num_items, top_k=3)
print(f"Recommended items for user 0: {recommended_items}")