机器学习(八)

一，基于协同过滤的推广算法：

算法原理：

基于用户的协同过滤(计算用户相似度→找出相似用户→根据相似用户的喜好推荐物品)

基于物品的协同过滤(计算物品相似度→找出用户喜欢的物品→推荐相似物品)

构造矩阵进行分解(将用户-物品评分矩阵分解为两个低维矩阵，进行预测评分)

基于二进制标签的推广算法：

1:表示用户看到活动并进行互动（正面例子）

0:表示用户看到活动没有进行互动（反面例子）

?:表示该活动尚未展示给用户

推广算法的实现：

From regression to binary classification

将一个类似于线性回归的模型转变成一个类似逻辑回归的模型

对于二进制标签，将通过构造上述函数g(Z)来预测y为1的概率。

原因：

线性回归一般用来预测连续值（房价，温度），且输出值的范围无限制；而回归任务一般用来预测离散标签（是否患病），输出值为概率，范围在[0,1]。

推广算法损失函数的优化：

从平方误差函数优化为适用于二元标签的损失函数

(即先前监督学习的二进制分类的损失函数)

均值归一化优化推广算法：

简单回顾均值归一化，将所给数据进行预处理，通过对每个特征进行平移和缩放，使得每个特征的均值为0，且数据范围缩小。(即缩小数据范围，减少运算，加快计算速度)

①将所有的数据提取出来，形成一个二维矩阵(包括问号)

②计算每行的平均值，将所得的平均值汇集成一个向量组μ

③将原来二维矩阵的每个值减去所对应的平均值，所得的新值即为Y

④构建模型W*X+b + μ 来预测第五列的数值

(注:该算法的效果是让第五列数据的初始猜测等于其他列数据的平均值，即2.5，使得该算法对没有数据或者数据很少的预测更准确)

上述也可以均值归一化处理列，但是可能归一化处理列于归一化处理行相比，预测结果可能不是很好

TensorFlow实现协同过滤:

import tensorflow as tf
import numpy as np# 定义初始参数
w = tf.Variable(3.0)  # 初始权重
x = tf.constant(1.0)  # 输入数据
y = tf.constant(1.0)  # 目标值
alpha = 0.01          # 学习率
iterations = 30       # 迭代次数# 记录参数和损失变化
history_w = []
history_loss = []# 自定义训练循环
for iter in range(iterations):with tf.GradientTape() as tape:fwb = w * x              # 预测值: w*xcostJ = (fwb - y) ** 2   # 损失函数: (wx - y)^2# 计算梯度[dJdw] = tape.gradient(costJ, [w])# 更新参数w.assign_add(-alpha * dJdw)# 记录历史数据history_w.append(w.numpy())history_loss.append(costJ.numpy())# 打印训练过程print(f"Iter {iter:2d}: w = {w.numpy():.4f}, Loss = {costJ.numpy():.4f}")# 输出最终结果
print("\n=== 优化结果 ===")
print(f"最优 w = {w.numpy():.4f} (理论最优值: 1.0)")'

利用协同算法查找相关项目：

根据模型所学到的特征向量，如果想要找到其他相似的物品，可以尝试找到具有与已知特征向量X(i)相似的特征向量X(k)，通过公式计算它们的相似程度(即两个特征向量的”距离”)，之前的均值归一化则是为了使未知的特征更合理。

协同过滤的局限性：

①在处理冷启动问题时表现不佳，预测结果可能不准确

(冷启动问题是指在数据不足或完全缺失的情况下，系统无法有效进行个性化推荐或者预测)

②特征过于稀疏，且没有很强的关联性，常常忽略一些潜在特征

二，基于内容的过滤算法：

基于内容的过滤算法会基于用户的特征和项目的特征为用户推荐项目。通常需要较大的数据量，需要每个用户的一些特征以及每个项目的一些特征，以此来匹配用户和项目。(比协同过滤算法稍优，可以有效解决冷启动问题)

补充：特征的类型：

具体实现：

①用户和项目特征的提取：提取用户和项目的独热特征(用户:年龄，性别，国家;项目：年份，评论等)

②用户画像构建：基于用户历史交互物品的特征，加权生成用户偏好向量

③相似度计算：比较用户画像与候选物品特征的匹配程度，推荐最相似的物品

预测用户j对电影i的评分公式: w(j)*x(i)+b(j)，在基于内容过滤的算法里，b通常不会损坏其性能。

用Vu(j)代替w(j)，Vu(j)是一个向量，是从用户特征Xu(j)中计算出的向量组，下标u代表下一个用户；同理，用Vm(i)代替x(i)，Vm(i)也是一个向量组，是从电影特征Xm(i)中计算出的向量组。

使用深度学习开发基于内容的过滤算法：

构建两个神经网络，用户神经网络和电影神经网络（两个神经网络的隐藏层的神经元数目可以不同）

用户特征向量x ----> 隐藏层 ----> 用户特征向量y

电影特征向量a ----> 隐藏层 ----> 电影特征向量b

最后将向量y和b进行点积运算。

示意图及其损失函数：

TensorFlow实现基于内容的过滤算法：

import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Input, Dense, Dot, Flatten
from tensorflow.keras.models import Model
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split# 生成模拟数据
num_users = 1000
num_items = 100
features = 5  # 用户和物品的特征维度# 用户特征（例如：年龄、兴趣等）
user_features = np.random.normal(size=(num_users, features))
# 物品特征（例如：类别、标签等）
item_features = np.random.normal(size=(num_items, features))
# 生成评分（0-1之间的随机值）
ratings = np.random.rand(num_users, num_items)# 构建模型
def build_model(feature_dim):# 用户分支user_input = Input(shape=(feature_dim,), name='user_input')user_dense = Dense(32, activation='relu')(user_input)# 物品分支item_input = Input(shape=(feature_dim,), name='item_input')item_dense = Dense(32, activation='relu')(item_input)# 计算点积相似度dot_product = Dot(axes=1)([user_dense, item_dense])output = Flatten()(dot_product)model = Model(inputs=[user_input, item_input], outputs=output)return modelmodel = build_model(features)
model.compile(optimizer='adam', loss='mse')# 准备训练数据（用户-物品对）
user_ids, item_ids = np.meshgrid(np.arange(num_users), np.arange(num_items))
user_ids, item_ids = user_ids.ravel(), item_ids.ravel()
ratings = ratings.ravel()# 划分训练测试集
train_user, test_user, train_item, test_item, train_ratings, test_ratings = \train_test_split(user_features[user_ids], item_features[item_ids], ratings, test_size=0.2)# 训练模型
history = model.fit([train_user, train_item],train_ratings,epochs=50,batch_size=256,validation_split=0.2
)# 可视化训练过程
plt.figure(figsize=(12, 5))# 损失曲线
plt.subplot(1, 2, 1)
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Training History')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()# 推荐结果可视化
plt.subplot(1, 2, 2)
sample_users = user_features[:5]
sample_items = item_features[:10]# 生成用户-物品组合对
user_ids, item_ids = np.meshgrid(np.arange(5), np.arange(10))
predictions = model.predict([sample_users[user_ids.ravel()],  # 生成 (5*10, 5) 的形状sample_items[item_ids.ravel()]   # 生成 (5*10, 5) 的形状
])# 将预测结果重塑为矩阵
pred_matrix = predictions.reshape(5, 10)
plt.imshow(pred_matrix, cmap='viridis')
plt.colorbar()
plt.title('User-Item Rating Predictions')
plt.xlabel('Items')
plt.ylabel('Users')plt.tight_layout()
plt.show()