机器学习(八)

一,基于协同过滤的推广算法: 

        算法原理:

                基于用户的协同过滤(计算用户相似度→找出相似用户→根据相似用户的喜好推荐物品)

                基于物品的协同过滤(计算物品相似度→找出用户喜欢的物品→推荐相似物品)

                构造矩阵进行分解(将用户-物品评分矩阵分解为两个低维矩阵,进行预测评分)

        基于二进制标签的推广算法:

                 1:表示用户看到活动并进行互动(正面例子)

                 0:表示用户看到活动没有进行互动(反面例子)

                 ?:表示该活动尚未展示给用户

        推广算法的实现:       

                From regression to binary classification

                将一个类似于线性回归的模型转变成一个类似逻辑回归的模型

                对于二进制标签,将通过构造上述函数g(Z)来预测y为1的概率。

                原因:

                线性回归一般用来预测连续值(房价,温度),且输出值的范围无限制;而回归任务一般用来预测离散标签(是否患病),输出值为概率,范围在[0,1]。

        推广算法损失函数的优化:

                从平方误差函数优化为适用于二元标签的损失函数

                        (即先前监督学习的二进制分类的损失函数)

        均值归一化优化推广算法:

                简单回顾均值归一化,将所给数据进行预处理,通过对每个特征进行平移和缩放,使得每个特征的均值为0,且数据范围缩小。(即缩小数据范围,减少运算,加快计算速度)

       

 ①将所有的数据提取出来,形成一个二维矩阵(包括问号)

 ②计算每行的平均值,将所得的平均值汇集成一个向量组μ

 ③将原来二维矩阵的每个值减去所对应的平均值,所得的新值即为Y

 ④构建模型W*X+b + μ 来预测第五列的数值

        (注:该算法的效果是让第五列数据的初始猜测等于其他列数据的平均值,即2.5,使得该算法对没有数据或者数据很少的预测更准确)

        上述也可以均值归一化处理列,但是可能归一化处理列于归一化处理行相比,预测结果可能不是很好

        TensorFlow实现协同过滤:

     

import tensorflow as tf
import numpy as np# 定义初始参数
w = tf.Variable(3.0)  # 初始权重
x = tf.constant(1.0)  # 输入数据
y = tf.constant(1.0)  # 目标值
alpha = 0.01          # 学习率
iterations = 30       # 迭代次数# 记录参数和损失变化
history_w = []
history_loss = []# 自定义训练循环
for iter in range(iterations):with tf.GradientTape() as tape:fwb = w * x              # 预测值: w*xcostJ = (fwb - y) ** 2   # 损失函数: (wx - y)^2# 计算梯度[dJdw] = tape.gradient(costJ, [w])# 更新参数w.assign_add(-alpha * dJdw)# 记录历史数据history_w.append(w.numpy())history_loss.append(costJ.numpy())# 打印训练过程print(f"Iter {iter:2d}: w = {w.numpy():.4f}, Loss = {costJ.numpy():.4f}")# 输出最终结果
print("\n=== 优化结果 ===")
print(f"最优 w = {w.numpy():.4f} (理论最优值: 1.0)")'
        利用协同算法查找相关项目: 

        

        根据模型所学到的特征向量,如果想要找到其他相似的物品,可以尝试找到具有与已知特征向量X(i)相似的特征向量X(k),通过公式计算它们的相似程度(即两个特征向量的”距离”),之前的均值归一化则是为了使未知的特征更合理。

        协同过滤的局限性:

                ①在处理冷启动问题时表现不佳,预测结果可能不准确

                (冷启动问题是指在数据不足或完全缺失的情况下,系统无法有效进行个性化推荐或者预测)

                ②特征过于稀疏,且没有很强的关联性,常常忽略一些潜在特征

二,基于内容的过滤算法:

        基于内容的过滤算法会基于用户的特征和项目的特征为用户推荐项目。通常需要较大的数据量,需要每个用户的一些特征以及每个项目的一些特征,以此来匹配用户和项目。(比协同过滤算法稍优,可以有效解决冷启动问题)

        补充:特征的类型:

       

        具体实现:

                ①用户和项目特征的提取:提取用户和项目的独热特征(用户:年龄,性别,国家;项目:年份,评论等)

                ②用户画像构建:基于用户历史交互物品的特征,加权生成用户偏好向量

                ③相似度计算:比较用户画像与候选物品特征的匹配程度,推荐最相似的物品

        预测用户j对电影i的评分公式: w(j)*x(i)+b(j),在基于内容过滤的算法里,b通常不会损坏其性能。

        用Vu(j)代替w(j),Vu(j)是一个向量,是从用户特征Xu(j)中计算出的向量组,下标u代表下一个用户;同理,用Vm(i)代替x(i),Vm(i)也是一个向量组,是从电影特征Xm(i)中计算出的向量组。

        使用深度学习开发基于内容的过滤算法:

        

                构建两个神经网络,用户神经网络和电影神经网络(两个神经网络的隐藏层的神经元数目可以不同)

                用户特征向量x ----> 隐藏层 ----> 用户特征向量y

                电影特征向量a ----> 隐藏层 ----> 电影特征向量b

                最后将向量y和b进行点积运算。

        示意图及其损失函数:

        

        TensorFlow实现基于内容的过滤算法:

        

import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Input, Dense, Dot, Flatten
from tensorflow.keras.models import Model
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split# 生成模拟数据
num_users = 1000
num_items = 100
features = 5  # 用户和物品的特征维度# 用户特征(例如:年龄、兴趣等)
user_features = np.random.normal(size=(num_users, features))
# 物品特征(例如:类别、标签等)
item_features = np.random.normal(size=(num_items, features))
# 生成评分(0-1之间的随机值)
ratings = np.random.rand(num_users, num_items)# 构建模型
def build_model(feature_dim):# 用户分支user_input = Input(shape=(feature_dim,), name='user_input')user_dense = Dense(32, activation='relu')(user_input)# 物品分支item_input = Input(shape=(feature_dim,), name='item_input')item_dense = Dense(32, activation='relu')(item_input)# 计算点积相似度dot_product = Dot(axes=1)([user_dense, item_dense])output = Flatten()(dot_product)model = Model(inputs=[user_input, item_input], outputs=output)return modelmodel = build_model(features)
model.compile(optimizer='adam', loss='mse')# 准备训练数据(用户-物品对)
user_ids, item_ids = np.meshgrid(np.arange(num_users), np.arange(num_items))
user_ids, item_ids = user_ids.ravel(), item_ids.ravel()
ratings = ratings.ravel()# 划分训练测试集
train_user, test_user, train_item, test_item, train_ratings, test_ratings = \train_test_split(user_features[user_ids], item_features[item_ids], ratings, test_size=0.2)# 训练模型
history = model.fit([train_user, train_item],train_ratings,epochs=50,batch_size=256,validation_split=0.2
)# 可视化训练过程
plt.figure(figsize=(12, 5))# 损失曲线
plt.subplot(1, 2, 1)
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Training History')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()# 推荐结果可视化
plt.subplot(1, 2, 2)
sample_users = user_features[:5]
sample_items = item_features[:10]# 生成用户-物品组合对
user_ids, item_ids = np.meshgrid(np.arange(5), np.arange(10))
predictions = model.predict([sample_users[user_ids.ravel()],  # 生成 (5*10, 5) 的形状sample_items[item_ids.ravel()]   # 生成 (5*10, 5) 的形状
])# 将预测结果重塑为矩阵
pred_matrix = predictions.reshape(5, 10)
plt.imshow(pred_matrix, cmap='viridis')
plt.colorbar()
plt.title('User-Item Rating Predictions')
plt.xlabel('Items')
plt.ylabel('Users')plt.tight_layout()
plt.show()
        推荐系统的高级实现: 

                检索和排序

                检索:根据用户的特征生成项目的候选列表,后将检索到的项目合并成一个列表,同时去重和用户已经观看过or购买过的项目。

                排序:获取检索到的列表,并用训练好的模型进行排序,最后向用户展示排好序的项目列表。

                注:

                检索的项目越多,推荐系统的效果越好,但是运行速度越慢。为了优化和分析算法,需要进行离线实验。 

三,强化学习:

        定义:

                让智能体(Agent)通过与环境的交互,学习最优策略,长期积累。

                只需要告诉智能体做什么,而不是告诉它怎么做

        奖励函数:

                奖励函数是定义Agent的学习目标的核心机制,向智能体及时反馈信号(奖励or惩罚),引导其逐步学习最优策略。

        奖励函数表达式:

                R=(当前状态,行为,当前状态的奖励值,新的状态)

        评判的实现(奖励函数回报的计算):

                回报:奖励的总和

                折现因子:回报+权重,通常是一个略小于1的数字

              回报的计算:

                整个过程的状态的奖励值*折现因子的次方之和。

                折现因子次方由起始状态的位置来决定,奖励值出现的越早,回报越大。

                                (类似利率)

        强化学习中决策与策略的制定:

                通过制定策略pi函数,来将任何状态s映射到最优行动a。即策略pi函数作用于状态s,告诉Agent应该采取什么行为是最优。

                强化学习的目标是找到一个策略pi函数,实现回报的最大化

        马尔可夫决策过程[Markov Decision Process(MDP)]:

       

        

        状态动作值函数(State action value function ):

                也称为Q函数(Q-function),表示在状态s下采取动作a一次,然后一最优策略行动后所能获得的回报。

                函数形式:Q(s,a)

                使用动态规划进行MDP的求解

        智能体(Agent)可以依据Q函数在不同状态下做出的最优选择来实现回报最大化

        贝尔曼方程(Bellman equation):

                用来计算状态动作值函数

                表示当前状态s下的状态动作值函数值 = 当前状态下的奖励值 + 未来可能的最大长期奖励的折扣值

       

        随机环境:

                智能体采取的行动并不一定能确定性地到达预期的状态,而是以一定概率转移到不同状态,增加了环境的不确定性和复杂性

        

        当智能体选择向左移动时,有90%的概率成功向左移动,有10%的概率向右移动

        向右移动时同理

        连续状态空间:

                指系统状态可以在某个区间内任意取值的状态,如卡车的位置,速度,角速度等

四,强化学习实现控制月球着陆器(学习状态值函数):

        核心思想:训练一个神经网络来计算或者近似状态动作函数,输入一个状态动作,并让它尝试输出Q函数

                输入向量x,包括当前的状态s和动作a

                状态s包括多个变量,着陆器的位置,角度,速度

                动作a是一个离散的动作,使用独热编码,例如”向左移动”,”点火”等

                在状态s下,使用神经网络计算 Q(s,nothing),Q(s,left),Q(s,main),Q(s,right),从而确定最优的Q函数,最后由神经网络输出

        DQN算法(或深度Q网络):

        类似递归,Q函数的值计算依赖于下一个状态的Q值

        训练过程:

                随机初始化Q值,随机选择权重 ---> 训练智能体,收集所有的状态动作值函数 ---> 使用贝尔曼方程计算目标值 ---> 更新Q值 ---> 重复,直到Q值收敛

        

        DQN算法的优化:

                法一:

                        改进神经网络结构,让神经网络同时输出四个不同动作产生的Q函数值,可以节省时间,只运行一次就可以得到四个Q值。且在用贝尔曼方程计算时,只需选择最大值即可,不必计算。

        

        法三(小批量和软更新):

                小批量:

                适用于监督学习和无监督学习,可以加快模型学习速度

                每次迭代时,选择较少的数据集进行梯度下降,而不是每次使用所有的数据集,可以减少运算量,加快速度。

                每次迭代只查看数据集的一个子集

        小批量处理在强化学习中的应用:

                从数据集中任选一个子集,用于训练神经网络。虽然训练过程中会因为数据的随机性而产生波动,但是训练速度会大幅提升。

        软更新:
                使得强化学习算法更好收敛

                传统的硬更新:直接将每次迭代的新值和新权重,新偏置直接替换原来的值和权重,偏置

                软更新:软更新并非直接替换,而是通过加权平均的方式来更新参数,减少新参数对旧参数的影响,防止出现波动

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39923.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云原生算力引擎:分布式推理的流体动力学

引言:算力黑洞的引力扰动 OpenAI推理集群日处理4.5亿次请求,CUDA 12.3实现μs级张量切换。特斯拉Dojo超算芯片间延迟0.5ns,阿里巴巴PAI平台节省58%训练时长。HuggingFace模型库下载量突破3亿次,AWS Inferentia芯片能效比提升8倍。…

流量分析2

一,webshell流量 [GKCTF 2021]签到 先看协议分级,大部分是tcp,里面有http的基于的行文本数据占了很大的比重,看看里面有什么 过滤http的流量 点击一条流量,里面的内容进去后面有基于行的文本数据, 先解he…

解锁智能协作:蓝耘平台如何打破应用壁垒,实现无缝联动

在当今快速发展的数字化时代,企业面临着越来越复杂的应用架构与系统集成挑战。传统的孤立系统已无法满足现代企业对于高效协作与数据共享的需求,因此,如何实现不同应用系统间的无缝联动,成为了数字化转型的关键课题。蓝耘平台作为…

3月25号

添加图片的一些例子: // 创建一个二维数组,用来管理数据int[][] data new int[4][4]; // 记录空白方块的位置int x0;int y0; // 定义一个变量,记录当前展示图片的路径String path"E:\\java\\jigsawgame\\路飞\\路飞"; // 加载图片细节: // …

单片机和微控制器知识汇总——《器件手册--单片机、数字信号处理器和可编程逻辑器件》

目录 四、单片机和微控制器 4.1 单片机(MCU/MPU/SOC) 一、定义 二、主要特点 三、工作原理 四、主要类型 五、应用领域 六、选型与设计注意事项 七、发展趋势 4.2 数字信号处理器(DSP/DSC) ​编辑​编辑 一、定义 二、工作原理 三、结构特点 四、应用领域 五、选型与设计注…

迷宫问题——(java)(bfs)

2.走迷宫 - 蓝桥云课 bfs :我的理解就是按层数便利,便利完一层再遍历下一层 bfs:一般用来求解权相等的最短路径和最小操作数的问题 一般使用队列来实现 1.初始化队列 先将起始节点放入队列中 2.从队列中取出一个没有访问过的节点,将该节点的访问状态…

Axure大屏可视化模板:赋能多领域,开启数据展示新篇章

在当今这个数据爆炸的时代,数据已经成为各行各业的核心资产。然而,如何高效、直观地展示数据,并将其转化为有价值的决策依据,成为了许多企业和组织面临的共同挑战。Axure大屏可视化模板,作为一款强大的数据展示工具&am…

Linux--进程控制

ok&#xff0c;我们今天学习Linux中的进程控制&#xff08;进程创建、终止、等待、替换&#xff09; 进程创建 fork函数 在linux中fork函数是⾮常重要的函数&#xff0c;它从已存在进程中创建⼀个新进程。新进程为子进程&#xff0c;⽽原进程为父进程。 #include <unist…

【开源宝藏】用 JavaScript 手写一个丝滑的打字机动画效果

你当前项目实现了一个非常丝滑的 打字机文字效果动画&#xff0c;使用的是自定义的 typical.js 脚本。下面我将给出一份逐步拆解的中文教程&#xff0c;帮你或其他初学者快速上手并自定义这个打字效果。 ✨ 最终效果 打开页面后&#xff0c;中央会逐字显示&#xff1a; Hello…

UE4学习笔记 FPS游戏制作17 让机器人持枪 销毁机器人时也销毁机器人的枪 让机器人射击

添加武器插槽 打开机器人的Idle动画&#xff0c;方便查看武器位置 在动画面板里打开骨骼树&#xff0c;找到右手的武器节点&#xff0c;右键添加一个插槽&#xff0c;重命名为RightWeapon&#xff0c;右键插槽&#xff0c;添加一个预览资产&#xff0c;选择Rifle&#xff0c;根…

气象可视化卫星云图的方式:方法与架构详解

气象卫星云图是气象预报和气候研究的重要数据来源。通过可视化技术,我们可以将卫星云图数据转化为直观的图像或动画,帮助用户更好地理解气象变化。本文将详细介绍卫星云图可视化的方法、架构和代码实现。 一、卫星云图可视化方法 1. 数据获取与预处理 卫星云图数据通常来源…

26考研——树与二叉树_树、森林(5)

408答疑 文章目录 二、树、森林树的基本概念树的定义和特性树的定义树的特性 基本术语树的基本术语和概念祖先、子孙、双亲、孩子、兄弟和堂兄弟结点的层次、度、深度和高度树的度和高度分支结点和叶结点有序树和无序树路径和路径长度 森林的基本术语和概念森林的定义森林与树的…

为何服务器监听异常?

报错&#xff1a; 执行./RCF后出现监听异常--在切换网络后&#xff0c;由于前面没有退出./RCF执行状态&#xff1b;重新连接后&#xff0c;会出现服务器监听异常 原因如下&#xff1a; 由于刚开始登录内网&#xff0c;切换之后再重新登录内网&#xff0c;并且切换网络的过程中…

ROS2 架构梳理汇总整理

文章目录 前言正文机器人平台整体架构&#xff08;ROS2&#xff09;图一、个人理解整体架构 ROS2架构图一、个人理解ROS2整体架构图二、开发者整理ROS2整体架构图三、Intel整理ROS2整体架构图四、DDS具体架构说明 ROS2 Control架构图一、官方整整理ROS2 Control整体架构 总结 前…

定长内存池原理及实现

目录 一、池化技术 二、内存池 三、内存池主要解决的问题 四、定长内存池的实现 1.定长内存池的原理 2.框架 3.Delete实现 4.New实现 5.性能测试 五、源码 FixedMemoryPool.h test.cc 一、池化技术 所谓“池化技术”&#xff0c;就是程序先向系统申请过量的资源&…

广告推荐算法 - 学习笔记

文章目录 1、前言2、学习笔记2.1、什么是计算广告系统&#xff1f; 1、前言 本篇博客&#xff0c;是我用来记录学习广告推荐算法的一些笔记和总结。 参考内容&#xff1a; 1、王喆&#xff1a;"深度"学习计算广告 2、deepseek 2、学习笔记 2.1、什么是计算广告系统…

卷积神经网络的原理、实现及变体

卷积神经网络convolutional neural network&#xff0c;CNN 是为处理图像数据而生的网络&#xff0c;主要由卷积层&#xff08;填充和步幅&#xff09;、池化层&#xff08;汇聚层&#xff09;、全连接层组成。 卷积 虽然卷积层得名于卷积&#xff08;convolution&#xff09…

Excel第41套全国人口普查

2. 导入网页中的表格&#xff1a;数据-现有链接-考生文件夹&#xff1a;网页-找到表格-点击→变为√-导入删除外部链接关系&#xff1a;数据-点击链接-选中连接-删除-确定&#xff08;套用表格格式-也会是删除外部链接&#xff09;数值缩小10000倍&#xff08;除以10000即可&am…

深度学习篇---回归分类任务的损失函数

文章目录 前言一、分类任务常用损失函数1. 交叉熵损失&#xff08;Cross-Entropy Loss&#xff09;数学形式使用场景特点训练状态分析损失下降损失震荡训练损失低但是验证损失高 2. Hinge Loss&#xff08;合页损失&#xff09;数学形式适用场景特点训练状态分析损失趋近于0损失…

OpenCV三维解算常用方法C++

如果标定过程是通过OpenCV张正友标定法实现的&#xff0c;得到的内参外参保存在.txt文件中是这样的形式&#xff1a; ① 内参intrinsics.txt&#xff1a; ② 外参extrinsics.txt&#xff1a; 那么可以通过如下方法读取.txt文件获取左右相机内外参&#xff0c;主要包括三维解算…