大数据课程K18——Spark的ALS算法与显式矩阵分解

news/2024/12/23 22:37:20/文章来源:https://blog.csdn.net/u013955758/article/details/132567561

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州

▲ 本章节目的

⚪ 掌握Spark的ALS算法与显式矩阵分解；

⚪ 掌握Spark的ALS算法原理；

一、ALS算法与显式矩阵分解

1. 概述

我们在实现推荐系统时，当要处理的那些数据是由用户所提供的自身的偏好数据，这些数据被称作显式偏好数据，由显示偏好数据建立的矩阵称为显式矩阵。这类数据包括如物品评级、赞、喜欢等用户对物品的评价。

这些数据可以转换为以用户为行、物品为列的二维矩阵。矩阵的每一个数据表示某个用户对特定物品的偏好。大部分情况下单个用户只会和少部分物品接触，所以该矩阵只有少部分数据非零（即该矩阵很稀疏）。在生产环境下，偏好矩阵一般的是稀疏的。

举个简单的例子，假设我们有如下用户对电影的评级数据：

Tom, Star Wars, 5

Jane, Titanic, 4

Bill, Batman, 3

Jane, Star Wars, 2

Bill, Titanic, 3

它们可转为如下评级矩阵：

为了更好的实现推荐系统，我们需要对这个稀疏的矩阵建模。一般可以采用矩阵分解（或矩阵补全）的方式。

具体就是找出两个低维度的矩阵，使得它们的乘积是原始的矩阵。因此这也是一种降维技术。假设我们的用户和物品数目分别是U和I，那对应的“用户-物品”矩阵的维度为U×I，如下图所示：

要找到和“用户-物品”矩阵近似的k维（低阶）矩阵，最终要求出如下两个矩阵：一个用于表示用户的U×k维矩阵，以及一个表征物品的k×I维矩阵。这两个矩阵也称作因子矩阵。它们的乘积便是原始评级矩阵的一个近似。值得注意的是，原始评级矩阵通常很稀疏，但因子矩阵却是稠密的（满秩的），如下图所示：

这类模型试图发现对应“用户-物品”矩阵内在行为结构的隐含特征（这里表示为因子矩阵），所以也把它们称为隐特征模型。隐含特征或因子不能直接解释，但它可能表示了某些含义，比如对电影的某个导演、种类、风格或某些演员的偏好。

由于是对“用户-物品”矩阵直接建模，用这些模型进行预测也相对直接：要计算给定用户对某个物品的预计评级，就从用户因子矩阵和物品因子矩阵分别选取相应的行（用户因子向量）与列（物品因子向量），然后计算两者的

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/124512.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

设计模式系列-原型模式

设计模式系列-原型模式

一、上篇回顾上篇创建者模式中，我们主要讲述了创建者的几类实现方案，和创建者模式的应用的场景和特点，创建者模式适合创建复杂的对象，并且这些对象的每个组成部分的详细创建步骤可以是动态的变化的，但是每个对象的组…

阅读更多...

数据可视化、BI和数字孪生软件：用途和特点对比

数据可视化、BI和数字孪生软件：用途和特点对比

在现代企业和科技领域，数据起着至关重要的作用。为了更好地管理和理解数据，不同类型的软件工具应运而生，其中包括数据可视化软件、BI（Business Intelligence）软件和数字孪生软件。虽然它们都涉及数据，但在功…

阅读更多...

《TCP/IP网络编程》阅读笔记--域名及网络地址

《TCP/IP网络编程》阅读笔记--域名及网络地址

目录 1--域名系统 2--域名与 IP 地址的转换 2-1--利用域名来获取 IP 地址 2-2--利用 IP 地址获取域名 3--代码实例 3-1--gethostbyname() 3-2--gethostbyaddr() 1--域名系统域名系统（Domain Name System，DNS）是对 IP 地址和域名进行相…

阅读更多...

2023/9/7 -- C++/QT

2023/9/7 -- C++/QT

作业 1> 思维导图 2> 封装一个结构体，结构体中包含一个私有数组，用来存放学生的成绩，包含一个私有变量，用来记录学生个数， 提供一个公有成员函数，void setNum(int num)用于设置学生个数提供一个…

阅读更多...

✔ ★算法基础笔记（Acwing）（一）—— 基础算法(20道题)【java版本】

✔ ★算法基础笔记（Acwing）（一）—— 基础算法(20道题)【java版本】

基础算法一、快速排序1. 快速排序例题2. 第k个数( 快速选择 ) ✔ ✔1.31★快排二刷总结( 4点 ) 二、归并排序1. 归并排序模板题 ✔ ✔1.31★二刷总结 ★2. 逆序对的数量 ✔ ✔1.31★二刷总结三、二分1. 数的范围 ✔1.31★二刷总结(mid > x 则是输出最左边一个)第一个大于…

阅读更多...

Oracle数据库开发者工具

Oracle数据库开发者工具

和开发者相关的数据库特性，功能与工具列举如下，但不限于以下。因为Oracle数据库中的许多功能其实都间接的和开发者发生关系，如Oracle高级安全选件中的透明数据加密，数据编辑。Oracle Spatial and Graph（地理空间与图&a…

阅读更多...

latex修改公式的默认编号

latex修改公式的默认编号

文章目录问题描述省流出错演示没有载入amsmath包载入amsmath包总结问题描述有时想自己定义公式的编号，不想用默认的编号(1) (2)…，我们应该怎么做呢？ 只需看本文一分钟就能解决。省流开头载入amsmath包，然后在公式后面加…

阅读更多...

算法——组合程序算法解析

算法——组合程序算法解析

组合就是从m个元素的数组中求n个元素的所有组合，代码如下： #include <iostream> #include <vector> using namespace std; // 递归求解组合 void combinations(vector<int>& nums, vector<int>& combination, int star…

阅读更多...

Java死锁的原因及解决方法

Java死锁的原因及解决方法

要想知道死锁出现的原因和解决方法，首先得知道什么是死锁，死锁是两个或两个以上的运算单元（进程、线程或协程），互相持有对方所需的资源，导致它们都无法向前推进，从而导致永久阻塞的问题。从字面…

阅读更多...

【数据库事务日志碎片原理分析与方案】-分析篇

【数据库事务日志碎片原理分析与方案】-分析篇

前言:说都数据库的事务日志，可以说我们是再熟悉不过的了。一般而言，我们都没有必要去关心事务日志中的虚拟日志文件的个数。这里提到的“虚拟日志文件”的概念，我们后面会进行专门的讲述。很多的时候，我们在建立数据库的时候&am…

阅读更多...

element树形筛选

element树形筛选

<el-inputv-model"projectName"placeholder"请输入名称"clearablemaxlength"10"clear"clearTree" /> <el-divider /> <el-treeref"tree"class"filter-tree":data"treeList":props"…

阅读更多...

VSCode远程调试python

VSCode远程调试python

配置 1，进入到服务器相应的docker和conda环境中 2，安装debugpy pip install debugpy 3，VSCode 中点击调试按钮 4，按照提示，安装扩展 5，配置launch.json 最终的文件launch.json： {// 使用…

阅读更多...

跟着视频学习java，发现swagger打不开？怎么解决

跟着视频学习java，发现swagger打不开？怎么解决

前因现在到处都在卷java，不会java的前端不是好前端。这不，周围有前端同学开始学java了。昨天他突然找我问说引入依赖，配置之后swagger打不开了。分析过程 1、查看他的swagger版本，让他试了对应路径/swagger-ui/index.h…

阅读更多...

爬虫数据清洗可视化实战-就业形势分析

爬虫数据清洗可视化实战-就业形势分析

基于采集和分析招聘网站的数据的芜湖就业形势的调查研究一、引言本报告旨在分析基于大数据的当地就业形势，并提供有关薪资、工作地点、经验要求、学历要求、公司行业、公司福利以及公司类型及规模的详细信息。该分析是通过网络爬虫技术对招聘网站的数据进行采集…

阅读更多...

基于Simulink的用于电力系统动态分析

基于Simulink的用于电力系统动态分析

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

【Unity3D赛车游戏优化篇】【八】汽车实现镜头的流畅跟随，以及不同角度的切换

【Unity3D赛车游戏优化篇】【八】汽车实现镜头的流畅跟随，以及不同角度的切换

👨‍💻个人主页：元宇宙-秩沅 👨‍💻 hallo 欢迎点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由秩沅原创 👨‍💻 收录于专栏：Uni…

阅读更多...

华为mate60 上线媒介盒子多家媒体报道

华为mate60 上线媒介盒子多家媒体报道

为什么你的品牌营销不见效？如何能推动品牌破圈？让媒介盒子给你一些启发。本期盒子要跟大家分享地新机上市，数码科技行业企业该如何做线上宣传。 HUAWEI Mate 60系列8月29日官宣发布，出色的拍照功能、强大的性能表现和持久的续航能…

阅读更多...

【C++二叉树】进阶OJ题

【C++二叉树】进阶OJ题

【C二叉树】进阶OJ题目录【C二叉树】进阶OJ题1.二叉树的层序遍历II示例代码解题思路 2.二叉搜索树与双向链表示例代码解题思路 3.从前序与中序遍历序列构造二叉树示例代码解题思路 4.从中序与后序遍历序列构造二叉树示例代码解题思路 5.二叉树的前序遍历（非递归迭…

阅读更多...

科技云报道：AI+云计算共生共长，能否解锁下一个高增长空间？

科技云报道：AI+云计算共生共长，能否解锁下一个高增长空间？

科技云报道原创。在过去近一年的时间里，AI大模型从最初的框架构建，逐步走到落地阶段。然而，随着AI大模型深入到千行百业中，市场开始意识到通用大模型虽然功能强大，但似乎并不能完全满足不同企业的个性化需求。大…

阅读更多...

【优选算法】—— 前缀和算法

【优选算法】—— 前缀和算法

前言： 本期，我将要带大家学习的是有关前缀和算法的学习！！！ 目录 （一）什么是前缀和算法 （二）题目讲解 1、【模板】前缀和 2、【模板】二维前缀和 3、和可被K整除的…

阅读更多...

最新文章

推荐文章