Spark MLlib 机器学习详解

目录

🍉引言

🍉Spark MLlib 简介

🍈 主要特点

🍈常见应用场景

🍉安装与配置

🍉数据处理与准备

🍈加载数据

🍈数据预处理

🍉分类模型

🍈逻辑回归

🍈评价模型

🍉回归模型

🍈线性回归

🍈评价模型

🍉聚类模型

🍈K-means 聚类

🍈评价模型

🍉降维模型

🍈PCA 主成分分析

🍉 协同过滤

🍈ALS 模型

🍈评价模型

🍉实战案例:房价预测

🍈数据加载与预处理

🍈模型训练与预测

🍈模型评估

🍈结果分析

🍉总结


🍉引言

  • Apache Spark 是一个开源的分布式计算框架,它提供了高效的处理大规模数据集的能力。Spark MLlib 是 Spark 的机器学习库,旨在提供可扩展的、易于使用的机器学习算法。MLlib 提供了一系列工具,用于分类、回归、聚类、协同过滤、降维等任务。
  • 本文将详细介绍 Spark MLlib 的功能及其应用,结合实例讲解如何在实际数据处理中使用这些功能。

🍉Spark MLlib 简介

🍈 主要特点

  • 易于使用:提供了丰富的 API,支持 Scala、Java、Python 和 R 等多种编程语言。
  • 高度可扩展:可以处理海量数据,适用于大规模机器学习任务。
  • 丰富的算法库:支持分类、回归、聚类、降维、协同过滤等常用算法。

🍈常见应用场景

  • 分类:如垃圾邮件检测、图像识别、情感分析等。
  • 回归:如房价预测、股票价格预测等。
  • 聚类:如客户分群、图像分割等。
  • 协同过滤:如推荐系统等。
  • 降维:如特征选择、特征提取等。

🍉安装与配置

在使用 Spark MLlib 之前,需要确保已经安装了 Apache Spark。可以通过以下命令安装Spark:

# 安装 Spark
!apt-get install -y spark# 安装 PySpark
!pip install pyspark

🍉数据处理与准备

机器学习的第一步通常是数据的获取与预处理。以下示例演示如何加载数据并进行预处理。

🍈加载数据

我们使用一个简单的示例数据集:波士顿房价数据集。该数据集包含506个样本,每个样本有13个特征和1个目标变量(房价)。

from pyspark.sql import SparkSession# 创建 SparkSession
spark = SparkSession.builder.appName("MLlibExample").getOrCreate()# 加载数据集
data_path = "path/to/boston_housing.csv"
data = spark.read.csv(data_path, header=True, inferSchema=True)
data.show(5)

🍈数据预处理

预处理步骤包括数据清洗、特征选择、数据标准化等。

from pyspark.sql.functions import col
from pyspark.ml.feature import VectorAssembler, StandardScaler# 选择特征和目标变量
feature_columns = data.columns[:-1]
target_column = data.columns[-1]# 将特征列组合成一个向量
assembler = VectorAssembler(inputCols=feature_columns, outputCol="features")
data = assembler.transform(data)# 标准化特征
scaler = StandardScaler(inputCol="features", outputCol="scaledFeatures")
scaler_model = scaler.fit(data)
data = scaler_model.transform(data)# 选择最终的数据集
data = data.select(col("scaledFeatures").alias("features"), col(target_column).alias("label"))
data.show(5)

🍉分类模型

🍈逻辑回归

逻辑回归是一种常用的分类算法。以下示例演示如何使用逻辑回归进行分类。

from pyspark.ml.classification import LogisticRegression# 创建逻辑回归模型
lr = LogisticRegression(featuresCol="features", labelCol="label")# 拆分数据集
train_data, test_data = data.randomSplit([0.8, 0.2])# 训练模型
lr_model = lr.fit(train_data)# 预测
predictions = lr_model.transform(test_data)
predictions.select("features", "label", "prediction").show(5)

🍈评价模型

模型评估是机器学习过程中的重要环节。我们可以使用准确率、精确率、召回率等指标来评估分类模型。

from pyspark.ml.evaluation import MulticlassClassificationEvaluator# 评价模型
evaluator = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy")
accuracy = evaluator.evaluate(predictions)
print(f"Accuracy: {accuracy}")

🍉回归模型

🍈线性回归

线性回归用于预测连续值。以下示例演示如何使用线性回归进行预测。

from pyspark.ml.regression import LinearRegression# 创建线性回归模型
lr = LinearRegression(featuresCol="features", labelCol="label")# 训练模型
lr_model = lr.fit(train_data)# 预测
predictions = lr_model.transform(test_data)
predictions.select("features", "label", "prediction").show(5)

🍈评价模型

我们可以使用均方误差(MSE)、均方根误差(RMSE)等指标来评估回归模型。

from pyspark.ml.evaluation import RegressionEvaluator# 评价模型
evaluator = RegressionEvaluator(labelCol="label", predictionCol="prediction", metricName="rmse")
rmse = evaluator.evaluate(predictions)
print(f"RMSE: {rmse}")

🍉聚类模型

🍈K-means 聚类

K-means 是一种常用的聚类算法。以下示例演示如何使用 K-means 进行聚类。

from pyspark.ml.clustering import KMeans# 创建 K-means 模型
kmeans = KMeans(featuresCol="features", k=3)# 训练模型
kmeans_model = kmeans.fit(data)# 预测
predictions = kmeans_model.transform(data)
predictions.select("features", "prediction").show(5)

🍈评价模型

我们可以使用轮廓系数(Silhouette Coefficient)等指标来评估聚类模型。

from pyspark.ml.evaluation import ClusteringEvaluator# 评价模型
evaluator = ClusteringEvaluator(featuresCol="features", predictionCol="prediction", metricName="silhouette")
silhouette = evaluator.evaluate(predictions)
print(f"Silhouette Coefficient: {silhouette}")

🍉降维模型

🍈PCA 主成分分析

PCA 是一种常用的降维技术,用于减少数据的维度,同时保留尽可能多的信息。以下示例演示如何使用 PCA 进行降维。

from pyspark.ml.feature import PCA# 创建 PCA 模型
pca = PCA(k=3, inputCol="features", outputCol="pcaFeatures")# 训练模型
pca_model = pca.fit(data)# 转换数据
pca_result = pca_model.transform(data)
pca_result.select("features", "pcaFeatures").show(5)

🍉 协同过滤

🍈ALS 模型

ALS(交替最小二乘法)是一种常用的协同过滤算法,常用于推荐系统。以下示例演示如何使用 ALS 进行推荐。

from pyspark.ml.recommendation import ALS# 创建 ALS 模型
als = ALS(userCol="userId", itemCol="movieId", ratingCol="rating")# 训练模型
als_model = als.fit(train_data)# 预测
predictions = als_model.transform(test_data)
predictions.select("userId", "movieId", "rating", "prediction").show(5)

🍈评价模型

我们可以使用均方误差(MSE)等指标来评估协同过滤模型。

evaluator = RegressionEvaluator(labelCol="rating", predictionCol="prediction", metricName="rmse")
rmse = evaluator.evaluate(predictions)
print(f"RMSE: {rmse}")

🍉实战案例:房价预测

接下来,我们将通过一个实战案例,完整展示如何使用 Spark MLlib 进行房价预测。步骤包括数据加载与预处理、模型训练与预测、模型评估。

🍈数据加载与预处理

# 加载数据集
data_path = "path/to/boston_housing.csv"
data = spark.read.csv(data_path, header=True, inferSchema=True)# 数据预处理
assembler = VectorAssembler(inputCols=data.columns[:-1], outputCol="features")
data = assembler.transform(data)scaler = StandardScaler(inputCol="features", outputCol="scaledFeatures")
scaler_model = scaler.fit(data)
data = scaler_model.transform(data)data = data.select(col("scaledFeatures").alias("features"), col("label"))

🍈模型训练与预测

我们将使用线性回归模型进行房价预测。

# 拆分数据集
train_data, test_data = data.randomSplit([0.8, 0.2])# 创建线性回归模型
lr = LinearRegression(featuresCol="features", labelCol="label")# 训练模型
lr_model = lr.fit(train_data)# 预测
predictions = lr_model.transform(test_data)

🍈模型评估

# 评价模型
evaluator = RegressionEvaluator(labelCol="label", predictionCol="prediction", metricName="rmse")
rmse = evaluator.evaluate(predictions)
print(f"RMSE: {rmse}")

🍈结果分析

我们可以通过绘图等手段进一步分析预测结果。

import matplotlib.pyplot as plt# 提取实际值和预测值
actual = predictions.select("label").toPandas()
predicted = predictions.select("prediction").toPandas()# 绘制实际值与预测值对比图
plt.figure(figsize=(10, 6))
plt.scatter(actual, predicted, alpha=0.5)
plt.xlabel("Actual")
plt.ylabel("Predicted")
plt.title("Actual vs Predicted")
plt.show()

🍉总结

  • 本文详细介绍了 Spark MLlib 的功能及其应用,结合实例演示了分类、回归、聚类、降维、协同过滤等常用机器学习任务的实现过程。通过这些实例,我们可以看到 Spark MLlib 强大的数据处理和机器学习能力,非常适合大规模数据的处理与分析。
  • 在实际应用中,根据具体需求选择合适的算法和模型,并通过数据预处理、特征选择、模型训练与评估等步骤,不断优化和提升模型性能,从而解决实际问题。
  • 希望本文能够为读者提供一个全面的 Spark MLlib 机器学习的参考,帮助读者更好地理解和应用这一强大的工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/342582.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C# FTP/SFTP 详解及连接 FTP/SFTP 方式示例汇总

文章目录 1、FTP/SFTP基础知识FTPSFTP 2、FTP连接示例3、SFTP连接示例4、总结 在软件开发中,文件传输是一个常见的需求。尤其是在不同的服务器之间传输文件时,FTP(文件传输协议)和SFTP(安全文件传输协议)成…

前端图片在切换暗黑模式时太亮该怎么办?

通过css中的filter属性来实现,进行图片的色系反转、亮度、对比度调整等 1、invert 反转输入图像,值为 100% 则图像完全反转,值为 0% 则图像无变化 filter: invert(1); 2、blur 给元素应用高斯模糊效果。 filter: blur(5px); 3、brightnes…

C++设计模式-外观模式,游戏引擎管理多个子系统,反汇编

运行在VS2022,x86,Debug下。 30. 外观模式 为子系统定义一组统一的接口,这个高级接口会让子系统更容易被使用。应用:如在游戏开发中,游戏引擎包含多个子系统,如物理、渲染、粒子、UI、音频等。可以使用外观…

Xcode 打包报错Command PhaseScriptExecution failed with a nonzero exit code

解决办法: 1、在Xcode项目中 Pods -> Targets Support Files -> Pods-项目名 -> Pods-项目名-frameworks 中(大约在第44行) 加上 -f 2、CocoaPods版本太旧了,可以尝试升级CocoaPods版本 使用sudo gem update cocoapods更新cocoapods,问题将在1.12.1版本已…

DP读书:如何使用badge?(开源项目下的标咋用)

最近在冲论坛,很少更一些内容了。但遇到了一个真的有趣的: 开源项目下,蓝蓝绿绿的标是怎么用的呢? 这是我的主页Readme,在看一些NXP的主仓时,突然发现没有这个玩,就自己整了个 再比如我的CSDN专…

信号:干扰类别及特征提取

目录 第一部分:干扰类别 1.压制干扰 1.1噪声调幅瞄准式干扰(单音干扰) 1.2噪声调频阻塞式干扰(宽带噪声干扰) 1.3噪声调频扫频式干扰(线性调频) 2.欺骗干扰 2.1距离欺骗干扰(幅度调制干扰&#xff0…

MySQL—多表查询—内连接

一、引言 (1)内连接查询语法 内连接查询的是两张表的交集部分的数据。(也就是绿色部分展示的数据) (2)内连接有两种形式: 1、隐式内连接 语法结构: 2、显示内连接 语法结构&#xf…

上市即交付,比亚迪秦L DM-i万人交车暨千媒众测开营

6月6日,“引领中级 开创油耗2时代”秦L DM-i万人交车暨千媒众测开营仪式在比亚迪大本营深圳盛大举行。 众多车主代表亲临现场,与全国各地的比亚迪4S店千店联动,将秦L DM-i全国交付推向新的高潮。发布即量产,上市即交付&#xff0…

查看远程桌面端口,查看服务器的远程桌面端口的方法

如果你正在寻找一种方法来检查服务器的远程桌面端口,那么请务必按照以下步骤操作,以确保准确且安全地获取所需信息。这不仅是一个技术问题,更是一个关于效率和安全性的重要议题。 首先,你需要明确,远程桌面端口通常是…

SQLServer 查询指定数据库名和表名及表结构等

查询当前数据库中所有表名,不用指定数据库,选中某数据库直接执行SQL就好 -- U:所有用户表名; S:所有系统表名;V:所有视图表名 SELECT name FROM sysobjects WHERE xtypeU OR xtypeS OR xtypeV 查询指定数据库数据库中所有表名, SELECT TAB…

【西瓜书】4.决策树

1 递归返回情况 (1)结点包含样本全为同一类别 (2)属性集为空,没有属性可供划分了 或 有属性,但是在属性上划分的结果都一样 (3)结点为空结点 **结束时判定该结点的类别遵循如下规则&…

深入理解mysql中的各种超时属性

1. 前言 connectTimeout: 连接超时 loginTimeout: 登录超时 socketTimeout: Socket网络超时,即读超时 queryTimeout: sql执行超时 transactionTimeout:spring事务超时 innodb_lock_wait_timeout:innodb锁等待超时 wait_timeout:非交互式连接关闭前的等待时间 inter…

docker-compose部署 kafka 3.7 集群(3台服务器)并启用账号密码认证

文章目录 1. 规划2. 服务部署2.1 kafka-012.2 kafka-022.3 kafka-032.4 启动服务 3. 测试3.1 kafkamap搭建(测试工具)3.2 测试 1. 规划 服务IPkafka-0110.10.xxx.199kafka-0210.10.xxx.198kafka-0310.10.xxx.197kafkamp10.10.xxx.199 2. 服务部署 2.1…

数据挖掘与机器学习——聚类算法

目录 无监督学习 聚类算法 概念: 功能: 应用场景: 评判标准: 划分聚类: K-means聚类 逻辑实现: 聚类方式 问题: 解决: 可能存在的问题: 1.初始值对K-means聚…

五个超实用的 ChatGPT-4o 提示词

GPT-4o 是 OpenAI 最近推出的最新人工智能模型,不仅具备大语言模型的能力,而且拥有多模态模型的看、读、说等能力,而且速度比 GPT-4 更快。下面我们就来介绍几个超实用的 GPT-4o 提示词,帮助大家更好地了解 GPT-4o 的功能和应用场…

度安讲 | 第二期「安全左移·业务护航」技术沙龙成功举办

当下,“安全左移”作为落地DevSecOps的重要实践之一,已在业界达成共识。DevSecOps作为一种集开发、安全、运维于一体的软件开发和运营模式,强调在敏捷交付下,“安全”在软件开发生命周期的全覆盖贯穿和核心位置。所谓“安全左移”…

ssh远程管理

SSH远程管理 ssh是一种安全通道协议,只能用来实现字符界面的远程登录。远程复制,远程文本传输。 ssh对通信双方的数据进行了加密。 用户名和密码登录 密钥对认证方式(可以实现免密登录) ssh 端口号22 网络层 传输层 数据传输…

62. 不同路径

题目 一个机器人位于一个 m x n 网格的左上角(起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。 问总共有多少条不同的路径? …

Prompt工程与实践

Prompt工程与实践 一、Prompt与大模型 1.1 大模型的定义 大模型本质上就是一个概率生成模型,该模型的模型参数足够大,并且在训练过程中阅读了非常多的各个领域的语料。这个时候,如果通过一个正确的、有效的指令去引导这个模型,…

javascript导入excel文件

导入文件用到一个 xlsx.core.js 的包。 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><script type"tex…