AI人工智能机器学习之聚类分析

1、概要

  本篇学习AI人工智能机器学习之聚类分析,以KMeans、AgglomerativeClustering、DBSCAN为例,从代码层面讲述机器学习中的聚类分析。

2、聚类分析 - 简介

聚类分析是一种无监督学习的方法,用于将数据集中的样本划分为不同的组(簇),使得同一组中的样本相似度较高,而不同组之间的样本相似度较低。

sklearn.cluster提供了多种聚类算法

  • K均值聚类(K-Means Clustering),最常用的聚类算法之一,通过迭代找到 K 个簇的中心,并将样本分配给离其最近的中心,从而形成 K 个簇。
  • 层次聚类(Agglomerative Clustering),通过构建一个树形结构(树状图)来表示数据的聚类过程,生成不同层次的聚类结果。
  • DBSCAN(基于密度的聚类),通过测量数据点的密度来识别簇,能够发现任意形状的簇,并且可以有效处理噪声。

本篇,以三个示例讲述聚类分析使用方法:

  • 示例1:对数据集进行K均值聚类分析
  • 示例2:对数据集进行层次聚类分析
  • 示例3:对数据集进行基于密度的聚类分析

本篇相关资料代码参见:AI人工智能机器学习相关知识资源及使用的示例代码

3、聚类分析

3.1、安装依赖

python安装机器学习库: pip install scikit-learn

3.2、示例1: 对数据集进行K均值聚类分析
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score# 生成样本数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)# 创建 KMeans 模型
kmeans = KMeans(n_clusters=4, init='k-means++', max_iter=300, n_init='auto') 
kmeans.fit(X)# 获取聚类结果
y_kmeans = kmeans.predict(X)# 评估聚类效果 - 轮廓系数(Silhouette Score):衡量样本与其聚类的相似性。值范围在 [-1, 1] 之间,值越大表示聚类效果越好。
score = silhouette_score(X, y_kmeans)
print(f"Silhouette Score: {score:.3f}")# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75, marker='o')
plt.title("K-Means Clustering")
plt.show()

运行上述代码的输出:

Silhouette Score: 0.682   

在这里插入图片描述

参数释义:

  • n_clusters:指定要形成的簇的数量。
  • init:初始化簇中心的方法,常用的有 ‘k-means++’(默认)和 ‘random’。
  • max_iter:最大迭代次数。
  • n_init:运行算法的次数,选择最佳结果。
3.3、示例2:对数据集进行层次聚类分析
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics import silhouette_score# 生成样本数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)# 创建层次聚类模型
agg_clustering = AgglomerativeClustering(n_clusters=4, metric='euclidean', linkage='ward',)
y_agg = agg_clustering.fit_predict(X)# 评估聚类效果 - 轮廓系数(Silhouette Score):衡量样本与其聚类的相似性。值范围在 [-1, 1] 之间,值越大表示聚类效果越好。
score = silhouette_score(X, y_kmeans)
print(f"Silhouette Score: {score:.3f}")# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=y_agg, s=50, cmap='viridis')
plt.title("Agglomerative Clustering")
plt.show()

运行上述代码的输出:

Silhouette Score: 0.682

在这里插入图片描述

参数释义:

  • n_clusters:指定要形成的簇的数量。
  • metric:计算样本之间距离的方式,常用的有 ‘euclidean’(欧氏距离)和 ‘manhattan’(曼哈顿距离)。
  • linkage:聚类的连接方式,常用的有 ‘ward’(默认)、‘complete’、‘average’ 和 ‘single’。
3.4、示例3:对数据集进行基于密度的聚类分析
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import DBSCAN
from sklearn.metrics import silhouette_score# 生成样本数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)# 创建 DBSCAN 模型
dbscan = DBSCAN(eps=0.5, min_samples=5)
y_dbscan = dbscan.fit_predict(X)# 评估聚类效果 - 轮廓系数(Silhouette Score):衡量样本与其聚类的相似性。值范围在 [-1, 1] 之间,值越大表示聚类效果越好。
score = silhouette_score(X, y_kmeans)
print(f"Silhouette Score: {score:.3f}")# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=y_dbscan, s=50, cmap='viridis')
plt.title("DBSCAN Clustering")
plt.show()

运行上述代码的输出:

Silhouette Score: 0.682

在这里插入图片描述

参数释义:

  • eps:指定形成簇的最大距离(邻域的半径)。
  • min_samples:形成一个簇所需的最小样本数。

4、 总结

本篇以KMeans、AgglomerativeClustering、DBSCAN为例,从代码层面讲述机器学习中的聚类分析,同时使用轮廓系数评估了聚类效果。每种算法都有其独特的优缺点,适用于不同类型的数据集。在实际应用中,选择合适的聚类算法和优化参数是获得良好聚类效果的关键。通过可视化和评估指标,可以更好地理解聚类结果的质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26997.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MybatisPlus详细使用

文章目录 一、Mybatis Plus的使用步骤二、常见注解三、常见配置四、核心功能4.1、条件构造器4.2、自定义sql4.3、Service接口 五、LambdaQueryWrapper常用方法详解 一、Mybatis Plus的使用步骤 1、引入MybatisPlus的起步依赖 MyBatisPlus官方提供了starter,其中集成…

Spring项目-抽奖系统(实操项目-用户管理接口)(END)

^__^ (oo)\______ (__)\ )\/\ ||----w | || || 一:前言: 活动创建及展示博客链接:Spring项目-抽奖系统(实操项目-用户管理接口)(THREE)-CSDN博客 上一次完成了活动的创建和活动的展示,接下来就是重头戏—…

宝塔webhooks与码云实现自动部署

1. 宝塔面板配置Webhook 登录宝塔面板,进入「软件商店」→ 搜索「Webhook」并安装。添加Webhook: 名称:自定义(如 Gitee自动部署)脚本:编写部署脚本,示例如下:#!/bin/bash# 项目路径…

springboot之集成Elasticsearch

目录 二、Elasticsearch 是什么?三、Elasticsearch 安装四、Springboot 集成 Elasticsearch 的方式五、创建项目集成 Elasticsearch 2.创建 Spring Initializr 项目 es (3).新建实体类 User(4).新建 dao 接口类 UserR…

FFmpeg入门:最简单的音频播放器

FFmpeg入门:最简单的音频播放器 欢迎大家来到FFmpeg入门的第二章,今天只做一个最简单的FFmpeg音频播放器;同样,话不多说,先上流程图 流程图 以上流程和视频播放器的解码过程基本上是一致的; 不同点在于 S…

Hive-08之数据仓库之建模、分析

一、目标 掌握数据仓库基本概念熟悉数据仓库的模型建立 二、知识要点 1. 数据仓库基本介绍 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)…

【前端基础】3、HTML的常用元素(h、p、img、a、iframe、div、span)、不常用元素(strong、i、code、br)

HTML结构 一个HTML包含以下部分&#xff1a; 文档类型声明html元素 head元素body元素 例&#xff08;CSDN&#xff09;&#xff1a; 一、文档类型声明 HTML最一方的文档称为&#xff1a;文档类型声明&#xff0c;用于声明文档类型。即&#xff1a;<!DOCTYPE html>…

车载以太网-基于linux的ICMP协议

对于车载以太网-ICMP的技术要求: /** ICMP报文格式解析* -----------------* ICMP协议用于网络诊断和错误报告,常见应用包括Ping测试。* ICMP报文结构包括:IP头部、ICMP头部和ICMP数据部分。* 下面详细介绍每个部分的结构、字段的作用以及如何解析它们。* * ICMP头部结构:*…

Let‘s Encrypt 获取免费SSL证书

1、Lets Encrypt Lets Encrypt 官网点击这里 &#xff1a; 她推荐使用 Certbot 客户端请求证书&#xff0c;直接访问 Certbot 站点开干 &#xff1a; Certbot 2、Certbot 站点首页上直接选择操作系统和服务器软件&#xff0c;页面直接给出操作步骤 非常简单&#xff0c;…

tin这个单词怎么记

英语单词 tin&#xff0c;一般用作名词&#xff0c;意为“罐头&#xff1b;锡”&#xff1a; tin n.锡&#xff1b;罐头&#xff1b;罐&#xff1b;罐头盒&#xff1b;(盛涂料、胶水等的)马口铁罐&#xff0c;白铁桶&#xff1b;罐装物&#xff1b;金属食品盒&#xff1b;烘焙…

(十 三)趣学设计模式 之 模版方法模式!

目录 一、 啥是模板方法模式&#xff1f;二、 为什么要用模板方法模式&#xff1f;三、 模板方法模式的实现方式四、 模板方法模式的优缺点五、 模板方法模式的应用场景六、 总结 &#x1f31f;我的其他文章也讲解的比较有趣&#x1f601;&#xff0c;如果喜欢博主的讲解方式&a…

GitLab Pages 托管静态网站

文章目录 新建项目配置博客添加 .gitlab-ci.yml其他配置 曾经用 Github Pages 来托管博客内容&#xff0c;但是有一些不足&#xff1a; 在不科学上网的情况下&#xff0c;是没法访问的&#xff0c;或者访问速度非常慢代码仓库必须是公开的&#xff0c;如果设置为私有&#xff0…

redis --- 相关基础知识整理

目录 一、基本1、数据结构2、有序集合的编码1. 压缩列表&#xff08;Ziplist&#xff09;2. 跳跃列表&#xff08;SkipList&#xff09;3. 动态转换机制 二、应用场景三、持久化1、 RDB 持久化2、 AOF 持久化3、 混合持久化&#xff08;RDB AOF&#xff09;4、 RDB和AOF的对比…

想学大模型,但分不清longchain,huggingface,ollama各种工具之间区别?

总结就一句话&#xff0c;按需选择。 1. Hugging Face&#xff1a;AI 模型的“GitHub” Hugging Face 是 开源模型的集散地&#xff0c;相当于大模型界的 GitHub。这里有数万个预训练模型&#xff08;比如 Llama、Mistral&#xff09;&#xff0c;覆盖文本生成、翻译、代码补全…

开源PDF解析工具olmOCR

olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具&#xff0c;旨在将PDF文件和其他文档高效地转换为纯文本&#xff0c;同时保留自然的阅读顺序。它支持表格、公式、手写内容等。 olmOCR 经过学术论文、技术文档和其他文档…

基于Spring Boot和Vue的餐饮管理系统设计与实现

大家好&#xff0c;今天要和大家聊的是一款基于Spring Boot和Vue的餐饮管理系统的设计与实现。项目源码以及部署相关事宜请联系我&#xff0c;文末附上联系方式。 项目简介 基于Spring Boot和Vue的餐饮管理系统设计与实现的主要使用者分为管理员、员工和用户。没有授权的用户无…

HTTP/2 服务器端推送:FastAPI实现与前端集成指南

HTTP/2 服务器端推送&#xff1a;FastAPI实现与前端集成指南 注意&#xff1a;本文末尾附有完整示例代码&#xff0c;文中仅展示核心关键代码。完整代码可在GitHub仓库获取。 本文将会讲解HTTP2协议和相关配置实践。但是不要混淆&#xff0c;SSE的实现完全基于HTTP/1.1的持久连…

二、QT和驱动模块实现智能家居-----4、编译Qt程序并运行

一、编译QT程序 第1步 修改界面&#xff1a; 双击左侧的 Forms 里的 mainwindow.ui 文件&#xff0c;打开 Design 视图。 然后如下图所示&#xff0c;从左侧Display Widgets 栏目下&#xff0c;拖动 Label 和 PushPutton到中间的区域。 第2步 添加测试代码&#xff1a; 第3步…

HTTP四次挥手是什么?

四次挥手&#xff0c;这是TCP协议用来关闭连接的过程。四次挥手是确保两个主机之间能够安全、可靠地关闭连接的重要机制。我会用简单易懂的方式来讲解&#xff0c;帮助你理解它的原理和过程。 1. 什么是四次挥手&#xff1f; 定义 四次挥手是TCP协议用来关闭连接的过程。它通…

java+jvm笔记

JUC synchornized原理&#xff08;java锁机制&#xff09;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 升级顺序&#xff1a; 无锁偏向锁&#xff0c;只有一个线程来访问轻量级锁&#xff0c;有两个线程交替访问重锁&#xff0c;两个及以上线…