【机器学习】在Python中进行K-Means聚类和层次聚类

文章目录

  • Python中聚类算法API的使用指南
    • K-Means 聚类
      • 步骤一:导入必要的库
      • 步骤二:加载数据
      • 步骤三:应用K-Means聚类
      • 步骤四:保存聚类结果
    • 层次聚类
      • 步骤一:导入库
      • 步骤二:加载数据并计算距离矩阵
      • 步骤三:执行层次聚类
      • 步骤四:确定聚类数并保存结果
      • 步骤五:绘制树状图并保存
        • 层次聚类的树状图
    • 利用PCA降维以可视化聚类结果
      • 绘图函数(可直接复制,然后按下文调用)
      • 示例调用
      • 2D可视化
        • K-Means聚类结果
        • 层次聚类结果
      • 3D可视化
        • K-Means聚类结果
        • 层次聚类结果

Python中聚类算法API的使用指南

聚类分析是数据分析中一种常见的无监督学习方法,通过将相似的对象分组在一起,我们能够识别出数据集中的自然分群。本文将介绍如何使用Python中的聚类算法接口,KMeans层次聚类方法。

本文聚类示例的中药数据链接

K-Means 聚类

K-Means是一种广泛使用的聚类算法,它的目标是将数据点分成K个组,使得组内的点彼此相似,而组间的点不相似。在本文中K值为3,代码中表现为n_clusters=3。下面是如何使用K-Means聚类分析的步骤:

步骤一:导入必要的库

首先,需要导入KMeans类,它在sklearn.cluster模块中。

from sklearn.cluster import KMeans

步骤二:加载数据

我们使用pandas库来加载数据。确保数据文件的路径是正确的。

CLUS_FILE_PATH是你的数据路径,请替换。

import pandas as pddf = pd.read_excel(CLUS_FILE_PATH, index_col=0)

步骤三:应用K-Means聚类

创建一个KMeans实例,并通过.fit()方法应用于数据。

kmeans = KMeans(n_clusters=3, random_state=0).fit(df)

步骤四:保存聚类结果

将聚类标签添加到原始数据框中,并保存到Excel文件。

df['Cluster'] = kmeans.labels_
df.to_excel('kmeans聚类分析结果.xlsx')

层次聚类

层次聚类是另一种常见的聚类方法,它通过构建一个多层次的嵌套分群树来组织数据,这个树被称为树状图(Dendrogram)。相对于K-Means,层次聚类不需要指定k值就可以完成聚类,但是要分类出标签的话,我们需要指定一个最大距离,如果两个样本超出这个最大距离则不属于同一类。

步骤一:导入库

导入进行层次聚类和绘制树状图所需的库。

from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
from scipy.spatial.distance import pdist

步骤二:加载数据并计算距离矩阵

同样地,我们先加载数据,然后计算距离矩阵,使用欧式距离。

df = pd.read_excel(CLUS_FILE_PATH, index_col=0)
distance_matrix = pdist(df, metric='euclidean')

步骤三:执行层次聚类

使用linkage函数进行层次聚类,这里采用了’ward’方法。

Z = linkage(distance_matrix, method='ward')

步骤四:确定聚类数并保存结果

通过选择一个最大距离阈值来确定聚类数,并把聚类结果保存到Excel。

clusters = fcluster(Z, max_d=50, criterion='distance')
df['Cluster'] = clusters
df.to_excel('层次聚类分析结果.xlsx')

步骤五:绘制树状图并保存

最后,利用dendrogram函数绘制树状图,并保存为图片。

plt.figure(figsize=(10, 50))
dendrogram(Z, orientation='left', labels=df.index, leaf_rotation=0, leaf_font_size=10)
plt.title('层次聚类的树状图')
plt.ylabel('中药名称')
plt.xlabel('距离')
plt.tight_layout()
plt.savefig('层次聚类树状图.png')
plt.show()
层次聚类的树状图

我们可以看到,各个中药被层次聚类组织成了一颗一颗嵌套的树,这些树描述了不同中药之间的距离关系。
在这里插入图片描述

上面的步骤展示了如何使用Python进行K-Means聚类和层次聚类分析。聚类是一个强大的工具,可以帮助我们发现数据中的模式和结构。通过实践这些步骤,你会对聚类分析有更深的了解。

利用PCA降维以可视化聚类结果

绘图函数(可直接复制,然后按下文调用)

def plot_clus_2D(clustered_data, class_col, method):n_clusters = clustered_data[class_col].nunique()# 执行PCA降维,降至2维pca = PCA(n_components=2)data_reduced = pca.fit_transform(clustered_data.drop(columns=[class_col]))# 创建一个新的DataFrame来保存降维后的数据和聚类标签data_2D = pd.DataFrame(data_reduced, columns=['PC1', 'PC2'])data_2D[class_col] = clustered_data[class_col].values# 设置绘图参数fig, ax = plt.subplots(figsize=(10, 8))# 为每个聚类设置不同的颜色colors = ['red', 'green', 'blue']  # 你可以根据需要的聚类数修改颜色if n_clusters > 3:  # 如果聚类数超过3,扩展颜色列表import matplotlib.colors as mcolorscolors = list(mcolors.TABLEAU_COLORS.values())[:n_clusters]# 绘制每个聚类的散点图for i in range(n_clusters):# 从聚类数据中提取当前聚类的数据cluster_data = data_2D[data_2D[class_col] == i]# 绘制散点图ax.scatter(cluster_data['PC1'], cluster_data['PC2'],color=colors[i], label=f'Cluster {i}', alpha=0.5)# 添加图例和标题ax.legend()ax.set_title(f'{method} 聚类结果 - PCA降维可视化(2D)')ax.set_xlabel('Principal Component 1')ax.set_ylabel('Principal Component 2')# 显示图表save_path = os.path.join(IMAGE_FOLDER, f'{method} 聚类结果 - PCA降维可视化(2D).png')plt.savefig(save_path)plt.show()def plot_clus_3D(clustered_data, class_col, method):""":param clustered_data: 带有聚类结果标签的数据集:param class_col: 代表聚类结果的列名:param n_clusters: 有多少个:param method::return:"""n_clusters = clustered_data[class_col].nunique()# 执行PCA降维,降至3维pca = PCA(n_components=3)data_reduced = pca.fit_transform(clustered_data.drop(columns=[class_col]))# 创建一个新的DataFrame来保存降维后的数据和聚类标签data_3D = pd.DataFrame(data_reduced, columns=['PC1', 'PC2', 'PC3'])data_3D[class_col] = clustered_data[class_col].values# 设置绘图参数fig = plt.figure(figsize=(10, 8))ax = fig.add_subplot(111, projection='3d')# 为每个聚类设置不同的颜色colors = ['red', 'green', 'blue']  # 根据需要的聚类数修改颜色if n_clusters > 3:  # 如果聚类数超过3,扩展颜色列表import matplotlib.colors as mcolorscolors = list(mcolors.TABLEAU_COLORS.values())[:n_clusters]# 绘制每个聚类的散点图for i in range(n_clusters):# 从聚类数据中提取当前聚类的数据cluster_data = data_3D[data_3D[class_col] == i]# 绘制散点图ax.scatter(cluster_data['PC1'], cluster_data['PC2'], cluster_data['PC3'],color=colors[i], label=f'Cluster {i}', alpha=0.5)# 添加图例和标题ax.legend()ax.set_title(f'{method} 聚类结果 - PCA降维可视化(3D)')ax.set_xlabel('Principal Component 1')ax.set_ylabel('Principal Component 2')ax.set_zlabel('Principal Component 3')# 显示图表save_path = os.path.join(IMAGE_FOLDER, f'{method}_聚类结果_PCA降维可视化(3D).png')plt.savefig(save_path)plt.show()

示例调用

clus_data = pd.read_excel('kmeans聚类分析结果.xlsx', index_col=0)
plot_clus_2D(clustered_data=clus_data, class_col='Cluster', method='K-means')
plot_clus_3D(clustered_data=clus_data, class_col='Cluster', method='K-means')clus_data = pd.read_excel('层次聚类分析结果.xlsx', index_col=0)
plot_clus_2D(clustered_data=clus_data, class_col='Cluster', method='层次聚类')
plot_clus_3D(clustered_data=clus_data, class_col='Cluster', method='层次聚类')

2D可视化

K-Means聚类结果

在这里插入图片描述

层次聚类结果

在这里插入图片描述

3D可视化

K-Means聚类结果

在这里插入图片描述

层次聚类结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/274867.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MyBatis拦截器四种类型和自定义拦截器的使用流程

文章目录 MyBatis拦截器四种类型和自定义拦截器的使用流程一、MyBatis拦截器四种类型的详细解释:1. **ParameterHandler 拦截器**:2. **ResultSetHandler 拦截器**:3. **StatementHandler 拦截器**:4. **Interceptor Chain 拦截器…

Threejs粒子水波纹效果

依赖 three(这个重要)react (这个不重要)ahooks(这个不重要)unocss(这个不重要) 效果 代码 import React, { useEffect, useRef } from react; import { useGetState } from ahoo…

数据结构---C语言栈队列

知识点: 栈: 只允许在一端进行插入或删除操作的线性表,先进后出LIFO 类似一摞书,按顺序拿,先放的书只能最后拿; 顺序栈:栈的顺序存储 typedef struct{Elemtype data[50];int top; }SqStack; SqS…

Java实现自定义Hive认证账户密码

一、业务背景 在搭建好Hive环境后,应用项目远程连接hive需要设置用户名和密码,但hive默认的用户名和密码都是空,因此需要设置自定义用户名和密码。 二、开发步骤 2.1 新建maven项目,pom.xml引入相关依赖,主要是hadoop、…

RabbitMQ 面试题及答案整理,最新面试题

RabbitMQ的核心组件有哪些? RabbitMQ的核心组件包括: 1、生产者(Producer): 生产者是发送消息到RabbitMQ的应用程序。 2、消费者(Consumer): 消费者是接收RabbitMQ消息的应用程序…

计算机网络——计算机网络的性能

计算机网络——计算机网络的性能 速率带宽吞吐量时延时延宽带积往返时间RTT利用率信道利用率网络利用率 我们今天来看看计算机网络的性能。 速率 速率这个很简单,就是数据的传送速率,也称为数据率,或者比特率,单位为bit/s&#…

Midjourney绘图欣赏系列(七)

Midjourney介绍 Midjourney 是生成式人工智能的一个很好的例子,它根据文本提示创建图像。它与 Dall-E 和 Stable Diffusion 一起成为最流行的 AI 艺术创作工具之一。与竞争对手不同,Midjourney 是自筹资金且闭源的,因此确切了解其幕后内容尚不…

信息安全、网络安全以及数据安全三者之间的区别

随着信息技术的飞速发展,网络安全、信息安全、数据安全等词汇在平时出现的频率越来越高,尤其是数据安全,是大家都关心的一个重要话题。事实上,有很多人对网络安全、信息安全、数据安全的概念是区分不清的,下面由我帮大…

吴恩达深度学习笔记:深度学习引言1.1-1.5

目录 第一门课:神经网络和深度学习 (Neural Networks and Deep Learning)第一周:深度学习引言(Introduction to Deep Learning)1.1 欢迎(Welcome)1.2 什么是神经网络?(What is a Neural Network)1.3 神经网络的监督学习(Supervised Learning …

【PyQT/Pysider】控件背景渐变

默认渐变配色说明 background-color: qlineargradient(spread:pad, x1:0, y1:0, x2:1, y2:0, stop:0 rgba(255, 178, 102, 255), stop:0.55 rgba(235, 148, 61, 255), stop:0.98 rgba(0, 0, 0, 255), stop:1 rgba(0, 0, 0, 0));这段样式表使用了qlineargradient函数来创建…

Dynamic Wallpaper v17.4 mac版 动态视频壁纸 兼容 M1/M2

Dynamic Wallpaper Engine 是一款适用于 Mac 电脑的视频动态壁纸, 告别单调的静态壁纸,拥抱活泼的动态壁纸。内置在线视频素材库,一键下载应用,也可导入本地视频,同时可以将视频设置为您的电脑屏保。 应用介绍 Dynam…

chatgpt与人类有何不同?

ChatGPT和人类之间存在多个显著的差异。 首先,ChatGPT是一种基于人工智能技术的计算机程序,通过机器学习和自然语言处理等技术,从大量的数据中获取知识并生成语言输出。它主要依赖于算法和数据进行工作,能够迅速处理和检索信息&a…

Objective-C blocks 概要

1.block的使用 1.1什么是block? Blocks是C语言的扩充功能:带有自动变量(局部变量)的匿名函数。 “带有自动变量”在Blocks中表现为“截取自动变量" “匿名函数”就是“不带名称的函数” 块,封装了函数调用及调用…

制造行业大数据应用:四大领域驱动产业升级与智慧发展

一、大数据应用:制造行业的智慧引擎 随着大数据技术的不断突破与普及,制造行业正迎来一场前所未有的变革。大数据应用,如同智慧引擎一般,为制造行业注入了新的活力,推动了产业升级与创新发展。 二、大数据应用在制造行…

【DDR】DDR4学习记录

这里以美光DDR4芯片 MT40A512M16HA-075E datasheet 为例,说明DDR4存储器的原理及仿真。   根据开发板手册ug1302,在vcu128(xcvu37p)开发板上,共具有5块DDR4芯片,在数据信号上4块DDR4具有16位数据线&#…

OpenCV实战--人脸识别的三种方法(人脸识别具体到某个人)

1、前言 Opencv 中提供了三种人脸识别的方法,分别是 Eigenfaces、Fisherfaces和LBPH 三种方法都是通过对比样本特征最终实现人脸识别 因为三种算法特征提取的方式不一样,侧重点均有不同,并不能说那种方式优越,这里对三种方法进行讲解和实验 这里类似于深度学习模式,通过…

CSS 弹性盒子模型

CSS3弹性盒内容 弹性盒子由弹性容器(Flex container)和弹性子元素(Flex item)组成弹性容器通过设置display属性的值为flex将其定义为弹性容器弹性容器内包含了一个或多个弹性子元素 温馨提示:弹性容器外及弹性子元素内是正常渲染的。弹性盒子只定义了弹性子元素如何…

记事小本本

记事小本本 实现效果 相关代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</titl…

【Linux进阶之路】HTTP协议

文章目录 一、基本概念1.HTTP2.域名3.默认端口号4.URL 二、请求与响应1.抓包工具2.基本框架3.简易实现3.1 HttpServer3.2 HttpRequest3.2.1 version13.2.2 version23.2.3 version3 总结尾序 一、基本概念 常见的应用层协议&#xff1a; HTTPS (HyperText Transfer Protocol Sec…

DVWA靶场-暴力破解

DVWA是一个适合新手锻炼的靶机&#xff0c;是由PHP/MySQL组成的 Web应用程序&#xff0c;帮助大家了解web应用的攻击手段 DVWA大致能分成以下几个模块&#xff0c;包含了OWASP Top 10大主流漏洞环境。 Brute Force——暴力破解 Command Injection——命令注入 CSRF——跨站请…