机器学习:K-means算法(内有精彩动图)

目录

前言

一、K-means算法

1.K-means算法概念

2.具体步骤

3.精彩动图

4.算法效果评价

二、代码实现

1.完整代码

2.结果展示

3.步骤解析

1.数据预处理

2.建立并训练模型

3.打印图像

四、算法优缺点

1.优点

2.缺点

总结


前言

        机器学习里除了分类算法,回归算法,还有聚类算法,这里讲的k均值算法便是其中一种

 

一、K-means算法

1.K-means算法概念

        K均值(K-Means)算法是一种常见的聚类算法,用于将数据集分成预定数量的簇(k个簇)。算法的目标是将数据点划分到k个簇中,以最小化簇内数据点之间的平方距离的总和。

 

2.具体步骤

  1. 初始化簇中心

    随机选择k个数据点作为初始簇中心,或者通过某些启发式方法选择。
  2. 分配数据点

    将每个数据点分配到离它最近的簇中心所对应的簇中。
  3. 更新簇中心

    计算每个簇内所有数据点的均值,并将簇中心更新为这个均值。
  4. 重复

    重复步骤2和3,直到簇中心的变化非常小或达到最大迭代次数为止。
  5. 结束

    算法收敛,簇中心不再变化或变化非常小,最终得到的簇划分即为聚类结果。

 

3.精彩动图

 

4.算法效果评价

  • 轮廓系数(Silhouette Score)是用于评估聚类效果的指标。它衡量了数据点在其簇内的一致性和与其他簇的分隔度。轮廓系数的值范围从 -1 到 1,值越高表示聚类效果越好。

 

 

二、代码实现

1.完整代码

  • 代码完成的是对学生的分类
import pandas as pd# data = pd.read_csv('data.txt', sep=' ')
# x = data.iloc[:, 1:5]from sklearn.preprocessing import StandardScalerdata = pd.read_csv('datingTestSet2.txt', sep='\t', header=None)
x = data.iloc[:, 0:3]
std = StandardScaler()
x = std.fit_transform(x)
"""
根据分成不同的簇,自动计算轮廓系数得分
"""
from sklearn.cluster import KMeans
from sklearn import metricsscores = []
for k in range(2, 10):   # 选取最佳的簇数labels = KMeans(n_clusters=k).fit(x).labels_  # 簇标签score = metrics.silhouette_score(x, labels)  # 轮廓系数scores.append(score)
print(scores)
best_k = scores.index(max(scores)) + 2
print(best_k)
labels = KMeans(n_clusters=best_k).fit(x).labels_
score = metrics.silhouette_score(x, labels)
print(labels, score)import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体
plt.rcParams['axes.unicode_minus'] = False  # 解决符号显示为方块的问题
# 绘制轮廓系数得分与簇数量的关系图
plt.figure(figsize=(8, 6))
plt.plot(range(2, 10), scores, marker='o')
plt.xlabel('簇数量 (k)')
plt.ylabel('轮廓系数')
plt.title('簇数量与轮廓系数')
plt.xticks(range(2, 10))
plt.grid(True)
plt.show()# 打印最佳簇数量
best_k = scores.index(max(scores)) + 2
print(f"最佳簇数量: {best_k}")

 

2.结果展示

  • 因为数据比较分散,所以轮廓系数比较低

 

3.步骤解析

1.数据预处理

  1. 导入pands库
  2. 导入数据,取出特征数据
  3. 对数据进行标准化
import pandas as pd# data = pd.read_csv('data.txt', sep=' ')
# x = data.iloc[:, 1:5]from sklearn.preprocessing import StandardScalerdata = pd.read_csv('datingTestSet2.txt', sep='\t', header=None)
x = data.iloc[:, 0:3]
std = StandardScaler()
x = std.fit_transform(x)

 

2.建立并训练模型

  • 利用for循环找到模型内某个参数在某个范围内的最佳值
"""
根据分成不同的簇,自动计算轮廓系数得分
"""
from sklearn.cluster import KMeans
from sklearn import metricsscores = []
for k in range(2, 10):   # 选取最佳的簇数labels = KMeans(n_clusters=k).fit(x).labels_  # 簇标签score = metrics.silhouette_score(x, labels)  # 轮廓系数scores.append(score)
print(scores)
best_k = scores.index(max(scores)) + 2
print(best_k)
labels = KMeans(n_clusters=best_k).fit(x).labels_
score = metrics.silhouette_score(x, labels)
print(labels, score)

 

3.打印图像

import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体
plt.rcParams['axes.unicode_minus'] = False  # 解决符号显示为方块的问题
# 绘制轮廓系数得分与簇数量的关系图
plt.figure(figsize=(8, 6))
plt.plot(range(2, 10), scores, marker='o')
plt.xlabel('簇数量 (k)')
plt.ylabel('轮廓系数')
plt.title('簇数量与轮廓系数')
plt.xticks(range(2, 10))
plt.grid(True)
plt.show()

 

 

四、算法优缺点

1.优点

  • 简单易实现。
  • 计算效率较高,适用于大规模数据集。

 

2.缺点

  • 需要事先指定k的值,且k的选择可能影响结果。
  • 对初始簇中心敏感,可能会收敛到局部最优解。
  • 不适用于具有非凸形状簇的数据集。
  • 对噪声和异常值敏感。

 

总结

        K均值是一种迭代的聚类算法,旨在将数据集分成k个簇,使得每个簇的内部数据点尽可能相似,而不同簇的数据点尽可能不同。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/410374.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用ssm实现计算机科学与技术学习网站的设计与开发

TOC ssm248计算机科学与技术学习网站的设计与开发jsp 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进行科学化&…

尝试给OpenHarmony4.0增加可以在动态库中使用的日志模块

尝试给OpenHarmony4.0增加可以在动态库中使用的日志模块 前言一、资源来源二、实践步骤1.修改OH内核并编译2.动态库增加welog打印3.设备验证打完收工 总结参考 前言 最近在搞OpenHarmony4.0蓝牙模块的适配,最主要的工作就是在libbt_vendor.z.so这个库的编写修改&am…

AWS 使用 Amazon EC2 控制台安装和配置 CloudWatch 代理以添加其他指标如内存

默认情况下,Amazon CloudWatch 提供基本指标(例如 CPUUtilization 和 NetworkIn)用于监控 Amazon EC2 实例。要收集其他指标,您可以在 EC2 实例上安装 CloudWatch 代理,然后将该代理配置为发出所选指标。您可以使用 Am…

网络安全售前入门04——审计类产品了解

目录 1.前言 2.数据库审计介绍 2.1产品架构功能 2.2应用场景 2.3部署形式 2.4产品价值 2.5选型依据 1.前言 为方便初接触网络安全售前工作的小伙伴了解网安行业情况,我制作一系统售前入门(安全产品,安全服务,法律法规等)文章介绍,希望能给初进网安职场的小伙伴提供…

【Qt】Qt系统 | Qt事件 | 定时器

文章目录 定时器QTimerEventQTimer获取系统日期及时间 定时器 Qt 中在进行窗口程序的处理过程中,经常要周期性的执行某些动作,或者制作一些动画效果,使用定时器可以实现这些需求。 定时器,会在间隔一定时间后,执行某一…

Git下载安装配置

Git的下载与安装 Git是一种分布式版本控制系统,用于跟踪文件和文件夹的变化。它最初由Linus Torvalds开发,用于管理Linux内核的源代码。Git的设计目标是:速度快、开发效率高、数据完整性和可靠性强。 Git通过创建一个存储库(rep…

【FESCO福利专区-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

什么领域/方向的产品经理既有发展前景又能做的长久

前几天我在知乎上回答了一道“目前什么领域的产品经理比较有发展前景?有推荐的课程吗?”的问题,讲得还比较实在,于是在这里也顺便分享一下。 TOP1.商业产品经理 之所以这个方向能排在第1,我认为有3点理由。 第1点&a…

国产游戏技术能否引领全球?

国产游戏技术:引领全球还是任重道远? 近年来,伴随着中国科技和经济的迅猛发展,国产游戏行业也呈现出蓬勃发展的态势。从《原神》到《黎明杀机手机版》,多款国产游戏在国际市场上崭露头角。而国产游戏在画面渲染、物理…

基于layui实现简单的万智牌生命计数器页面

对照手机App“旅法师营地”的万智牌生命计数器窗口(如下图所示),使用layui、jQuery等实现简单的万智牌生命计数器页面。   主要实现的功能如下:   1)点击左右两侧的-1、1、-5、5区域更新左右两侧生命值&#xff1…

短视频SDK解决方案,代码逻辑结构清晰,接入便捷

美摄科技凭借其在多媒体处理领域的深厚积累,推出了高效、易用的短视频SDK解决方案,为开发者及内容创作者提供了一站式的短视频创作与编辑工具,让每一份灵感都能轻松转化为引人入胜的视觉盛宴。 一、技术领先,打造极致体验 美摄科…

DNS详解

DNS详解 DNS 是一个域名系统,它主要用于将人类容易记忆的域名转换成ip地址。 默认情况下,设备会自动从网络供应商获取DNS服务器地址,并使用DNS服务器对域名进行解析。 此外,你也可以手动设置DNS服务器,具体操作系统…

反射机制简单基础

前序 在我们没有学习框架之前我们都是通给new来创建对象,如:创建一个我们已知的对象 Car carnew Car(); 调用类中的成员变量和成员方法都是对象直接调用。 在学习了mybatis框架后,我们了解到可以通过类名,能动态得到类中定义的…

基于x86 平台opencv的图像采集和seetaface6的静默活体功能

目录 一、概述二、环境要求2.1 硬件环境2.2 软件环境三、开发流程3.1 编写测试3.2 配置资源文件3.3 验证功能一、概述 本文档是针对x86 平台opencv的图像采集和seetaface6的静默活体功能,opencv通过摄像头采集视频图像,将采集的视频图像送给seetaface6的静默活体模块从而实现…

量化四大邪术之一:般若波罗蜜

网络相传亚洲有四大邪术,日本化妆,韩国整容,泰国变X,Z国PS。 这些都是让人在颜值上看起来很美,类似地,在量化交易领域,也有四大邪术能让净值曲线看起来很美,今儿个来说量化四大邪术当…

一文弄懂MySQL中的锁

MySQL中的锁概述 MySQL中的锁机制是数据库管理系统用于控制并发操作的一种手段,主要用于保证数据的一致性和完整性。当多个事务同时操作同一数据时,锁机制可以防止数据冲突和确保事务的隔离性。 在MySQL中,锁可以分为三大类:全局…

前端自动导入依赖

前言 开发中通常会有很多导入语句&#xff0c;如何确保一些通用的api和hook无需每次手动导入即可使用。 <script setup lang"ts"> import { ref, reactive } from "vue" import { useRoute, useRouter } from "vue-router" import { log…

在多云生态下,如何实现跨云的自动化身份管理?

在多云环境下实现跨云的自动化身份管理是一个重要的课题&#xff0c;因为这可以帮助企业确保用户和应用程序能够在不同云服务提供商之间无缝地访问资源&#xff0c;同时保持高度的安全性和合规性。以下是一些关键技术和实践方法&#xff0c;用于实现跨云环境下的自动化身份管理…

Go学习笔记(一)语法

标准库文档&#xff1a;Go语言标准库文档中文版 | Go语言中文网 | Golang中文社区 | Golang中国 B站课程&#xff1a;8小时转职Golang工程师(如果你想低成本学习Go语言) 课程作者语雀&#xff08;首页有更多内容&#xff09;&#xff1a;8小时转职Golang工程师 语雀 代码仓…

关于武汉芯景科技有限公司的多协议收发芯片XJ526(第二篇RS422模式)开发指南(兼容SP526)

一、设置芯片为RS422模式 SP526 包含高度集成的串行收发器。SP526 提供 RS-232 &#xff08;V.28&#xff09;、RS-423 &#xff08;V.10&#xff09;、RS-422 &#xff08;V.11&#xff09; 和 RS-485 的硬件接口模式。接口模式选择通过两个控制引脚D0、D1完成。 我们将D0接…