机器学习-聚类问题

机器学习-聚类问题

news/2024/12/25 23:47:28/文章来源:https://blog.csdn.net/y3over/article/details/134879819

前言

聚类算法又叫做”无监督分类“，目标是通过对无标记训练样本来揭示数据的内在性质及规律，为进一步的数据分析提供基础。

Kmeans

作为聚类算法的典型代表，Kmeans可以说是最简单的聚类算法，没有之一，那她是怎么完成聚类的呢?

算法接受参数k
给定样本集 $D=\{x_1,x_2,...,x_n\}$
随机选点k个中心(质心)
遍历样本集,先取距离最近的质心,从而根据质心分解样本集D簇划分 $C=\{C_1,C_2,...,C_k\}$
最小化平方误差
利用簇中均值等方法更新该簇类的中心k个；
重覆4-6的步骤,直至E不再更新

Kmeans中用的是欧式距离

kmeans的计算过程

现在有4组数据，每组数据有2个维度，对其进行聚类分为2类，将其可视化一下。
通过比较，将其进行归类。并使用平均法更新中心位置。
再次计算每个点与更新后的位置中心的距离,直到上一次的类别标记无变化，即可停止

import matplotlib.pyplot as plt
from sklearn.cluster import  KMeans
from sklearn.datasets import make_blobs## 创建数据集
X, _ = make_blobs(n_samples=10000, centers=2, random_state=0)## kmeans超参数值列表
n_clusters_list = [4, 8, 16]# 图的框架
fig, axs = plt.subplots(1, len(n_clusters_list), figsize=(12, 5)
)
axs = axs.T
for j, n_clusters in enumerate(n_clusters_list):## 创建模型algo = KMeans(n_clusters=n_clusters, random_state=random_state, n_init=3)algo.fit(X)centers = algo.cluster_centers_axs[j].scatter(X[:, 0], X[:, 1], s=10, c=algo.labels_)## 画质心axs[j].scatter(centers[:, 0], centers[:, 1], c="r", s=20)axs[j].set_title(f"{n_clusters} clusters")
for ax in axs.flat:ax.label_outer()ax.set_xticks([])ax.set_yticks([])
plt.show()

聚类算法用于降维

K-Means聚类最重要的应用之一是非结构数据（图像，声音）上的矢量量化（VQ）。非结构化数据往往占用比较多的储存空间，文件本身也会比较大，运算非常缓慢，我们希望能够在保证数据质量的前提下，尽量地缩小非结构化数据的大小，或者简化非结构化数据的结构。

一组40个样本的数据，分别含有40组不同的信息(x1,x2)。
将代表所有样本点聚成4类，找出四个质心.这些点和他们所属的质心非常相似，因此他们所承载的信息就约等于他们所在的簇的质心所承载的信息。
使用每个样本所在的簇的质心来覆盖原有的样本，有点类似四舍五入的感觉，类似于用1来代替0.9和0.8。

这样，40个样本带有的40种取值，就被我们压缩了4组取值，虽然样本量还是40个，但是这40个样本所带的取值其实只有4个，就是分出来的四个簇的质心。查看官方用例

主要参考

《机器学习理论（十三）Kmeans聚类》

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/217786.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

WPF使用WebBrowser报脚本错误问题处理

WPF使用WebBrowser报脚本错误问题处理

前言 WPF使用WebBrowser报脚本错误问题处理，我们都知道WPF自带的WebBrowser都用的IE内核，但是在特殊的条件下我们还需要用到它，比如展示纯html简单的页面。再展示主流页面的时候比如用到Jquery高级库或者VUE等当前主流站点时经常就会报JS脚本错误，在Winform里面我们一句代…

阅读更多...

HTML如何使用图片链接

HTML如何使用图片链接

文章目录图片链接的使用常见图片类型PNGJPGGIFBMP 图片链接的使用在 HTML 中，图像由标签定义。是空标签，意思是说，它只包含属性，并且没有闭合标签。语法： <img src”图片路径" title“鼠标悬浮在图片上…

阅读更多...

UE4 UMG 颜色字体和PS对应关系

UE4 UMG 颜色字体和PS对应关系

与PS中对应的是Hex sRGB色号但是PS中采用的16进制色号为6位 UE4中的为8位 UMG制作时默认dpi为96像素/英寸，psd默认dpi是72像素/英寸。在GUI设计时将dpi设为96，或者将72dpi下字体的字号乘以0.75，都能还原效果图中的效果。

阅读更多...

C语言—每日选择题—Day47

C语言—每日选择题—Day47

第一题 1. 以下逗号表达式的值为（） (x 4 * 5, x * 5), x 25 A：25 B：20 C：100 D：45 答案及解析 D 本题考查的就是逗号表达式，逗号表达式是依次计算每个表达式，但是只输出最后一个表…

阅读更多...

Java架构师-数据机构与算法实战（第一篇）

Java架构师-数据机构与算法实战（第一篇）

数学知识回顾指数指数函数是重要的基本初等函数之一。一般地，ya^x函数(a为常数且以a>0，a≠1)叫做指数函数，函数的定义域是 R 。注意，在指数函数的定义表达式中，在a^x前的系数必须是数1，自变量x必须在…

阅读更多...

【STM32】电机驱动

【STM32】电机驱动

一、电机分类二、直流电机的分类 1.有刷电机 2.无刷电机 3.直流减速电机三、H桥电路正向旋转驱动Q1和Q4 反向旋转驱动Q2和Q3 四、MC3386电机驱动芯片 1.基本原理图 1）前进/后退：IN1和IN2的电平顺序决定电机的正反转 2）调节速度&#…

阅读更多...

【Spring】03 容器

【Spring】03 容器

文章目录 1. 定义2. BeanFactory1）惰性加载2）基本的容器功能3）XML配置 3. ApplicationContext1）主动加载2）AOP支持3）事件发布与监听4）国际化支持5）注解支持 4. Spring容器的生命周期…

阅读更多...

严世芸龟法养生经

严世芸龟法养生经

文章目录严世芸理念荤素搭配，不偏嗜动静结合心平气和龟息法严世芸严世芸，出生于1940年，现任上海中医药大学的主任医师，教授。他父亲是近代上海有名的中医，他又是著名医家张伯臾的亲传弟子。从小就在父亲诊室里长…

阅读更多...

Navicat 技术指引 | 适用于 GaussDB 分布式的日志查询与配置设置

Navicat 技术指引 | 适用于 GaussDB 分布式的日志查询与配置设置

Navicat Premium（16.3.3 Windows 版或以上）正式支持 GaussDB 分布式数据库。GaussDB 分布式模式更适合对系统可用性和数据处理能力要求较高的场景。Navicat 工具不仅提供可视化数据查看和编辑功能，还提供强大的高阶功能（如模型、结…

阅读更多...

phpy 连接 PHP与Python生态跨界合作 PHPY搭建已解决

phpy 连接 PHP与Python生态跨界合作 PHPY搭建已解决

目录需求介绍安装 windows版本文件地址运行效果需求介绍在日常功能开发中，难免会使用python的计算库，同时自己要是一名PHP开发工程师。就在最近有相应的需求，索性使用phpy来进行功能开发安装 windows版本 phpy 是识沃团队最新推出…

阅读更多...

【设计模式--结构型--桥接模式】

【设计模式--结构型--桥接模式】

设计模式--结构型--桥接模式桥接（Bridge）模式定义结构案例好处使用场景桥接（Bridge）模式定义将抽象与实现分离，使他们可以独立变化。它是用组合关系代替继承关系来实现，从而降低了抽象和实现这两个维…

阅读更多...

红帽认证RHCE9.0版本2023年12月的红帽9.0版本RHCSA题⽬+答案，本人已过，全国通用

红帽认证RHCE9.0版本2023年12月的红帽9.0版本RHCSA题⽬+答案，本人已过，全国通用

红帽认证9版本2023年12月的红帽9.0版本RHCSA题⽬答案，本人已过，全国通用需要完整的RHCSA和RHCE的考试答案的题目以及RHCE9考试的模拟环境和考试笔记教材的请添加微信，需备注来自csdn，不然通不过 1、配置⽹络设置? 将?node1?…

阅读更多...

docker-harbor的私有仓库

docker-harbor的私有仓库

目录 harbor的特性 harbor的组件 docker-harbor部署 Docker1 页面访问编辑上传镜像创建项目创建用户给项目创建成员上传私有仓库 docker2(远程主机上传) 如何实现仓库之间进行同步 docker3 实现远程仓库同步仓库保存镜像私有，自定义用户…

阅读更多...

音视频技术开发周刊 | 323

音视频技术开发周刊 | 323

每周一期，纵览音视频技术领域的干货。新闻投稿：contributelivevideostack.com。 Meta牵头组建开源「AI复仇者联盟」，AMD等盟友800亿美元力战OpenAI英伟达超过50家科技大厂名校和机构，共同成立了全新的人工智能联盟。以开源为旗号…

阅读更多...

C之不小心就犯错误1

C之不小心就犯错误1

以为会打印： it is ok 然而并不是： 原因： 根据C语言隐式类型转换的原理，如果是int型与uint型进行比较（其它类型同理），则会将int型数据转换为uint型，则-1变成了 2^32-1 429496729…

阅读更多...

qt-C++笔记之addAction和addMenu的区别以及QAction的使用场景

qt-C++笔记之addAction和addMenu的区别以及QAction的使用场景

qt-C笔记之addAction和addMenu的区别以及QAction的使用场景 code review! 文章目录 qt-C笔记之addAction和addMenu的区别以及QAction的使用场景1.QMenu和QMenuBar的关系与区别2.addMenu和addAction的使用场景区别3.将QAction的信号连接到槽函数4.QAction的使用场景5.将例1修改…

阅读更多...

编译和使用WPS-ghrsst-to-intermediate生成SST

编译和使用WPS-ghrsst-to-intermediate生成SST

一、下载 V1.0 https://github.com/bbrashers/WPS-ghrsst-to-intermediate/tree/masterV1.5（使用过程报错，原因不详，能正常使用的麻烦告知一下方法） https://github.com/dmitryale/WPS-ghrsst-to-intermediate二、修改makefile…

阅读更多...

AI人工智能在建筑智能化工程设计的应用

AI人工智能在建筑智能化工程设计的应用

AI人工智能在建筑智能化工程设计的应用相关政策： 建筑智能化工程设计资质是为了合理设计各种智能化系统，让它们有机地结合成为有效的整体作用。在工程设计标准中，智能化资质设计全称为建筑智能化系统专项设计资质。企业一旦具备智能化设计资…

阅读更多...

世微 AP5199降压恒流驱动IC 4--450V 6A调光恒流源LED驱动器

世微 AP5199降压恒流驱动IC 4--450V 6A调光恒流源LED驱动器

AP5199LED驱动器描述 AP5199是以恒定关断时间模式操作的平均电流模式控制LED驱动器IC。不像 AP5160，这种控制IC不会产生峰均误差，因此大大提高了精度、线性和 LED电流的负载调节，而不需要任何环路补偿或高侧电流感测。这个输出LED电流精度为…

阅读更多...

设计模式-门面模式（Facade）

设计模式-门面模式（Facade）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、定义二、结构前言在组件构建过程中，某些接口之间直接依赖会带来很多问题，甚至无法直接实现。采用一层间接接口，来隔离…

阅读更多...

最新文章

推荐文章