【Python/Pytorch 】-- K-means聚类算法

在这里插入图片描述
文章目录

文章目录

  • 00 写在前面
  • 01 基于Python版本的K-means代码
  • 02 X-means方法
  • 03 最小二乘法简单理解
  • 04 贝叶斯信息准则

00 写在前面

时间演变聚类算法:将时间演变聚类算法用在去噪上,基本思想是,具有相似信号演化的体素具有相似的模型参数值,并且由机器学习决定的集群数量远远小于体素的数量。因此,对一个聚类进行平均可以大大提高聚类级逆解的信噪比,这可以用作体素级优化的鲁棒初始猜测。

在该演变算法的基础上,总结了K-means算法、X-means算法、最小二乘法、贝叶斯信息准则

01 基于Python版本的K-means代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs# 生成具有三个簇的示例数据
n_samples = 300
n_features = 2
centers = 3
cluster_std = 1.0x, y = make_blobs(n_samples=n_samples, n_features=n_features, centers=centers, cluster_std=cluster_std, random_state=42)# 设置K值(簇的数量)
k = 3# 初始化KMeans算法
kmeans = KMeans(n_clusters=k, random_state=42)# 进行聚类
kmeans.fit(X)# 获取聚类结果
labels = kmeans.labels_
centroids = kmeans.cluster_centers_# 绘制聚类结果
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', marker='o', edgecolor='k', s=50)
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='x', s=200, linewidths=3, zorder=10)
plt.title('K-means Clustering')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.grid(True)
plt.show()

在这里插入图片描述

02 X-means方法

传统的K-means聚类算法需要预先确定聚类的数量K。在这里,使用了一种称为X-means的方法,该方法能够自动选择K。X-means方法通过两个步骤反复迭代来选择合适的聚类数量K。

  • 步骤1:
  • 首先执行传统的K-means聚类,给定一个初始的聚类数量。
  • 计算贝叶斯信息准则(BIC),BIC是聚类对数似然和对K的惩罚项的和。
  • 随着K的增加,拟合的优度(对数似然)增加,但过拟合的可能性也增加。惩罚项用来减少这种可能性。
  • 步骤2:
  • 每个聚类的质心(质心)被替换为两个子质心,并在该聚类内使用这些子质心作为初始猜测进行局部K-means(K = 2)。
  • 计算该聚类的BIC:如果BIC较大,则进行替换,否则保留“父”质心。
  • 重复步骤1和步骤2,直到整体BIC不再增加或 K达到预先设定的最大值为止。
  • 在这项研究中,初始聚类数为1,最大聚类数为50。

03 最小二乘法简单理解

最小二乘法(Least Squares Method, LSM)是统计学和数据分析中常用的一种方法,用于拟合数据模型。它的本质是一个优化过程,因为它通过最小化目标函数来找到模型参数的最优解。

(1)最小二乘法的基本思想
假设我们有一组观测数据点(x1, y1),(x2, y2),…,(xn, yn),我们希望找到一个函数 f(x)来拟合这些数据点。最简单的情况是线性拟合,即找到一个直线模型 y=ax+b,使得该直线尽可能靠近所有观测数据点。

最小二乘法的目标是最小化以下目标函数(误差的平方和):
S ( a , b ) = ∑ i = 1 n ( y i − ( a x i + b ) ) 2 S(a,b) = {\textstyle \sum_{i=1}^{n}} (y_{i}-(ax_{i}+b) )^{2} S(a,b)=i=1n(yi(axi+b))2
其中,yi是观测值,axi+b是预测值。

(2)最小二乘法的优化过程

  • 步骤1:
    定义目标函数:目标函数S(a,b) 表示预测值与观测值之间的误差的平方和。
  • 步骤2:
    求导数:为了找到使目标函数最小的参数 a 和b,我们对 S(a, b) 分别对a 和 b 求偏导数,并将其设为零,得到一组方程:
    ∂ S ∂ a = − 2 ∑ i = 1 n x i ( y i − a x i − b ) = 0 \frac{\partial S}{\partial a} = -2 {\textstyle \sum_{i=1}^{n}} x_{i}(y_{i}-ax_{i}-b)=0 aS=2i=1nxi(yiaxib)=0
    ∂ S ∂ b = − 2 ∑ i = 1 n ( y i − a x i − b ) = 0 \frac{\partial S}{\partial b} = -2 {\textstyle \sum_{i=1}^{n}} (y_{i}-ax_{i}-b)=0 bS=2i=1n(yiaxib)=0
  • 步骤3:
    解方程:通过求解上述方程组,可以得到最优参数 a 和 b 的值。具体求解过程可以得到如下结果:
    a = n ∑ i = 1 n x i y i − ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 a = \frac{n {\textstyle \sum_{i=1}^{n}}x_{i}y_{i}-\sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}y_{i} }{n {\textstyle \sum_{i=1}^{n}}x_{i}^{2}-({\textstyle \sum_{i=1}^{n}}x_{i})^{2} } a=ni=1nxi2(i=1nxi)2ni=1nxiyii=1nxii=1nyi
    b = ∑ i = 1 n y i − a ∑ i = 1 n x i n b = \frac{{\textstyle \sum_{i=1}^{n}}y_{i}-a\sum_{i=1}^{n}x_{i}}{n} b=ni=1nyiai=1nxi
  • 步骤4:
    优化的本质:最小二乘法的过程实际上是通过优化方法来最小化目标函数。优化在这里的意思是找到使目标函数达到最小值的参数组合。在最小二乘法中,这个目标函数是误差的平方和,优化过程就是通过求解导数来找到误差平方和的最小值。

04 贝叶斯信息准则

贝叶斯信息准则(Bayesian Information Criterion, BIC)是一种统计量,用于模型选择,特别是在评估模型复杂性和拟合优度之间的平衡时使用。
BIC 的计算公式如下:
B I C = − 2 l n ( L ) + k l n ( n ) BIC=-2ln(L) +kln(n) BIC=2ln(L)+kln(n)

其中:

  • ln(L)是模型的对数似然(log-likelihood)。对数似然度量了模型对数据的拟合优度。对数似然值越大,说明模型越能解释数据。
  • k是模型的参数数量。在聚类模型中,参数数量通常包括聚类数K和每个聚类的参数(如均值和方差)。k越大,模型越复杂。
  • n是样本数量。样本数量是指数据中的观测值个数。
  • BIC 的公式中,-2ln(L)代表了模型的拟合优度,值越小,拟合越好。kln(n)是对模型复杂性的惩罚项,随着参数数量 k 和样本数量n的增加,惩罚项也增加。这个项用来防止过拟合。BIC 的值越小,模型越好。因此,在选择模型时,希望找到使 BIC 最小的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/355757.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【开源项目】智慧北京案例~超经典实景三维数字孪生智慧城市CIM/BIM数字孪生可视化项目——开源工程及源码!

飞渡科技数字孪生北京管理平台, 依托实景数字孪生底座,以城市感知网络为硬件基础,以城市大数据为核心资源,以数字孪生、云计算、人工智能为关键技术,实现城市产业规划、资产安全管理、城市能耗监控等一体化空间融合。 …

实现锚点链接点击tab跳转到指定位置 并且滚动鼠标顶部锚点的样式也跟随变化

实现效果如下 不管是点击还是 滚动鼠标 顶部的样式也会跟随变化 点击会跳转到指定的位置 通过IntersectionObserver 监听是否可见 下面代码可以直接执行到vue的文件 <template><div><ul class"nav"><li v-for"tab in tabs" :key…

Java——访问修饰符

一、访问修饰符是什么 Java中的访问修饰符用于控制类、接口、构造函数、方法和数据成员&#xff08;字段&#xff09;的可见性和访问级别。 Java提供了四种访问修饰符&#xff1a; 访问修饰符同一类内同一包内不同包的子类不同包的非子类适用对象public可见可见可见可见类、…

第 7 章: 对象关系映射

在第 6 章中&#xff0c;我们大概了解了如何通过 JDBC 来进行简单的数据库操作。通过 SQL 来执行操作虽然不算复杂&#xff0c;但在面向对象的语言中&#xff0c;这类操作多少显得有些格格不入&#xff0c;毕竟我们都是在与“对象”打交道。把对象与关系型数据库关联起来&#…

【目标检测】图解 DETR 系统框图

简略版本 Backbone&#xff1a;CNN backbone 学习图像的 2D 特征Positional Encoding&#xff1a;将 2D 特征展平&#xff0c;并对其使用位置编码&#xff08;positional encoding&#xff09;Encoder&#xff1a;经过 Transformer 的 encoderDecoder&#xff1a;encoder 的输出…

光纤中的数值 2.405 是怎么一回事?

在光纤通信中,光线的传播依赖于纤芯和包层之间的折射率差异。 即,当光线从纤芯入射到界面上时,如果入射角大于临界角 θ0,将发生全反射,没有光能量透射至包层而泄漏出去,此即光纤导光原理。 反映到光纤的端面,在光纤端面的光线,当入射角必须小于光纤的孔径角 α0 ,此时…

laravel中如何向字段标签添加工具提示

首先&#xff0c;您可以使用 轻松自定义字段标签->label()。我相信您知道这一点。但您知道吗……标签输出未转义&#xff1f;这意味着您也可以在标签中包含 HTML。 为了尽快实现上述目标&#xff0c;我只是采取了一个快速而粗糙的解决方案&#xff1a; CRUD::field(nickna…

Python 修炼|人人编程手册|001 计算思维

在微信中阅读,关注公众号:CodeFit。 > 创作不易,如果你觉得这篇文章对您有帮助,请不要忘了 点赞、分享 和 关注,为我的 持续创作 提供 动力! 1. 计算思维 在我们正式开启 Python 修炼之旅前,先来了解一个关键的概念 —— 计算思维。 计算思维,其核心本质在于 抽象 …

学生护眼大路灯应该怎么选?五款护眼大路灯对比推荐

我们都知道光线无处不在&#xff0c;想要减少近视隐患&#xff0c;就不得不提一下护眼灯了&#xff0c;特别是经常坐在电脑前码字的上班族以及深夜还在学习的学生党这一类人群&#xff0c;经常用眼光线不好不仅影响视力健康&#xff0c;还会影响效率。而一款护眼灯能够提供柔和…

阐述一下Golang中defer的原理

基本用法 在Go语言中&#xff0c;defer关键字用于在函数返回前执行一段代码或调用一个清理函数。这对于处理文件关闭、解锁或者返回一些资源到资源池等操作非常有用。 其基本用法如下所示&#xff1a; package mainimport "fmt"func main() {example() }func exam…

AI穿戴设备是未来手机的终结者?中国AI商业化的未来预测

AI技术的发展正处于商业化应用的关键阶段&#xff0c;而中国在互联网时代已凭借商业化应用逆袭。AI算法大模型虽强大&#xff0c;但真正普惠民众需与设备深度结合。穿戴式智能设备就成为了新战场&#xff0c;AI算法与穿戴设备结合能释放更大工作效率。私人助理AI将成趋势&#…

AI口语练习APP的开发流程

开发AI口语练习APP是一个持续的过程&#xff0c;需要多学科团队的紧密合作&#xff0c;包括产品经理、UI/UX设计师、前后端开发者、机器学习工程师、测试工程师和市场运营人员等。随着技术的发展和用户需求的变化&#xff0c;开发流程可能需要相应地进行调整和优化。AI口语练习…

【学习笔记】Mybatis-Plus(二) :常用注解

常用注解 注解含义应用场景TableName表名注解&#xff0c;标识实体类对应的表表名和实体类名称不一致TableId主键注解&#xff0c;标识实体类的主键主键需要指定自增长TableField字段注解数据库名称和字段名称不一致TableLogic逻辑删除不是真正物理删除数据KeySequence序列主键…

任务调度框架革新:TASKCTL在Docker环境中的高级应用

Docker&#xff1a;轻量级容器化技术的魅力 Docker 作为一款开源的轻量级容器化技术&#xff0c;近年来在 IT 界掀起了一股热潮。它通过封装应用及其运行环境&#xff0c;使得开发者可以快速构建、部署和运行应用。Docker 的优势在于其轻量级、可移植性和可扩展性&#xff0c;它…

【element-ui】el-date-picker动态设置picker-options

<el-date-pickerv-model"formObj.startDate"type"date"placeholder"开始时间":picker-options"startPickerOptions"> </el-date-picker><el-date-pickerv-model"formObj.endDate"type"date"placeh…

Ubuntu安装qemu-guest-agent

系列文章目录 Ubuntu-24.04-live-server-amd64安装界面中文版 Ubuntu-24.04-live-server-amd64启用ssh Ubuntu乌班图安装VIM文本编辑器工具 文章目录 系列文章目录前言一、安装二、启用服务三、效果总结 前言 QEMU Guest Agent&#xff08;简称QEMU GA或QGA&#xff09;在虚拟…

thinkphp5使用模型删除与复杂查询EXP

模型删除 应用软删除 表中需要有字段&#xff0c;deletetime 模型中使用下面方法 use SoftDelete;protected $deleteTime delete_time;真实删除 // 软删除 User::destroy(1); // 真实删除 User::destroy(1,true); $user User::get(1); // 软删除 $user->delete(); // 真…

C# OpenCvSharp 车牌颜色识别

C# OpenCvSharp 车牌颜色识别 目录 效果 项目 代码 下载 效果 项目 代码 using OpenCvSharp; using System; using System.Diagnostics; using System.Drawing; using System.Windows.Forms; namespace OpenCvSharp_Demo { public partial class Form1 : Form { …

1台SW工作站5人同时使用能实现吗

在当今的数字化时代&#xff0c;高效的工作方式和技术创新是企业竞争力的重要组成部分。SolidWorks作为一款功能强大的三维设计软件&#xff0c;广泛应用于机械、电子、建筑等多个领域。然而&#xff0c;随着企业规模的扩大和团队人数的增加&#xff0c;如何充分利用有限的资源…

G7 - Semi-Supervised GAN 理论与实战

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 目录 理论知识模型实现引用、配置参数初始化权重定义算法模型模型配置模型训练训练模型 模型效果总结与心得体会 理论知识 在条件GAN中&#xff0c;判别器只用…