机器学习:DBSCAN算法(内有精彩动图)

目录

前言

一、DBSCAN算法

1.动图展示(图片转载自网络)

2.步骤详解

3.参数配置

二、代码实现

1.完整代码

2.代码详解

1.导入数据

2.通过循环确定参数最佳值

总结


前言

        DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法。它可以发现任意形状的簇并能够处理噪声数据。

 

一、DBSCAN算法

1.动图展示(图片转载自网络)

  • 如图所示是DBSCAN算法的实现过程
  • 这里使用参数是半径为1,最小样本量为4

 

2.步骤详解

  1. 初始化:从数据集中的每个点开始,初始化簇的构建。
  2. 核心点检测:判断每个点是否为核心点(即其邻域点的数量是否大于或等于 min_samples)。
  3. 簇扩展
    • 对于每个核心点,将其邻域内的所有点添加到簇中。
    • 递归扩展这些点的邻域,直到簇扩展完成。
  4. 标记噪声点:那些没有被包含在任何簇中的点被标记为噪声点。

如图所示:

  • 从A点开始,根据给定半径判断邻域内样本数是否符合给定最小样本量从而确定该点是不是核心
  • 再遍历该邻域内每个点,重复上述步骤
  • 直到某个点邻域内样本数小于给定最小样本量
  • 至此簇扩展完成
  • 此图 A B C 三点为一个簇内的点  N是离群点

 

3.参数配置

  1. eps: 定义了一个点的邻域的最大距离(即半径)。如果一个点的邻域内有至少 min_samples 个点,则这些点被认为是一个簇的一部分。

  2. min_samples: 形成一个簇所需的最小点数。如果一个点的邻域内的点数大于或等于 min_samples,则这些点被视为核心点,并且它们的邻域中的点将成为同一簇的一部分。

 

二、代码实现

1.完整代码

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metricsdata = pd.read_csv('data.txt', sep=' ')
x = data.iloc[:, 1:5]
# from sklearn.preprocessing import StandardScaler
# std = StandardScaler()
# x = std.fit_transform(x)"""
eps:半径
min_samples:最小密度
labels:分类结果   自动分类 -1为离群点
"""
scores = []
for i in range(2, 20):db = DBSCAN(eps=i, min_samples=2).fit(x)labels = db.labels_score = metrics.silhouette_score(x, labels)scores.append(score)print(scores)
best_i = scores.index(max(scores)) + 2
print("最佳半径为:", best_i)
db = DBSCAN(eps=best_i, min_samples=2).fit(x)
labels = db.labels_
score = metrics.silhouette_score(x, labels)
print("此时轮廓指数为:", score)data['cluster_db'] = labels
data = data.sort_values('cluster_db', ascending=True)pass

输出结果:

[-0.03670705609846274, -0.03670705609846274, -0.06781609566358748, -0.06781609566358748, 0.1626084889128696, 0.12626205982196476, 0.16564759416041527, 0.42951251219183106, 0.49530955296776086, 0.49530955296776086, 0.49530955296776086, 0.49530955296776086, 0.5857040721127795, 0.5857040721127795, 0.5238781710613801, 0.5238781710613801, 0.6731775046455796, 0.6731775046455796]
最佳半径为: 18
此时轮廓指数为: 0.6731775046455796

 

2.代码详解

1.导入数据

可以进行标准化也可以不进行标准化

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metricsdata = pd.read_csv('data.txt', sep=' ')
x = data.iloc[:, 1:5]
# from sklearn.preprocessing import StandardScaler
# std = StandardScaler()
# x = std.fit_transform(x)

 

2.通过循环确定参数最佳值

  • 最后还将分类好的标签添加进了原数据
  • 聚类算法通过轮廓系数来评价算法的好坏:
    • 轮廓系数范围在[-1,1]之间。该值越大,越合理
"""
eps:半径
min_samples:最小密度
labels:分类结果   自动分类 -1为离群点
"""
scores = []
for i in range(2, 20):db = DBSCAN(eps=i, min_samples=2).fit(x)labels = db.labels_score = metrics.silhouette_score(x, labels)scores.append(score)print(scores)
best_i = scores.index(max(scores)) + 2
print("最佳半径为:", best_i)
db = DBSCAN(eps=best_i, min_samples=2).fit(x)
labels = db.labels_
score = metrics.silhouette_score(x, labels)
print("此时轮廓指数为:", score)
data['cluster_db'] = labels
data = data.sort_values('cluster_db', ascending=True)

输出:

 

总结

        两种聚类算法已讲完,聚类算法适合原本没有标签只有特征的数据进行使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/411107.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探索数据结构:图(三)之最短路径算法

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:数据结构与算法 贝蒂的主页:Betty’s blog 1. 最短路径算法 最短路径问题可分为单源最短路径和多源最短路径。其指…

《机器学习》 SVM支持向量机 推导、参数解析、可视化实现

目录 一、SVM支持向量机 1、什么是SVM 例如: 2、SVM的主要特点是: 二、SVM方程 1、超平面方程 2、标签问题 3、决策函数: 符号函数: 整合: 4、距离问题 1)点到直线距离 2)点到平面…

航空公司名字趣史:看看有趣又有意义的命名背后有什么玄机

上周“东海航空”事件引发了东方航空在社交媒体上的一系列被迫营业,因为媒体的乌龙报道误将“东海航空”简称为“东航”,甚至直接用错了图片。众号:标猿公司起名 给公司起个好名字 其实除了大部分以地域、国家命名的航空公司,还…

Android Auto推出全新Google助手设计

智能手机与汽车的无缝整合已成为现代驾驶的重要组成部分,而 Android Auto 一直在这一领域处于领先地位。谷歌通过不断推出新功能和更新,体现了其致力于提升 Android Auto 体验的决心。最近,Android Auto 引入了 Google助手的全新设计。 当系…

【Qt】多元素控件QTreeWidget

多元素控件QTreeWidget 使用QTreeWidget表示一个树型结构,里面的每一个元素都是QTreeWidgetItem,每个QTreeWidgetItem可以包含多个文本和图标,每个文本/图标表示一列。 可以给QTreeWidget设置顶层结构(顶层节点可以有多个&#…

redis面试(二十二)读锁释放

假设现在已经有各种锁的重入什么的,那如何释放锁? 读锁读锁 假如说,同一个线程多次加读锁,或者不同的线程加了多个读锁 当前的锁结构长这样 anyLock: { “mode”: “read”, “UUID_01:threadId_01”: 2, “UUID_02:threadId_02…

去雾去雨算法

简单版 import cv2 import numpy as npdef dehaze(image):"""简单去雾算法,使用直方图均衡化来增强图像"""# 将图像转换为YUV颜色空间yuv_image cv2.cvtColor(image, cv2.COLOR_BGR2YUV)# 对Y通道(亮度)进行…

数据结构——队的基本操作

一、顺序队 队的用法:先进先出 跟平时我们遇到的大多情况一样,队的主要思想就是先进先出,比如我去食堂打饭,我先排那么就是我先打到饭咯 顺序队:其实说白了就是一块空间用两个指针去指向,为了实现先进先…

C语言指针重学

学习要纲:建议掌握 gdb调试(b ,d ,fin ,bt ,print ,awatch ,up ,down ,set pretty等) SourceInsight软件看代码(全局搜索 文件搜索等) git如何调取分支合并(git branch,git blame,git log,git pull,git reset --hard等) 等内容,下面是对于指针的一个重新学习. C语言的指针&…

AI工具 GPT 学术优化 (GPT Academic) 安装实践

GPT 学术优化 (GPT Academic)是一个综合的AI GPT工具包,可以完成各种gpt辅助的工作,比如代码解读、翻译、读论文等功能。官网:GitHub - binary-husky/gpt_academic: 为GPT/GLM等LLM大语言模型提供实用化交互接口,特别优化论文阅读…

2024年中国运筹学会运筹竞赛(数据驱动赛道)报名通知

竞赛组织 主办单位:中国运筹学会(国家一级学会) 承办单位:中国科学技术大学 支持单位:杉数科技、海康威视、中国科学技术大学管理学院、《运筹学学报》杂志 竞赛内容 本次竞赛(本科生组)由竞…

BOSS直聘财报:2024年第二季度净利润4.17亿元,同比上涨34.8%

8月28日美股盘前,BOSS直聘(NASDAQ:BZ,HK:2076)发布了2024年第二季度财报。在第二季度,公司经营效率不断提升,非通用会计准则下,取得净利润4.17亿元,同比上涨34.8%。 第二季度,公司持…

实习结束总结20240828

长达两个月的实习终于在今天结束了,不知怎的,心如止水,没有高兴,没有伤心,毫无波澜的内心甚至让自己都感觉可怕,也许,这就是成长吧。 硬件上: 1.cadence需要继续深入学习&#xff…

深圳保障房、商品房、小产权房子类型对比

摘要: 整理了我认知以内的深圳房子类型,有安居房,可售人才房,共有产权房、配售型保障房、商品房、统建楼、农民房的区别。如果数据存疑,可以多方对比论证,我也主要靠百度。 我发现我很多同事是非深户&#…

JS WebSocket 深度解析

JS WebSocket 深度解析 文章目录 JavaScript WebSocket 深度解析一、WebSocket 是什么二、JS 中如何使用 WebSocket1. 创建 WebSocket 对象2. 连接打开事件3. 监听消息事件4. 监听错误事件5. 关闭连接 三、WebSocket 包含哪些属性或方法 API1. 属性2. 方法 四、扩展与高级技巧1…

结果一。5.be doing表将来和 表 will的区别

be doing 表⽰近期、眼下就要发⽣的事情; will 表⽰将来的时间,则较远⼀些。如: He is going to write a letter tonight.He will write a book 。 be going to 表⽰根据主观判断将来肯定发⽣的事情。 will+ 动词原形表⽰⼀般将来时。 will ࿰

【xilinx】米联客ZYNQ MZ7100自学发现JTAG烧写失败

3-2-01米联客 2022 版 ZYNQ SOC SDK 入门篇 02 程序固化入门(SDK 方式) 生成了boot.bin 2.4.2 程序通过jtag烧不进去卡在performing erase operation 最终发现是spi的flash type 模式设置错误,文档和板卡没对应上 文档写的qspi-x4-single 实际用的qspi-x8-dual_par…

16:9横屏短视频素材库有哪些?横屏短视频素材网站分享

在当今这个视觉为王的时代,16:9横屏视频凭借其宽阔的画面和卓越的观看体验,已经成为许多视频创作者和营销专家的首选格式。如果你想制作出引人注目的横屏视频,选择高质量的视频素材库是关键。无论你是视频制作的老手还是刚入行的新手&#xf…

免费分享一套SpringBoot+Vue个人理财管理系统【论文+源码+SQL脚本】,帅呆了~~

大家好,我是java1234_小锋老师,看到一个不错的SpringBootVue个人理财管理系统,分享下哈。 项目视频演示 【免费】SpringbootVue个人理财管理系统 Java毕业设计_哔哩哔哩_bilibili 项目介绍 随着信息技术在管理上越来越深入而广泛的应用&am…

【图像去噪】论文复现:代替ReLU!Pytorch实现即插即用激活函数模块xUnit,并插入到DnCNN中实现xDnCNN!

请先看【专栏介绍文章】:【图像去噪(Image Denoising)】关于【图像去噪】专栏的相关说明,包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总(更新中…