【机器学习】25. 聚类-DBSCAN(density base)

聚类-DBSCAN-density base

  • 1. 介绍
  • 2. 实现
    • 案例计算
  • 3. K-dist
  • 4. 变化密度
  • 5. 优缺点

1. 介绍

DBSCAN – Density-Based Spatial Clustering of Applications with Noise
与K-Means查找圆形簇相比,DBSCAN可以查找任意形状和复杂形状的簇,如S形、椭圆、半圆
适合处理带有噪声的复杂数据集. DBSCAN将高密度区域识别为一个簇, 并把低密度区域视为簇和簇之间的分割. 噪声点通常位于低密度区域, 被排除在簇之外.
在这里插入图片描述
不同于K-means只能找圆形的簇, DBSCAN能找任意复杂形状的簇, 如S形, 半圆形…

2. 实现

在给定的数据集中,根据每个数据点周围其他数据点的密度情况,将数据点分为核心点、边界点和噪声点。

  • 核心点 core point 是周围某个半径内有足够多其他数据点的数据点;
  • 边界点 border point 是不满足核心点要求,但在某个核心点的半径内的数据点;
  • 噪声点 noise point 则是不满足任何条件的点。

接着,从核心点开始,通过密度相连的数据点不断扩张,形成一个簇。
在这里插入图片描述
一个点的密度取决于半径Eps. 如果:
Eps太大: 所有的点都会有一个较大的密度m,m是数据集中所有的点的数量
Eps太小: 所有的点的密度都等于1, 即只有一个自身

具体实现步骤为

  1. 将数据点标注为核心点, 边界点, 噪声点
  2. 抛弃噪声点
  3. 将剩余的点根据如下方式聚类:
  • 任何两个核心点, 若各自在对方的Eps内, 则属于同一个簇
  • 任何的边界点都放在与其相关联的核心点所属的簇中. 若边界点同时和多个核心点相关联, 需要解决冲突

案例计算

在这里插入图片描述
Eps = 1
MinPts = 2

  1. 找每个点eps范围内的点
    A : AB
    B: AB
    C: C
    D: DE
    E: ED

2.根据MinPts找到core point, border point 和noise point
Core point: A,B,D,E
border point: 0
noise point: C
3. 找到类 AB,DE

3. K-dist

不同的Eps和MinPts可能会对结果产生很大影响.
可以使用k-距离, k-dist来选取适当的Eps和MinPts.
计算每个点到第k个最近邻居的距离,属于某个cluster的点,k-dist会比较小,对与不属于任何cluster的点,如噪声点,则k-dist比较大。在这个图中,拐点是比较合适的。
在这里插入图片描述
在 k-距离图(k-distance graph)中,X 轴和 Y 轴表示以下内容:

X 轴(点的索引):数据集中所有点按与其第 k 个最近邻的距离值从小到大排序后的索引。这些点可以按顺序编号,例如从 1 到数据集中点的总数。
Y 轴(k-距离):每个点与其第 k 个最近邻的距离,通常记为 k-距离值。这个值表示该点到数据集中第 k 近邻点的距离。Y 轴的值越大,表示点的密度越低,反之则表示密度较高。

4. 变化密度

DBSCAN无法很好处理密度不同的cluster

5. 优缺点

优点:

  • 可以形成任意形状和大小的簇
  • 不需要实现指定簇的数量
  • 对噪声具有鲁棒性

缺点:

  • 不适合密度差异较大的数据
  • 不适合高维数据
  • 对输入参数Eps和MinPts敏感
    -Eps和MinPts选择通常不是直观的, 需要通过一些启发方法

时间复杂度n^2
空间复杂度n

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/461939.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计组-层次化存储结构

这里主要看存储的整体结构,cache,内存 这里看存储结构是按什么样的层次来划分存储结构,速度由慢到快,容量由大到小,这是基于性价比的考虑,所以分为多级多层次,可以做到提高速度的同时没有增加多…

奇瑞不客气智驾 晚不晚?

文/孔文清 一直很好奇: 尹同跃董事长的金句“智驾不客气”,应该怎么翻译成英语? 谷俊丽的演讲PPT给了我答案: All in Ai Cars ——全力以赴、全情投入智能化汽车。 谷俊丽是奇瑞全球创新大会上最兴奋的人之一,有一种闭…

【万兴科技-注册_登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

vue3中跨层传递provide、inject

前置说明 在 Vue 3 中,provide 和 inject 是一对用于跨组件树传递数据的 API。它们允许你在祖先组件中使用 provide 提供数据或服务,然后在后代组件中使用 inject 来获取这些数据或服务。这种方式特别适用于跨多个层级的组件传递数据,而不需要…

JAVA——网络编程

目录 1.概述 常见的网络架构 2.网络编程三要素 a.ip b.端口 c.协议 3.UDP协议 a.InetAddress类 1.概述 2.实例化对象 b.DatagramSocket类(快递公司) c.DatagramPacket类(包裹) d.单播、组播、广播 4.TCP协议 …

完全透彻了解一个asp.net core MVC项目模板1

当我们使用Visual Studio 2022去新建一个基于asp.net core Web项目的时候,一般有三种选择,一种是空项目,一种是基于MVC的项目、再有一种就是基于包含Razor Pages实例的web应用。如下图: 今天,我们打算选择基于MVC模…

在米尔电子MPSOC实现12G SDI视频采集H.265压缩SGMII万兆以太网推流

1. 引言 随着网络视频平台的发展,用户对于4K高清画质的需求日益增长。然而,许多用户发现,即使购买了视频平台的会员,观看4K内容时画质却不如预期,有时甚至还会出现模糊、卡顿的情况。这种现象背后涉及到视频编码、网络…

Matlab数字信号处理——基于改进小波变换的图像去噪方法(7种去噪算法)

1.基于小波变换的阈值收缩法去噪 该方法利用小波变换分离出信号中的噪声成分,并通过设置合适的阈值对小波系数进行收缩,保留主要信息的同时,去除噪声。 %基于小波变换的阈值收缩法去噪算法 clear clc Iimread(nana.png); X im2double(I); …

HTB:Analytics[WriteUP]

目录 连接至HTB服务器并启动靶机 1.How many open TCP ports are listening on Analytics? 2.What subdomain is configured to provide a different application on the target web server? 3.What application is running on data.analytical.htb? 4.What version of…

「Mac畅玩鸿蒙与硬件11」鸿蒙UI组件篇1 - Text 和 Button 组件详解

本篇将详细介绍鸿蒙应用开发中的 Text 和 Button 组件。通过本篇内容,你将学习如何使用 Text 组件显示文本、格式化文本样式,以及如何使用 Button 组件处理点击事件并自定义样式。掌握这些基本组件的用法将为后续的 UI 开发奠定基础。 关键词 Text 组件Button 组件样式设置事…

05-07实现面向对象领域模型-停车案例

学习视频来源:DDD独家秘籍视频合集 https://space.bilibili.com/24690212/channel/collectiondetail?sid1940048&ctype0 源代码地址:https://github.com/ByteBlizzard 本篇文章是讲视频中的3期内容合并为一起。 文章目录 需求模型命令聚合领域事…

如何批量裁剪图片?5个软件帮助你快速进行图片裁剪

如何批量裁剪图片?5个软件帮助你快速进行图片裁剪 批量裁剪图片可以通过多种工具轻松实现,以下5个软件可以帮助你快速裁剪大量图片: 万能图片编辑器 这是一款支持批量图像处理的多功能小工具,功能丰富且界面简单,支持…

vxe-table v4.8+ 与 v3.10+ 虚拟滚动支持动态行高,虚拟渲染更快了

Vxe UI vue vxe-table v4.8 与 v3.10 解决了老版本虚拟滚动不支持动态行高的问题,重构了虚拟渲染,渲染性能大幅提升了,行高自适应和列宽拖动都支持,大幅降低虚拟渲染过程中的滚动白屏,大量数据列表滚动更加流畅。 自适…

期权懂|开通ETF股票期权需要什么条件?ETF股票期权佣金是多少?

期权小懂每日分享期权知识,帮助期权新手及时有效地掌握即市趋势与新资讯! 开通ETF股票期权需要什么条件?ETF股票期权佣金是多少? 一、开通ETF股票期权需满足以下条件: ‌(1)资金要求‌&#xf…

Lucene的概述与应用场景(1)

文章目录 第1章 Lucene概述1.1 搜索的实现方案1.1.1 传统实现方案1.1.2 Lucene实现方案 1.2 数据查询方法1.1.1 顺序扫描法1.1.2 倒排索引法 1.3 Lucene相关概念1.3.1 文档对象1.3.2 域对象1)分词2)索引3)存储 1.3.3 常用的Field种类 1.4 分词…

在服务器运维过程中,发现服务器时间倒退以及DNS无法解析域名造成yum不可用的问题解决

目录 一.问题描述 二.问题排查过程 2.1yum下载NTP 2.2排查DNS 三.问题解决过程 3.1修复DNS 3.2更新yum源 3.3下载ntp 四.问题解决结果 4.1ntp服务情况检查 4.2服务器时间检查 4.3软件系统时间检查 一.问题描述 对服务器进行运维的过程中,发现服务器时间…

Redis高频面试题

一、Redis有什么好处? 高性能:Redis是一个基于内存的数据存储系统,相比于传统的基于磁盘的数据库系统,它能够提供更高的读写性能。支持丰富的数据类型:Redis支持多种数据结构,包括字符串、哈希、列表、集合、有序集合等,这使得它可以用于多种不同的应用场景。持久化:Re…

[POI2014] PTA-Little Bird(单调队列优化 DP)

luogu 传送门https://www.luogu.com.cn/problem/P3572 解题思路 先设 表示到 的最小劳累值。 很容易得出转移: 其中 由 和 的大小关系决定,并且 。 很显然,直接暴力是 的,会超时。 于是,考虑优化。 我们发现…

如何在Linux系统中使用Apache HTTP Server

如何在Linux系统中使用Apache HTTP Server Apache简介 安装Apache 在Debian/Ubuntu系统中安装 在CentOS/RHEL系统中安装 启动Apache服务 验证Apache是否正在运行 访问Apache默认页面 配置Apache虚拟主机 创建虚拟主机配置文件 示例虚拟主机配置 创建网站根目录 准备静态网站内…

ISME Comm | 西南大学时伟宇团队在功能基因水平揭示植被演替过程中磷限制对土壤微生物碳代谢潜力的抑制作用机制

本文首发于“生态学者”微信公众号! 植被群落长期演替过程中,生态系统普遍受养分限制,微生物群落代谢功能在生态系统物质循环中尤为关键。西南大学时伟宇教授团队联合国内外学者,在功能基因水平,将微生物群落功能纳入生…