目录
一、说明
二、主成分分析(PCA)
三、 K-means方法
四、K-最近邻 (KNN)
五、密度的空间聚类 (DBSCAN)
六、更先进的预测性维护算法
6.1 独立成分分析 (ICA)
6.2 PCA 和 ICA 有什么区别?
6.3 OPTICS 聚类
6.4 自组织映射 (SOM)
6.5 局部敏感哈希 (LSH)近似
一、说明
作者在发电行业研究数据科学几年后,意识到最有效的预测性维护工具是无监督的机器学习算法。本篇从若干机器学习方法种,提取非监督学习算法的种种优缺点,展开进行分析。
二、主成分分析(PCA)
让我们从最古老和最基本的算法之一主成分分析(PCA)开始。卡尔·皮尔逊于 1901 年开发了PCA 。你可以在这里找到它。主成分分析擅长降维,从而降低模型复杂性(维数灾难),消除多重共线性和过度拟合。此外,PCA还可用于可视化和识别趋势、模式或异常值。
PCA可以减少没有标签的维度。因子分析和特征提取也是 可能的。PCA创建新变量,例如主成分,它们是原始变量的线性组合。PCA采用高维数据并在具有较少变量的较低子空间中生成数据集。PCA是一种用于数据分析的无监督机器学习技术。PCA 中有一些关键词需要学习,例如特征值、特征向量和协方差。我愿意在单独的 Medium 文章中解释PCA 的细节。
还有另一种基本的无监督学习技术,即K 均值聚类。PCA用于降低数据的维数,而K 均值聚类则根据相似性将数据点分组。它们有不同的目标和方法。
主成分分析(PCA)
三、 K-means方法
K-means是一种基于质心的迭代聚类算法。质心或聚类中心是聚类内所有点的平均值或中位数,具体取决于数据的特征。第一步是初始化 k 个质心,其中k等于为特定数据集选择的聚类数。k-means 算法的关键词是Elbow 方法、聚类内平方和 (WCSS)
K 均值
K-means的优点是简单,快速,可扩展。
K-means 的缺点是依赖于输入参数、在某些数据集上可能表现不佳、异常值影响显著。
我愿意在单独的 Medium 文章中解释k-means 的细节。
肘部方法
四、K-最近邻 (KNN)
这里我必须提一下K-最近邻 (KNN)算法。这是预测性维护最重要的算法之一,也是当今机器学习中最流行、最简单的分类和回归分类器之一。在这种情况下,KNN算法中的k值定义将检查多少个邻居来确定特定查询点的分类。如果 k=1,则实例将分配到与其单个最近邻相同的类。回归问题使用与分类问题类似的概念,但在这种情况下,取 k 个最近邻的平均值来对分类进行预测。KNN 的关键词是多数投票、欧几里得距离、曼哈顿距离、闵可夫斯基距离、汉明距离。
KNN的优点是易于实现,易于适应,超参数少。
KNN 的缺点是扩展性不佳、维数灾难、容易过度拟合。
注意:尽管KNN是一种监督学习方法,但我们必须提到,其余算法如 DBSCAN、OPTICS、SOM、LSH 算法在聚类过程后使用最近邻方法进行预测。
KNN工作方法
五、密度的空间聚类 (DBSCAN)
最后一种基本的无监督机器学习算法是基于密度的空间聚类 (DBSCAN)。它将聚类定义为数据集中有许多彼此接近的点的区域,而远离任何聚类的点则被视为异常值或噪声。我们的目标是将这些点聚类为密集在一起的组。
圆的半径ε(epsilon)是第一个参数。
圆的半径ε(epsilon)是第一个参数,最小点数m是另一个参数。
DBSCAN的关键词是核心点、非核心点、边界点和异常值。
DBSCAN 聚类
DBSCAN是一个有用的数据清理和异常值检测工具。
DBSCAN的优点是通用性强,对噪声具有鲁棒性,并且最佳聚类数未知。
DBSCAN 的缺点是对超参数的选择比较敏感,在聚类密度差异较大的数据集上表现较差。
六、更先进的预测性维护算法
6.1 独立成分分析 (ICA)
4独立成分分析 (ICA)是一种统计和计算技术,用于机器学习,将多变量信号分离为独立的非高斯成分。ICA 的关键词是统计独立的非高斯分布。
鸡尾酒会问题
ICA的优点是它是分离混合信号的强大工具、非参数方法、无监督学习技术,并且有利于特征提取。
ICA 的缺点是非高斯、非线性混合、计算成本高、存在收敛问题。
6.2 PCA 和 ICA 有什么区别?
PCA强调捕获最大方差并提供不相关的成分,而ICA侧重于提取统计上独立的成分,即使它们是相关的,因此ICA适用于盲源分离和信号提取任务。
我愿意在单独的 Medium 文章中解释ICA 的细节。
独立成分分析(ICA)
另一种高级算法是按点排序以识别聚类结构 (OPTICS)。它在DBSCAN聚类的概念中又增加了两个术语。它与DBSCAN类似,但它可以提取不同密度和形状的聚类。它对于识别大型高维数据集中不同密度的聚类很有用。OPTICS 算法的关键词是Epsilon、k-最近邻、核心距离、可达距离和可达图。
6.3 OPTICS 聚类
OPTICS聚类技术需要的内存比DBSCAN要多,但参数要少。与DBSCAN相比,OPTICS可以更有效地识别不同大小和形状的聚类。DBSCAN明确区分核心点、边界点和噪声点,而OPTICS不会明确识别噪声点。OPTICS 的运行时复杂度通常高于DBSCAN。
我愿意在单独的 Medium 文章中解释OPTICS 的细节。
可达性图
6.4 自组织映射 (SOM)
自组织映射 (SOM) — Kohonen映射是一种人工神经网络,其灵感也来自 20 世纪 70 年代的神经系统生物模型。SOM用于聚类和映射(或降维)。SOM有两层,一层是输入层,另一层是输出层。
关键词是欧几里得距离、C聚类数、权重、 SOM算法中的学习率α。
som自组织
6.5 局部敏感哈希 (LSH)近似
局部敏感哈希 (LSH)近似高维数据点之间的相似性,使其成为高效解决最近邻搜索问题的理想选择。LSH与传统哈希方法的不同之处在于,它旨在最大化相似项之间的碰撞,而不是最小化它们。LSH 的关键词是哈希函数、最近邻、桶和碰撞。
我愿意在单独的 Medium 文章中解释LSH的细节。
LSH
这些算法可以检测异常,还可以检测哪些特征导致更多偏差。无监督和半监督学习方法为我们提供了非常强大的工具,可以尽快通知故障。
机器故障流程