系统聚类比较——最短距离法、最长距离法、重心法和类平均法

系统聚类概述

系统聚类，又称分层聚类法，是一种用于分析数据的统计方法，在生物学、分类学、社会网络等领域有广泛应用。以下是对系统聚类的详细概述：

一、基本思想

系统聚类的基本思想是将每个样品（或数据点）视为单独的类，然后基于它们之间的相似性（或距离）进行逐步合并或分裂，以构建一个层次结构的聚类结果。这种层次结构可用于分析数据的不同层次的相似性关系。

二、聚类方式

系统聚类主要包括两种基本的聚类方式：

凝聚聚类：从单个样本开始，不断将最相似的两个样本合并，形成一个新的聚类。这个过程一直持续到所有样本都被合并到一个聚类中为止。凝聚聚类的优点是在处理大数据时，计算复杂度相对较低；但其缺点是可能会导致聚类数量不准确，对噪声和异常值的敏感度较高。
分裂聚类：从所有样本开始，不断将最不相似的两个样本分开，形成一个新的聚类。这个过程一直持续到所有样本都被分到不同的聚类中为止。分裂聚类的优点是聚类数量比较准确，对噪声和异常值的影响较小；但其缺点是在处理大数据时，计算复杂度较高。

三、距离与相似度度量

在系统聚类中，类与类之间的距离有多种定义方法，常见的包括：

最短距离法：类与类之间的距离等于两类最近样品之间的距离。
最长距离法：类与类之间的距离等于两类最远样品之间的距离。
类平均法：类与类之间的距离等于各类元素两两之间的平方距离的平均。
重心法：类与类之间的距离定义为对应这两类重心之间的距离。对样品分类来说，每一类的类重心就是该类样品的均值。
中间距离法：介于最短距离法和最长距离法之间的一种方法，既不考虑最近距离，也不考虑最远距离，而是采用介于最远和最近之间的距离。
离差平方和法（Ward法）：基于方差分析的思想，如果分类正确，同类样品之间的离差平方和应当较小，类与类之间的离差平方和应当较大。

此外，常用的空间距离度量还包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离和兰氏距离等。

四、聚类过程与结果

系统聚类的过程通常包括以下几个步骤：

定义以变量或指标的个数为维度的空间里的一种距离。
计算所有样本两两之间的距离。
将每个样本归为一类，根据计算出的样本间的距离合并距离最近的两类为一个新类。
再计算新类与其他各类的距离，并根据计算出的距离合并距离最近的两类为一个新类。
循环以上过程直至类别个数为1或达到其他停止条件。

最终，系统聚类会生成一个层次结构的聚类结果，可以通过聚类图（或称为树状图、谱系图）直观地展示。研究者可以根据聚类图决定将数据分为多少类，并深入分析数据的结构和组织。

五、应用与优势

系统聚类在多个领域都有广泛应用，如生物学中的物种分类、市场细分中的客户群划分、文本挖掘中的主题识别等。其优势在于能够构建层次结构的聚类结果，为研究者提供了对数据结构和组织的更深层次的认识。同时，通过选择不同的相似度或距离度量方式以及聚类算法，可以得到不同的聚类结果，以满足不同领域和问题的需求。

综上所述，系统聚类是一种灵活且强大的聚类分析方法，适用于多个领域的数据分析和挖掘任务。

系统聚类方法比较

本文使用Python对不同系统聚类的结果进行比较分析。

数据读取

#不同系统聚类法的比较
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import AgglomerativeClustering
from scipy.cluster.hierarchy import dendrogram, linkage, ward
#创建数据
index=['A','B','C','D','E']
X1=[6901.6,8467.3,5067.7,5777.3,5975.7]
X2=[2321.3,1903.9,1746.6,1776.9,1963.5]
X3=[4632.8,7385.4,3753.4,3752.6,3809.4]
X4=[1558.2,1420.7,1430.2,1329.1,1322.1]
X5=[3447.0,5100.9,1993.8,2517.9,3064.3]
X6=[3018.5,3452.3,2078.8,2322.1,2352.9]
X7=[2313.6,1691.9,1524.5,1583.4,1750.4]
X8=[802.8,645.3,492.8,479.9,614.9]
X=np.array([X1,X2,X3,X4,X5,X6,X7,X8]).T

Python绘制谱系图

#%%
#最短距离法
model=AgglomerativeClustering(n_clusters=3,linkage='single')
#linkage='single'表示最短距离法
model.fit(X)
# #输出欧式距离
# print(model.children_)
# #输出聚类结果
# print(model.labels_)
#绘制聚类结果
plt.figure(figsize=(10,5))
plt.subplot(421)
plt.title('Single linkage')
plt.scatter(X[:,0],X[:,1],c=model.labels_,cmap='rainbow')
for i in range(X.shape[0]):plt.text(X[i,0],X[i,1],index[i])#绘制谱系图
linkage_matrix=linkage(X,method='single',metric='euclidean')
plt.subplot(422)
#转换横坐标与纵坐标
dendrogram(linkage_matrix,labels=index,orientation='right')
plt.show()#最长距离法
model=AgglomerativeClustering(n_clusters=3,linkage='complete')
#linkage='complete'表示最长距离法
model.fit(X)
# #输出欧式距离
# print(model.children_)
# #输出聚类结果
# print(model.labels_)
#绘制聚类结果
plt.figure(figsize=(10,5))
plt.subplot(423)
plt.title('Complete linkage')
plt.scatter(X[:,0],X[:,1],c=model.labels_,cmap='rainbow')
for i in range(X.shape[0]):plt.text(X[i,0],X[i,1],index[i])#绘制谱系图
linkage_matrix=linkage(X,method='complete',metric='euclidean')
plt.subplot(424)
#转换横坐标与纵坐标
dendrogram(linkage_matrix,labels=index,orientation='right')
plt.show()#重心法
model=AgglomerativeClustering(n_clusters=3,linkage='average')
#linkage='average'表示重心法
model.fit(X)
#输出欧式距离
# print(model.children_)
#输出聚类结果
# print(model.labels_)
#绘制聚类结果
plt.figure(figsize=(10,5))
plt.subplot(425)
plt.title('Average linkage')
plt.scatter(X[:,0],X[:,1],c=model.labels_,cmap='rainbow')
for i in range(X.shape[0]):plt.text(X[i,0],X[i,1],index[i])#绘制谱系图
linkage_matrix=linkage(X,method='average',metric='euclidean')
plt.subplot(426)
#转换横坐标与纵坐标
dendrogram(linkage_matrix,labels=index,orientation='right')
plt.show()#类平均法
model=AgglomerativeClustering(n_clusters=3,linkage='ward')
#linkage='ward'表示类平均法
model.fit(X)
#输出欧式距离
# print(model.children_)
#输出聚类结果
# print(model.labels_)
#绘制聚类结果
plt.figure(figsize=(10,5))
plt.subplot(427)
plt.title('Ward linkage')
plt.scatter(X[:,0],X[:,1],c=model.labels_,cmap='rainbow')
for i in range(X.shape[0]):plt.text(X[i,0],X[i,1],index[i])#绘制谱系图欧氏距离衡量
linkage_matrix=linkage(X,method='ward',metric='euclidean')
plt.subplot(428)
#转换横坐标与纵坐标
dendrogram(linkage_matrix,labels=index,orientation='right')
plt.show()

一、最短距离法

二、最长距离法

三、重心法

四、类平均法

Python绘制聚类图

#最短距离法
model=AgglomerativeClustering(n_clusters=3,linkage='single')#linkage='single'表示最短距离法
model.fit(X)plt.figure(figsize=(10,5))
plt.subplot(221)
plt.title('Single linkage')
plt.scatter(X[:,0],X[:,1],c=model.labels_,cmap='rainbow')
for i in range(X.shape[0]):plt.text(X[i,0],X[i,1],index[i])#最长距离法
model=AgglomerativeClustering(n_clusters=3,linkage='complete')#linkage='complete'表示最长距离法
model.fit(X)plt.subplot(222)
plt.title('Complete linkage')
plt.scatter(X[:,0],X[:,1],c=model.labels_,cmap='rainbow')
for i in range(X.shape[0]):plt.text(X[i,0],X[i,1],index[i])
plt.show()
#重心法
model=AgglomerativeClustering(n_clusters=3,linkage='average')#linkage='average'表示重心法
model.fit(X)plt.figure(figsize=(10,5))
plt.subplot(223)
plt.title('Average linkage')
plt.scatter(X[:,0],X[:,1],c=model.labels_,cmap='rainbow')
for i in range(X.shape[0]):plt.text(X[i,0],X[i,1],index[i])#类平均法
model=AgglomerativeClustering(n_clusters=3,linkage='ward')#linkage='ward'表示类平均法
model.fit(X)plt.subplot(224)
plt.title('Ward linkage')
plt.scatter(X[:,0],X[:,1],c=model.labels_,cmap='rainbow')
for i in range(X.shape[0]):plt.text(X[i,0],X[i,1],index[i])
plt.show()