使用R语言进行聚类分析

一、样本数据描述

城镇居民人均消费支出水平包括食品、衣着、居住、生活用品及服务、通信、文教娱乐、医疗保健和其他用品及服务支出这八项指标来描述。表中列出了2016年我国分地区的城镇居民的人均消费支出的原始数据,数据来源于2017年的《中国统计年鉴》,现要求对下面的数据进行聚类分析。

x1:食品烟酒支出,x2:衣着支出,x3:居住支出,x4:生活用品和服务支出,

x5:交通通信支出,x6:教育文化娱乐支出,x7:医疗保健支出,x8:其他用品和服务支出

City,X1,X2,X3,X4,X5,X6,X7,X8
北京,8070.4,2643,12128,2511,5077.9,4054.7,2629.8,1140.6
天津,8679.6,2114,6187.3,1663.8,3991.9,2643.6,2172.2,892.2
河北,4991.6,1614.4,4483.2,1351.1,2664.1,1991.3,1549.9,460.4
山西,3862.8,1603,3633.8,951.6,2401,2439,1651.6,450.1
内蒙古,6445.8,2543.3,4006.1,1565.1,3045.2,2598.9,1840.2,699.9
辽宁,6901.6,2321.3,4632.8,1558.2,3447,3018.5,2313.6,802.8
吉林,4975.7,1819,3612,1107.1,2691,2367.5,2059.2,534.9
黑龙江,5019.3,1804.4,3352.4,1018.9,2462.9,2011.5,2007.5,468.3
上海,10014.8,1834.8,13216,1868.2,4447.5,4533.5,2839.9,1102.1
江苏,7389.2,1809.5,6140.6,1616.2,3952.4,3163.9,1624.5,736.6
浙江,8467.3,1903.9,7385.4,1420.7,5100.9,3452.3,1691.9,645.3
安徽,6381.7,1491,3931.2,1118.4,2748.4,2233.3,1269.3,432.9
福建,8299.6,1443.5,6530.5,1393.4,3205.7,2461.5,1178.5,492.8
江西,5667.5,1472.2,3915.9,1028.6,2310.6,1963.9,887.4,449.6
山东,5929.4,1977.7,4473.1,1576.5,3002.5,2399.3,1610,526.9
河南,5067.7,1746.6,3753.4,1430.2,1993.8,2078.8,1524.5,492.8
湖北,6294.3,1557.4,4176.7,1163.8,2391.9,2228.4,1792,435.6
湖南,6407.7,1666.4,3918.7,1384.1,2837.1,3406.1,1362.6,437.4
广西,5937.2,886.3,3784.3,1032.8,2259.8,2003,1065.9,299.3
海南,7419.7,859.6,3527.7,954,2582.3,1931.3,1399.8,341
重庆,6883.9,1939.2,3801.1,1466,2573.9,2232.4,1700,434.4
四川,7118.4,1767.5,3756.5,1311.1,2697.6,2008.4,1423.4,577.1
贵州,6010.3,1525.4,3793.1,1270.2,2684.4,2493.5,1050.1,374.6
云南,5528.2,1195.5,3814.4,1135.1,2791.2,2217,1526.7,414.3
陕西,5422,1542.2,3681.5,1367.7,2455.7,2474,2016.7,409
甘肃,5777.3,1776.9,3752.6,1329.1,2517.9,2322.1,1583.4,479.9
青海,5975.7,1963.5,3809.4,1322.1,3064.3,2352.9,1750.4,614.9
宁夏,4889.2,1726.7,3770.5,1245.1,3896.5,2415.7,1874,546.6
新疆,6179.4,1966.1,3543.9,1543.8,3074.1,2404.9,1934.8,581.5
广东,9421.6,1583.4,6410.4,1721.9,4198.1,3103.4,1304.5,870.1
西藏,8727.8,1812.5,3614.5,983.0,2198.4,922.5,585.3,596.5

二、读入数据

df<-read.csv('f:/桌面/人均消费支出.csv')

head(df)

 head(df)city     x1     x2      x3     x4     x5     x6     x7     x8
1   北京 8070.4 2643.0 12128.0 2511.0 5077.9 4054.7 2629.8 1140.6
2   天津 8679.6 2114.0  6187.3 1663.8 3991.9 2643.6 2172.2  892.2
3   河北 4991.6 1614.4  4483.2 1351.1 2664.1 1991.3 1549.9  460.4
4   山西 3862.8 1603.0  3633.8  951.6 2401.0 2439.0 1651.6  450.1
5 内蒙古 6445.8 2543.3  4006.1 1565.1 3045.2 2598.9 1840.2  699.9
6   辽宁 6901.6 2321.3  4632.8 1558.2 3447.0 3018.5 2313.6  802.8

三、使用系统聚类法进行聚类分析

使用R语言中的hclust()进行聚类分析,调用格式为

hclust(d,method='comlete',member=NULL)

默认使用最长距离法,还可以使用下面几种方法:

1、类平均法(average linkage)2、重心法(centroid method)3、中间距离法(median method)4、最长距离法(complete method)5、最短距离法(single method)6、离差平方和法(ward method)7、密度估计法(density method)

attach(df)
df.hc<-hclust(dist(df[,2:9]))  #将聚类结果保存在变量df.hc中

plot(df.hc,hang=-1)   #绘制树状聚类图,使用默认的最长距离法进行聚类分析。

将样本数据分为3类

re<-rect.hclust(df.hc,k=3)

得到把分类框起来的聚类图:

从聚类图中可以看到:北京上海为第一类,江苏福建浙江天津广东为第二类,其余为第三类。

df.id<-cutree(df.hc,k=3)
df.id

df.id[1] 1 2 3 3 3 3 3 3 1 2 2 3 2 3 3 3 3 3 2 3 3 3 3 3 3 3 3 3 3 3 3

得到了31个样本具体的分类数据。

四、使用模糊聚类的方法进行聚类分析

row.names(df)<-df[,1]

df<-df[,-1]

library(cluster)
fy<-fanny(df,3)

运行得到:

 summary(fy)
Fuzzy Clustering object of class 'fanny' :                      
m.ship.expon.        2
objective     15896.27
tolerance        1e-15
iterations          49
converged            1
maxit              500
n                   31
Membership coefficients (in %, rounded):[,1] [,2] [,3]
北京     51   25   25
天津     65   17   17
河北     10   45   45
山西     14   43   43
内蒙古   13   44   44
辽宁     24   38   38
吉林      9   46   46
黑龙江    9   45   45
上海     49   25   25
江苏     54   23   23
浙江     69   16   16
安徽      8   46   46
福建     58   21   21
江西      9   46   46
山东     10   45   45
河南      9   45   45
湖北      8   46   46
湖南     13   43   43
广东     67   16   16
广西     10   45   45
海南     17   41   41
重庆     11   45   45
四川     13   44   44
贵州      7   46   46
云南      7   46   46
西藏     27   36   36
陕西      7   46   46
甘肃      5   47   47
青海      7   47   47
宁夏     14   43   43
新疆      8   46   46
Fuzzyness coefficients:
dunn_coeff normalized 0.4172668  0.1259002 Membership coefficients (in %, rounded):运行得到了模糊矩阵的系数,也就是各样品的分类系数,那么如果该样本在这三个类中的某类系数最大,该样本就属于该类。
Closest hard clustering:为按照分类系数在各类取值的大小得到的聚类结果。很明显该聚类结果和系统聚类法得到的结果存在显著差异。
plot(fy)
运行得到:
1、样本的主成分分类图
31个样本在两个主成分得分绘制在直角坐标系中所描述的点,每个样本在图中用不同的标记标出,每一类都被框起来。从图中可以看到第一类7个样本为最右上角的图形和第二类三类可以明显区分,第二类和第三类不能明显区分。

2、样本的侧影图,从下图侧影图中可以直观的看出各类包含哪些样本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/272374.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

简单多状态dp问题----删除并获得点数

740. 删除并获得点数 - 力扣&#xff08;LeetCode&#xff09; 本题就是表示不能选值相邻的两个数。 假设nums [ 1,2,3,4,5,6]&#xff0c;那么这其实就类似一个打家劫舍问题&#xff1a; 即选1&#xff0c;就不能选2&#xff0c;只能选3&#xff0c;4&#xff0c;5&#xff…

excel常用操作备忘

目录 快捷键基础数据透视图统计某列的值出现的频数 数据有效性数据分列运算符顺序文本匹配中的通配符错误的类型&#xff08;常与IF嵌套使用&#xff09;函数RANK(num, ref, [order])MID(str, start, len)逻辑函数混合函数选取整列AVERAGEIF(range, criteria, average_range)TR…

Flink 学习3 - 流处理API的基本转换算子 + 多流转换算子

流处理API-Transform 1、基本转换算子 map、flatMap、filter通常被统一称为基本转换算子&#xff08;简单转换算子&#xff09; DataStream 里没有 reduce 和 sum 这类聚合操作的方法&#xff0c;因为 Flink 设计中&#xff0c;所有数据必须先分组才能做聚合操作。 先 keyB…

ASUS华硕天选2锐龙版笔记本电脑FA506ICB/FA706IC原装出厂Windows11系统,预装OEM系统恢复安装开箱状态

链接&#xff1a;https://pan.baidu.com/s/122iHHEOtNUu4azhVPnxNuA?pwdsqk7 提取码&#xff1a;sqk7 适用型号&#xff1a; FA506IM、FA506IE、FA506IC、FA506IHR FA506IR、FA506IHRB、FA506ICB、FA506IEB FA706IM、FA706IE、FA706IC、FA706IHR FA706IR、FA706IHRB、F…

《Effective Modern C++》- 极精简版 15-21条

本文章属于专栏《业界Cpp进阶建议整理》 继续上篇《Effective Modern C》- 极精简版 5-14条。本文列出《Effective Modern C》的15-21条的个人理解的极精简版本。 Item15、尽量使用constexpr constexpr形容对象 constexpr对象都是const&#xff0c;但是const对象不一定是conste…

单数码管(arduino)

1.连接方法 挨个点亮每个灯 #include <Arduino.h>int pin_list[] {4, 5, 19, 21, 22, 2, 15, 18}; int num_pins sizeof(pin_list) / sizeof(pin_list[0]); // 计算数组中的元素数量void setup() {// 设置每个引脚为输出for(int i 0; i < num_pins; i) {pinMode(p…

ArcGIS学习(十三)多源数据下的城市街道功能评估

ArcGIS学习(十三)多源数据下的城市街道功能评估 本任务带来的内容是多元数据下的城市街道功能评估。本任务包括两个关卡: 城市街道空间中观解读 城市街道功能详细评价 首先,我们来看看本任务的分析思路。 1.城市街道空间中观解读 下面我们正式进入第一关的内容一- 城市…

html--心花怒放

代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>Canvas 绘制一个❤</title><link rel"shortcut icon" href"../../assets/images/icon/favicon.ico" type"ima…

c#触发事件

Demo1 触发事件 <Window x:Class"WPFExample.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"Title"WPF Example" Height"600" Wi…

混合输入矩阵乘法的性能优化

作者 | Manish Gupta OneFlow编译 翻译&#xff5c;宛子琳、杨婷 AI驱动的技术正逐渐融入人们日常生活的各个角落&#xff0c;有望提高人们获取知识的能力&#xff0c;并提升整体生产效率。语言大模型&#xff08;LLM&#xff09;正是这些应用的核心。LLM对内存的需求很高&…

外包干了30天,技术明显退步。。

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 这次来聊一个大家可能也比较关心的问题&#xff0c;那就是就业城市选择的问题。而谈到这个问题&a…

在Mac上安装nginx+rtmp 本地服务器

需要使用终端命令&#xff0c;如果没有Homebrew&#xff0c;要安装Homebrew,执行&#xff1a; ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 一、安装Nginx 1、先clone Nginx项目到本地&#xff1a; brew tap de…

redis缓存满了的话会发生什么?

线上问题 未及时加监控&#xff0c;导致线上redis被逐出&#xff0c;业务有损 示例&#xff1a; 一个key临时存储在redis等缓存中&#xff0c;如果该key在一段时间内有很大作用 比如一次业务请求&#xff0c;上游服务写入一个value&#xff0c;时长1小时&#xff0c;下游服务…

LiveNVR监控流媒体Onvif/RTSP功能-视频广场点击在线或离线时展示状态记录快速查看通道离线原因

LiveNVR视频广场点击在线或离线时展示状态记录快速查看通道离线原因 1、状态记录1.1、点击在线查看1.2、点击离线查看 2、RTSP/HLS/FLV/RTMP拉流Onvif流媒体服务 1、状态记录 1.1、点击在线查看 可以点击视频广场页面中&#xff0c; 在线 两个字查看状态记录 1.2、点击离线查…

CraxsRat7.4 安卓手机远程管理软件

CRAXSRAT 7.4 最新视频 https://v.douyin.com/iFjrw2aD/ 官方网站下载 http://craxsrat.cn/ 不要问我是谁&#xff0c;我是活雷锋。 http://craxsrat.cn/ CraxsRat CraxsRat7 CraxsRat7.1 CraxsRat7.2 CraxsRat7.3 CraxsRat7.4

SSL 证书,了解一下常识

公司的网站、应用怎么才能保证在互联网上安全运行&#xff0c;不被攻击、盗取数据呢&#xff1f; 创业必经之路&#xff0c;一步一步走就对了&#xff0c;可能没赶上红利期&#xff0c;但不做就等于0。 概述 SSL 证书&#xff08;SSL Certificates&#xff09;又称数字证书&am…

低密度奇偶校验码LDPC(九)——QC-LDPC译码器FPGA全并行设计

往期博文 低密度奇偶校验码LDPC&#xff08;一&#xff09;——概述_什么是gallager构造-CSDN博客 低密度奇偶校验码LDPC&#xff08;二&#xff09;——LDPC编码方法-CSDN博客 低密度奇偶校验码LDPC&#xff08;三&#xff09;——QC-LDPC码概述-CSDN博客 低密度奇偶校验码…

HashSet在添加元素时,是如何判断元素重复的?

前言&#xff1a;我们知道Set中所存储的元素是不重复的&#xff0c;那么Set接口的实现类HashSet在添加元素时是怎么避免重复的呢&#xff1f; HashSet在添加元素时&#xff0c;是如何判断元素重复的? ● 在底层会先调用hashCode()&#xff0c;注意&#xff0c;Obje…

Hive安装教程-Hadoop集成Hive

文章目录 前言一、安装准备1. 安装条件2. 安装jdk3. 安装MySQL4. 安装Hadoop 二、安装Hive1. 下载并解压Hive2. 设置环境变量3. 修改配置文件3. 创建hive数据库4. 下载MySQL驱动5. 初始化hive数据库6. 进入Hive命令行界面7. 设置允许远程访问 总结 前言 本文将介绍安装和配置H…

Java高频面试之消息队列与分布式篇

有需要互关的小伙伴,关注一下,有关必回关,争取今年认证早日拿到博客专家 消息队列的基本作用&#xff1f; 异步通信&#xff1a;消息队列提供了异步通信的能力&#xff0c;发送方可以将消息发送到队列中&#xff0c;而无需等待接收方立即处理。发送方和接收方可以解耦&#x…