大数据毕设 - 校园卡数据分析与可视化(python 大数据)

文章目录

  • 0 前言
  • 1 课题介绍
  • 2 数据预处理
    • 2.1 数据清洗
    • 2.2 数据规约
  • 3 模型建立和分析
    • 3.1 不同专业、性别的学生与消费能力的关系
    • 3.2 消费时间的特征分析
  • 4 Web系统效果展示
  • 5 最后


0 前言

🔥 Hi,大家好,这里是丹成学长的毕设系列文章!

🔥 对毕设有任何疑问都可以问学长哦!

这两年开始,各个学校对毕设的要求越来越高,难度也越来越大… 毕业设计耗费时间,耗费精力,甚至有些题目即使是专业的老师或者硕士生也需要很长时间,所以一旦发现问题,一定要提前准备,避免到后面措手不及,草草了事。

为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的新项目是

🚩 大数据校园卡数据分析

🥇学长这里给一个题目综合评分(每项满分5分)

  • 难度系数:4分
  • 工作量:4分
  • 创新点:3分

🧿 选题指导, 项目分享:

https://gitee.com/yaa-dc/BJH/blob/master/gg/cc/README.md



1 课题介绍

近年来,大数据的受关注程度越来越高。如何对大数据流进行抽取转换成有用的信息并应用于各行各业变得越来越重要。如今,校园一卡通系统在高校应用十分广泛,大部分高校主要利用校园一卡通对校园中的各类消费阅、补助领取等进行统一管理。通过数据分析算法,对大学生校内消费记录进行整理、分类、预测,从而整体反应学生在校消费情况,形成量化的评判标准,同时也为今后的贫困生资助管理工作提供可靠的数据支持,辅助完成贫困生的相关工作。


2 数据预处理

在进行数据挖掘或者数据分析之前,需要对“脏数据” 数据进行数据预处理,一般采用数据清理、数据集成、数据变换等方式,已获得更好的分析效果。


2.1 数据清洗

由于数据库中有着大量的数据表,我们获取到的数据表中会存在着异常数据,如数据不合法与常识不符,同一个字段属性值来源于多张数据表且数值不一样等。数据预处理主要去处可忽略的字段、忽略空缺记录、可处理噪声的数据、可删除的数据等。由于部分校园卡用户,如教职工、研究生等,消费时具有很强的随机性和离散型。同时,为了保护隐私,对姓名、学号等属性要做脱敏和隐私处理。


2.2 数据规约

预处理后的数据不一定适合直接使用,因此需要对数据进行集成和变换,将多个数据库中提取出的数据项整合到一起,组成新的数据集环境,并经过详细对比和筛选解决数据不一致和数据冗余等问题。为了适合分析,我们要对数据进行离散化和概念分层处理。


3 模型建立和分析

通过建立消费数据分析模型,对学校校园卡消费行为进行分析,总结学校学生消费特征,对不同消费类型的学生进行用户画像和分类。以学生的“性别”、“专业”分类作为横向分类,以“消费能力(金额)”,“消费项目”,“消费时间”和“消费地点”四个方面为纵向分类,组成分析模型。寻找消费特征进行进行总结,形成假设结论。

#1.总体消费情况
#2.不同专业、性别的学生与消费能力的关系
#3.不同性别的学生与消费项目的关系
#4.消费时间的特征分析
#5.消费地点与门禁通过地点的关系分析
#6.学生消费特征分层模型
import matplotlib.pyplot as plt
expen_rec = pd.read_csv(r'C:\Users\River\Desktop\校园卡数据\expen_rec.csv',encoding='gbk')
student = pd.read_csv(r'C:\Users\River\Desktop\校园卡数据\student.csv',encoding='gbk')
access = pd.read_csv(r'C:\Users\River\Desktop\校园卡数据\access.csv',encoding='gbk')
all_data1 = pd.merge(expen_rec,student,on ='校园卡号',how='left')
all_data1.head()

在这里插入图片描述


3.1 不同专业、性别的学生与消费能力的关系

from pylab import *
plt.rcParams['font.sans-serif']=['SimHei']
%matplotlib inline
total = con_sum.groupby(['性别'])[['消费金额']].sum()
total1= con_sum.groupby(['性别'])[['消费金额']].count()
plt.subplot(121)
plt.pie(total['消费金额'],labels=total.index,autopct='%2.f%%')
plt.title('男女生消费总金额对比')
plt.subplot(122)
plt.pie(total1['消费金额'],labels=total1.index,autopct='%2.f%%')
plt.title('男女生人数对比')
plt.show()

在这里插入图片描述

fig1 = plt.figure(num =1, figsize=(8,4))
plt.title('各消费等级人数')
plt.xlabel('消费等级')
x1 =['(0, 100] ','(100, 150]','(150, 200] ','(200, 250]','(250, 300]','(300, 350]','(350, 400]','(400, 500]','(500, 3000]']
y1 = list(table1.values)
y2 =list(table2.loc[('女',slice(None))].values)
y3 =list(table2.loc[('男',slice(None))].values)
plt.plot(x1,y1,label='总体')
plt.plot(x1,y2,label='女生')
plt.plot(x1,y3,label='男生')
plt.legend(loc=2)
plt.show()

在这里插入图片描述

#分析各专业总消费金额排列
fig2 = plt.figure(num =2, figsize=(14,6))
plt.title('各专业总消费金额排列')
plt.xlabel('专业名称')
x1=table3.index
y1=table3['消费总金额']
plt.bar(x1,y1)
plt.xticks(x1,x1,rotation=45)
for a,b in zip(x1,y1):plt.text(a, b+0.05, '%.0f' % b, ha='center', va= 'bottom',fontsize=9)
plt.show()

在这里插入图片描述

小结:

1.该校18级学生的人均每月校园卡消费295.96元;

2.女生人数占比59%,总消费额占比56%,消费总金额与性别差异不大;

3.从消费金额级区间上看,学生的总体消费金额主要在[200,500]的区间内,但男女生消费存在明显差异:女生消费金额在[200-350]区间内人数明显高于男生,但随着增加而下降,而男生在400以上的区间内的人数高于女生。男生对校园卡消费方式差异较大,一般不使用或者经常使用。女生多数选择轻度使用。

4.从各专业消费总金额上看机械制造专业最高,机械制造(学徒)专业最低。但结合各专业的人均消费分析,各专业的人均消费差异很小,标准差仅为42.8。人均消费最高的机械制造(学徒)专业因为人数最少仅为14人,对总体数据影响较小。可以得出:学生的校园卡消费能力与专业无明显区别。


3.2 消费时间的特征分析

fig7 = plt.figure(num =7, figsize=(8,4))
mon1= time_tab.groupby(['日期'])[['消费金额']].count()
mon2= time_tab1.groupby(['日期'])[['消费金额']].count()
mon3= time_tab2.groupby(['日期'])[['消费金额']].count()
plt.title('月度消费次数趋势分析')
plt.xlabel('日期')
x1 = list(mon1.index)
y1 = list(mon1.values)
y2 =list(mon2.values)
y3 =list(mon3.values)
plt.plot(x1,y1,label='总体')
plt.plot(x1,y2,label='女生')
plt.plot(x1,y3,label='男生')
plt.legend(loc=2)
plt.show()
#除个别天数外,女生均高于男生,每周之间趋势相似

在这里插入图片描述

fig8 = plt.figure(num =8, figsize=(8,4))
wk1= time_tab.groupby(['星期'])[['消费金额']].count()
wk2= time_tab1.groupby(['星期'])[['消费金额']].count()
wk3= time_tab2.groupby(['星期'])[['消费金额']].count()
def autolabel(rects):for rect in rects:height = rect.get_height()plt.text(rect.get_x()+rect.get_width()/2.-0.2, 1.03*height, '%s' % float(height))
plt.title('月度消费次数趋势分析')
plt.xlabel('星期')
y1 = wk2['消费金额']
y2 = wk3['消费金额']
x1=range(len(y1))
x2=[i +0.35 for i in x1]
a=plt.bar(x1,y1, width=0.3,label='女生',color='blue')
b=plt.bar(x2,y2, width=0.3,label='男生',color='green')
autolabel(a)
autolabel(b)
plt.legend()
plt.xticks(x1,list(wk1.index),rotation=45)
plt.show()
#周一至周三消费次数较高,男女生在一周内的消费频率的波动没有明显差异

在这里插入图片描述

1.从一个月的每天的消费次数上看,除个别天数男女生消费次数相近,多大多数天数的女生的消费次数高于男生,且每周之间趋势相似,可以得出学生日常的消费习惯比较稳定;

2.从每周的消费次数汇总上看,周一至周三消费次数较高,并且逐步下降,周末为消费次数最低的时候。男女生在一周内的消费频率的波动趋势相同,没有明显差异;

3.从每天的消费的时间段分析上看,周末的刷卡消费次数为平常的12%。食堂可以根据数据情况,适当安排休息,减少人力成本浪费;

4.平常时间的早、中、晚餐的用餐时间集中在7点、11点、17-18点时间段。周末消费的时间相对平缓,早餐的高峰时间会延后到8点时间段,且持续有人员消费,中餐的用餐时间也会有部分后延到12点的时间段。晚餐时间则会部分提前17点的时间段进行,需要提前做好食堂的准备事项。


4 Web系统效果展示

以上是校园卡分析的部分过程,我们还可以做成web系统来展示。效果如下:

4.平常时间的早、中、晚餐的用餐时间集中在7点、11点、17-18点时间段。周末消费的时间相对平缓,早餐的高峰时间会延后到8点时间段,且持续有人员消费,中餐的用餐时间也会有部分后延到12点的时间段。晚餐时间则会部分提前17点的时间段进行,需要提前做好食堂的准备事项。

Web系统效果展示

以上是校园卡分析的部分过程,我们还可以做成web系统来展示。效果如下:

在这里插入图片描述

在这里插入图片描述


5 最后

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37098.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大学生毕设小demo(后台管理系统)

大学生毕设小demo 介绍 使用java和react和mongoDBmySQLredis搭建的一个大学生模板管理系统,功能丰富 可查看线上部署地址点击链接体验功能 一、相关功能(都是同步数据库的) 1.数据的基本增删查改 2.用户的登录判断(含token60s有效验证码)&#xff0…

文件名、目录名或卷标语法不正确;AttributeError: module ‘numpy‘ has no attribute ‘long‘;shell脚本:Syntax error: Bad for

1、文件名、目录名或卷标语法不正确; 根据您提供的代码片段,错误出现在makedirs()函数的调用中。这个函数用于创建多层次的目录。 根据代码片段,makedirs()函数的调用是在以下条件满足时发生的: head和tail都不为空。head所代表的路径不存…

大模型-DeltaTuning:①增量式(原模型参数不变,插入可微调参数层)、②指定式(原模型参数冻结一部分参数,微调一部分参数)、③重参数化式(将原模型参数层改造,比如插入低秩)

【随着模型增大,各方案区别不大】 统一框架: 《Towards a Unified View of Parameter-Efficient Transfer Learning》 GitHub - thunlp/PromptPapers: Must-read papers on prompt-based tuning for pre-trained language models. GitHub - thunlp/DeltaPapers: M

大模型微调技术(Adapter-Tuning、Prefix-Tuning、Prompt-Tuning(P-Tuning)、P-Tuning v2、LoRA)

2022年11月30日,ChatGPT发布至今,国内外不断涌现出了不少大模型,呈现“百模大战”的景象,比如ChatGLM-6B、LLAMA、Alpaca等模型及在此模型基础上进一步开发的特定领域的大模型。今年3月15日,GPT-4发布后,也…

FP独立站卖家怎么解决收款问题?挑选支付公司有何关注点?

2023年是充满希望又充满挑战的一年。这一年,新冠肺炎疫情恢复,经济慢慢复苏,对做跨境电商的卖家来说是个不错的机遇;但由于chatgpt人工智能的出现,F牌网站被检测出来的几率大大提高……让F牌独立站卖家最头疼的是&…

2023年8大公司数据泄露事件

数据安全一直是社会关注的热点问题,数据泄露事件的披露始终占据媒体的头条榜首。随着大数据、互联网、5G的迅速发展,为人类带来无限发展机遇的同时,也催生了大量的信息泄露事件。 当发生数据泄露事件时,他们攻破企业网络防线&…

AI浪潮下,企业如何保障数据安全,不泄露

随着数字经济蓬勃发展,数据对于企业的价值与重要性不断攀升,随之而来的数据安全风险也不断涌现。再加上ChatGPT诞生,推动ai算力技术大步跃进,而算力提升的背后是史诗量级规模的数据投入,数据量越大,用户数据…

奇瑞汽车回应要求员工周六上班:本意不是压榨员工;Google发布史上最大通才模型PaLM-E;Chrome 111发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

杭州一公司开20万月薪抢AIGC算法工程师;SpaceX「星舰」发射任务失败;华为宣布实现ERP自主可控,突破封锁|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

小心你的 OpenAI Key 被盗!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 今年随着 ChatGPT 发布,其强悍的能力也让 GPT-3.5/4 成为炙手可热的大语言模型,使得不少 AI 应用接入了 OpenAI 接口。当用户使用这些应用时,经常需要填…

百川智能王小川:大模型创业100天,我确认找到了属于我的「无人区」

4 月,王小川宣布下场,成立大模型公司「百川智能」。 6 月,百川智能发布 70 亿参数开源大模型,Baichuan-7B。 7 月,百川智能发布 130 亿参数开源大模型,Baichuan-13B。 两款模型在各种测评上都有不错的表现&…

看这里!解决你对“移动云杯”大赛的所有困惑

对于第二届“移动云杯”大赛 你是否还有很多问号? 不慌 跟着来看下面的大赛Q&A 解决你所有的困惑~ 本次Q&A主要用于解答大赛报名阶段基础问题,针对技术问题大赛组委会将在搜集用户开发问题后在社区论坛发布技术版FAQ,如还有其他问题可…

信号明确简单 顶底指标公式 通达信 副图 源码

顶底指标公式其实就是很简单,就是在股票价格最低时提示买入,逢高时显示抛售信号,但是顶底指标公式,很多人都会怀疑买卖信号出现的准确性,不多说,看下面解释吧。 【指标原理】 1、出现买入信号&#xff0c…

MACD神器 通达信指标公式 副图 源码 无加密 无未来

指标公式描述 MACD指标是人们喜欢的一个经典传统指标。MACD是用的最多的指标,有交易的地方都能看到他。但是又有多少人能够真正搞懂了这个指标,大部分人都是用来看个趋势就没有下文了。MACD看透主力这个指标能够帮助你看的更准,卖的更好&…

股票指标php源码,股票软件通达信精品指标公式-MACD转折点指标源码

公式源码: DIFF:(EMA(C,12)-EMA(C,26))*20,COLORWHITE,LINETHICK1; DEA:EMA(DIFF,9),COLORYELLOW,LINETHICK1; MACD1:2*(DIFF-DEA),NODRAW; MACD2:EMA((3*MACD12*REF(MACD1,1)REF(MACD1,2))/6,1); STICKLINE(MACD1>MACD2 AND MACD1>0,0,MACD1,0,0),COLORRED; …

分时图均价线计算公式源码,可以加载到K线图

一、分时图均价线简介 分时图其实就是1分钟图,但是和1分钟K线图有区别。分时图是以收盘价连成的线,但是1分钟K线图是以开高低收的K线形成的图形。如果把主图切换成收盘价,那么图形和分时图就一样了。 分时图上,除了以1分钟收盘价…

RSI指标各种买卖信号公式源码分享

相对强弱指数RSI是目前流行最广,使用最多的技术指标之一,他是技术分析大师威尔德创造的。RSI之所以流行最广,是因为他不但可以应用在股票市场,在期货和外汇市场也有较好的应用。 RSI是以一特定时期内股价的变动情况来推测价格未来…

基金买卖波段指标 主图 源码 效果图

使用说明: 适用同花顺软件使用,别的软件用要改编。 有未来。 效果图: 直接复制以下源代码,在公式管理器中新建指标公式,复制进去就可以用了(仅供参考): MA5:MA(CLOSE,5),ColorCCC…

Html5版全套股票行情图开源了

请使用支持html5的浏览器查看,推荐使用google chrom或者ipad体验,ie6,7,8都不支持html5 powered by yukaizhao K线图 滑块控制 K线图 触摸控制 请使用ipad体验效果 大分时图 小分时图 交易分析图 成交额分析图 交易分析图 项目地…

通达信波段主图指标公式,源码简洁原理却不简单

通达信波段主图指标公式的核心语句也就4句&#xff0c;后面的语句都是为了画图的。公式看起来比较简单&#xff0c;原理也比较巧妙&#xff0c;但是理解起来有些困难。 直接上源码&#xff1a; HH:HHV(H,5); LL:LLV(L,5); TH:BARSLAST(H>REF(HH,1)); TL:BARSLAST(L<REF(…