计算机毕业设计Python+Spark知识图谱高考志愿推荐系统 高考数据分析 高考可视化 高考大数据 大数据毕业设计 机器学习 深度学习 人工智能

学院(全称)                        专业(全称)       

姓名

学号

年级

班级

设计(论文)

题目

基于Spark的高考志愿推荐系统设计与实现

指导教师姓名

职称

拟完成时间

2023年10 月 15  日

设计(论文)类别

þ项目设计制作类    ¨项目设计策划类    ¨实践操作类

¨课堂教学与设计类  ¨学位论文类

命题来源

þ教师命题            ¨学生自拟          ¨教师科研课题

是否在实验实训、实习、工程实践和社会调查等社会实践中完成

þ是   ¨否

一、选题依据及意义

1.选题依据:

高考是中国的大学招生的学术资格考试,在目前看来,高考的考试类型有两种,一种是文理分科,另一种是新高考模式[1]。传统的文理分科是将学生分成两个类型,一种是文科,除了语数外三门课以外需要学习政史地,理科相对应的就需要学习物化生。根据学生的高考成绩和每个大学在所对应省份的总体招生计划来分梯度划线,也就是我们常说的重本线,二本线和专科线。

高考填报志愿对每个考生都非常重要,每年全国有数百万家庭使用网络了解高考支援志愿信息并推荐填报志愿。对于很大一部分考生和家长来说,短时间了解全国数千所高等院校的招生标准、历史录取分数、专业要求等信息非常困难。往往由于信息的缺失或错误造成高考志愿与考生成绩之间的较大差异,对考生造成不可挽回的损失。

  1. 意义:

目前高考志愿填报,涌现很多没有结合自身实际、盲目跟风的不良现象,最常见的跟风是过度依赖智能系统,很多家长、考生缺乏高考志愿相关专业知识,又没有太多时间去研究,面对浩如烟海的数据产生焦虑情绪,希望找到一种性价比高的方式,解决填报志愿时遇到的各种难题,最好能省心省事直接生成填报方案[2]。在庞大用户需求量和高额利润诱惑下,高考志愿智能辅助系统软件的市场近年来变得非常火爆,有些商家抓住客户着急心理和对行情信息不了解的情况,做出虚假、过分夸大宣传。大部分家长不能从专业角度去甄别智能系统,盲目跟风缴费升级会员,过分迷信权威金牌专家、内部来源数据、人工智能一键生成方案等,很多考生三年备考、三分钟报考,录取去向满意度不高。

在当今时代,互联网的高度普及以及信息技术的飞速发展都使得数据呈现爆炸式增长,海量的数据然已成为一种“藏”。与此同时,社会出现了大量的“据金者”在数据的海洋里挖掘、采集、提炼、分析,想要发掘有价值的信息。据了解,大数据目前主要应用于互联网、电商、视频门户网站等企业领域,对于教育领域则运用的较少高考是教育领域中最引人注目的大事件,中国作为高考大国,在高考招生的信息化建设中,积累了非常丰富的高考信息数据资源,包括历年的报名库、志愿库、录取库、成绩库等等,且数据大多为原始数据未经过处理。面对这些数据,考生在填报志愿时往往无所适从,导致高考数据没能充分体现其价值,面对大数据时代所带来的数据过载等问题,推荐系统列和搜索引应运而生,相比于后者的信息被动选择模式,推荐系统是基于用户的相关行为数据自动的帮助用户过滤掉一些无用或不喜欢的内容,直接替用户完成了自我筛选的过程。其极大的缩短了用户在信息选择上的时间,同时也提高了用户相关行为数据的利用率[3]

二、研究目的与主要内容

1.研究目的:

高考志愿填报,是人生中的一大抉择,直接关系考生的终身发展每年都会有这样一个现象,有的考生分数很高,本可以录取到 985、211 高校的,但是因为志愿填报的误差,被激烈的竞争挤出来,或者由于不合适的专业选择直接导致了不理想的录取结果,更有甚者导致不得不复读[4]。为了让广大考生报考到一个相对适合自己的专业,我打算利用历年高考志愿填报数据,结合学生个人信息,采用大数据技术,设计一个基于Spark的高考志愿填报推荐系统,在学生填报高考志愿时给学生推荐适合自己的学校和专业,帮助广大考生报考理想学校,提高录取的机率。

2.主要内容:

1、SparkML推荐系统:包含协同过滤算法的两种实现(基于用户、基于物品)、基础业务功能;

2、后台管理系统:数据管理;

3、爬虫:爬取历年省控线、专业线、高考院校信息等作为数据集,并可以实时更新;

4、数据大屏驾驶舱:使用SparkSQL计算框架完成数据统计,以echarts形式进行可视化显示;

提纲:

摘要

英文摘要

1  引言 

    1.  研究背景
    2. 1.2  研究的目的和意义

1.3  国内外研究现状

1.4  研究主要内容与技术

1.4.1研究内容

1.4.2研究技术

2  基于python爬虫的数据爬取和数据库的建立

2.1  高考信息表

2.5  数据库的建立

3  数据进行展示、科学分析和预测

3.1  基于spark+echarts进行可视化展示

3.2  推荐算法

3.4  情感分析

4  系统的建立和展示

4.1  基于springboot+mybatis后端开发

4.2  基于html、echarts、vue前端开发

4.3  系统的最终调试

5  结束语

参考文献

致谢

附录

三、研究方法和手段

研究方法:

参阅相关资料、书籍,在网上调阅资料、学习相关教程、咨询指导老师。在网上收集相关的数据、查阅相关内容掌握数据含义,通过清洗、分析、建模、可视等步骤完成本项目。

手段:

1、按照设计题目要求设计毕业设计方案,配合指导教师进行设计;

2、明确数据的来源,查找数据的途径,确保数据的稳定性;

3、接受指导教师指导,定时汇报工作内容,并就相关问题进行讨论;

4、理论联系实际,培养正确的工作方法和严谨的科学态度;

5、按照进度计划完成毕业设计并书写毕业论文。

四、文献综述

 1、传统填报方法效率低、效果差。

目前,全国大部分省(自治区、直辖市)都是高考成绩公布后开始填报志愿,大部分家长和考生仅仅利用招生考试机构公布志愿填报日程几天时间,从近2700所高校和500多个专业中做出选择,对很多毫无经验的家长和考生来说“难于上青天”[5]。因为影响高考志愿因素太多,如考生职业生涯规划、个人和家庭情况、分数、院校、专业、城市、高考志愿政策规则、填报策略技巧、近3到5年录取数据、录取概率测算、就业情况等,如果仅在几天内通过传统手段,以手工查阅书籍材料,往往会因为资料难找、耗时长、易疲劳出错等原因,填报志愿和最终录取去向往往不尽如人意[6]

2、填报方案不科学,录取不满意案例多。

《中国青年报》社会调查中心发起的一项10万人参加的抽样调查,超过71.2%的人后悔当年的高考志愿。我们可以在新闻媒体或网络上看到很多志愿填报不科学的典型案例,其中很多是高材生。

2008年周某以青海省第三名的成绩被北京大学生命科学学院录取,两年后周某选择转学到了北京工业技师学院。2017年李某从中国科学技术大学退学补习,2018年高考以云南省理科第8名的好成绩拒绝清华大学和北京大学发出的邀请,选择了四川大学口腔专业。2017年广西理科高考第3名考生,填错高考志愿批次,最后通过征集获得录取。2017年浙江省646高分考生竟报考独立学院,全省被独立学院录取的600分以上考生多达9人[7]

现实中,还有很多高考过来人默默承受着高考志愿填报失误带来的痛,比如对专业不满意、对院校不满意、填错批次、错过填报时间、被退档、毕业后从事与自己所学专业毫无关联的工作等。

在本项目中主要研究的是传统文理分科的高考模式,因为这种模式有着大量的数据支撑,提供训练,能够高精度地做出预测[8]。而新考高模式刚刚施行,其数据是不足以支撑训练,从而做出预测。高考录取填报推荐志愿方式,梯度志愿和混合录取,经过不断优化,平行志愿已成为了高考录取的主流,大部分省份都采取平行志愿,所以本次项目也就平行志愿的录取方式来进行研究。即分数优先,满足偏好的方式,所以本项目着重对学生位次进行研究。针对高考这一热门话题,国内外都有着不少的专家学者对其进行研究,在过去的实践中,人们往往选用经典的时间序列方法来解决预测高校录取问题,即利用近5年高校录取的分数线,名次求平均值来预测当年的分数线,但是利用时间序列预测,就必须保证时间序列的过去值、当前值、和未来值之间存在着某种确定的函数关系[9]。所以这养的预测是不够精确,不够完善的。除了基于时间序列的预测以外,还有人通过录取线差法来对高考录取进行研究,所谓录取线差是指考生意向院校当年平均录取分数与其所在招生批次录取控制分数线的差值。但是,每年高考试卷难度有别,造成了各个院校各年度的录取分数可能发生较大的变化。

五、参考文献

[1]孙浩然,武雪明,吉雪芸.高考志愿智能推荐系统的设计与实现[J].电脑知识与技术,2023,19(09):41-45.DOI:10.14004/j.cnki.ckt.2023.0427.

[2]白俊杰. 基于混合推荐的高考志愿推荐系统的设计与实现[D].内蒙古大学,2022.DOI:10.27224/XXXXX.2022.001490.

[3]孟真. 基于Spark的高考推荐系统设计与实现[D].山东师范大学,2017.

[4]银虹宇. 基于大数据的高考志愿推荐系统的设计与实现[D].电子科技大学,2018.

[5]谢雷,唐旭,钟立国. 基于Spark的高考志愿填报系统设计与实现[J]. 计算机工程与设计, 2017, 38(9): 2461-2465.

[6]唐旭,钟立国,谢雷. 基于Spark的高考志愿填报系统设计与实现[J]. 现代计算机, 2019, 40(8): 129-132.

[7]李坤,田田. 基于Spark的高考志愿填报系统设计与实现[J]. 电脑知识与技术, 2019, 15(3): 80-81.

[8]陈娟,黄林伟. 基于Spark的高考志愿填报系统设计与实现[J]. 现代电子技术, 2020, 43(4): 181-184.

[9]基于Spark的高考志愿填报系统设计与实现 作者:谢雷,唐旭,钟立国 出处:《计算机工程与设计》,2017年,第38卷,第9期

[10]Guo, M., Zhang, J., Zhang, J., & Li, J. (2020). Research on Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Spark. In 2020 International Conference on Artificial Intelligence and Big Data (ICAIBD) (pp. 104-107).

[11]Wang, Y., Liu, W., Zhu, M., Li, H., & Li, J. (2019). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Big Data Analysis. In 2019 2nd International Conference on Mathematics, Modeling, Simulation and Education Application (MMSEA) (pp. 1-4).

[12]Wang, Z., & Guo, C. (2018). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Big Data Analysis. In 2018 IEEE International Conference on Big Data (Big Data) (pp. 4494-4496).

[13]Zhang, Y., & Li, S. (2018). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Spark. In 2018 International Conference on Data Science and Advanced Analytics (DSAA) (pp. 535-539).

六、工作进度安排

2023.7.10-2023.8.1选题,查阅资料,拟定大纲,填写开题报告

2023.8.2-2023.8.20撰写论文初稿并以班级为单位上交学院

2023.8.21-2023.9.20在指导老师指导下修改论文

2023.9.21-2023.10.15继续修改论文,并定稿打印,送交论文,等待答辩

七、预期成果

顺利完成毕业论文和毕业设计,设计出一个基于Spark的高考志愿推荐系统,可以实现根据考生的个人情况提供个性化志愿服务的推荐系统,帮助考生最大化挑选自己喜欢的院校及专业,提高高考志愿填报的成功率。

(以上内容在教师指导下由学生填写) 学生签名:         年  月  日

八、指导教师审核意见:

   指导教师签名:               年  月  日

 

九、学院毕业设计(论文)领导小组审核意见:

领导小组签名:             年  月  日                            

说明:本表由学生填写,指导教师和学院签署意见,一式三份,分别存于教务处、学院、学生个人档案。

核心代码分享如下:

大数据项目专用脚本
## 启动hadoop
cd /data/hadoop/sbin
start-all.sh## 启动hive cd /data/hivenohup hive --service metastore &nohup hive --service hiveserver2 &--先将mysql中的高考数据集导出csv文件
原因:1.如果Python爬取直接生成csv的话需要电脑开机连续爬取5-7天,不现实2.Python爬取存mysql然后转csv可以保证我们可以在任意时间开机爬取(数据库滤重)
--测试mysqldump -h localhost -u root -p gaokao school > D:\hadoop_spark_hive_gaokao_fenxi_vmvare2024\export_csv\school.csv----需要导入hive的表列举	  
school  √
school_province_score √ 省控线
special √
school_special_score √
ruanke_rank 软科中国大学排名 √
qs_world √
province  √

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/291213.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实时语音识别(Python+HTML实战)

项目下载地址:FunASR 1 安装库文件 项目提示所需要下载的库文件:pip install -U funasr 和 pip install modelscope 运行过程中,我发现还需要下载以下库文件才能正常运行: 下载:pip install websockets,pi…

Excel数据分析-----快捷键

智能拆分 1、先将第一行的数据手动拆分出来。 2、在拆分出来的列上面按住ctrlE,就可以自动向下填充了 自动生成下拉列表 alt向下箭头 插入批注 shiftf2 如何在批注中进行查找 ctrlf打开查找窗口。 快速删除批注 ctrlG 右键删除批注 快速美化表格 ctr…

常见的Nginx+Redis+MQ+DB架构设计

三高,复杂的架构 SQRS CAP 缓存,限流 【Redis,缓存】 cache-aside 缓存cache:数据源的副本 store 1. Read/Write Through Pattern 读写穿透模式 redis:放当前在线用户,热点数据

Kubernetes-running app on kube

Docker 安装Docker 首先,您需要在Linux机器上安装Docker。如果您不使用Linux,则需要启动一个Linux虚拟机(VM)并在该虚拟机中运行Docker。如果你使用的是Mac或Windows系统,并按照指令安装Docker, Docker将为你建立一个虚拟机,并在…

使用mysql官网软件包安装mysql

确定你的操作系统,我的是Centos myqsl 所有安装包的地址:https://repo.mysql.com/yum/ 如果你是使用rpm安装你可以到对应的版本里面找到对应的包。 mysql 发行包的地址:http://repo.mysql.com/ 在这里你可以找到对应的发布包安装。 这里使用y…

AJAX(一):初识AJAX、http协议、配置环境、发送AJAX请求、请求时的问题

一、什么是AJAX 1.AJAX 就是异步的JS和XML。通过AJAX 可以在浏览器中向服务器发送异步请求,最大的优势:无刷新获取数据。AJAX 不是新的编程语言,而是一种将现有的标准组合在一起使用的新方式。 2.XML 可扩展标记语言。XML被设计用来传输和…

爬虫逆向实战(38)-某空气质量平台(反调试,AES,DES,MD5)

一、数据接口分析 主页地址:某空气质量平台 1、抓包 (1) 反调试 该网站对鼠标右击以及F12进行了监听并拦截 虽然该网站无法打开Chrome控制台,导致我们无法抓包,但是道高一尺魔高一丈。既然我们无法在打开该网站的时候打开Chrome控制台&…

在Windows上交叉编译STM32(环境搭建)

在Windows上交叉编译STM32 Keil 虽然好用,但是是收费的,不想破解怎么办~ 使用交叉编译工具! 交叉编译工具下载 官方交叉编译工具下载连接 下载解压好后将 bin 目录写入 PATH, 使用命令行检测是否安装成功。 Windows 安装 make …

RN在android/ios手机剪切图片的操作

之前写过一个React Native调用摄像头画面及拍照和保存图片到相册全流程但是这个仅限于调用摄像头拍照并保存图片,今天再写一个版本的操作,这个博客目前实现的有三点操作: 调用摄像头拍照对照片进行剪切从相册选取图片 功能上面来说有两点: 点击按钮可以对摄像头进行拍照,拍完照…

Etcd 基本入门

1:什么是 Etcd ? Etcd 是 CoreOS 团队于2013年6月发起的开源项目,它的目标是构建一个高可用的分布式键值(key-value)数据库。etcd内部采用raft协议作为一致性算法,Etcd基于 Go 语言实现。 名字由来,它源于两个方面,…

#include<初见c语言之指针总结>

第一小节: #include<初见C语言之指针(1)>-CSDN博客 #add<初见C语言之指针(1)>-CSDN博客 第二小节: #include<初见c语言之指针…

redis集群配置(精华版):哨兵模式

哨兵模式 概念单机单个哨兵多哨兵模式 动手实操1、环境准备2、配置sentinel.conf配置文件3、启动哨兵&测试4、SpringBoot测试哨兵模式故障转移功能 概念 主从切换技术的方法是:当主服务器宕机后,需要手动把一台从服务器切换为主服务器,这…

苹果Find My产品需求增长迅速,伦茨科技ST17H6x芯片供货充足

苹果的Find My功能使得用户可以轻松查找iPhone、Mac、AirPods以及Apple Watch等设备。如今Find My还进入了耳机、充电宝、箱包、电动车、保温杯等多个行业。苹果发布AirTag发布以来,大家都更加注重物品的防丢,苹果的 Find My 就可以查找 iPhone、Mac、Ai…

04-JavaScript函数

函数(重点) 1.为什么使用函数? 用函数来解决代码重用的问题。 2.函数的意义 函数其实就是封装,把可以重复使用的代码放到函数中,如果需要多次使用同一段代码,就可以把封装成一个函数。这样的话,在你需…

大数据-hive,初步了解

1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapRedu…

docker环境配置过程中的常见问题

1、pull镜像问题 docker pull jenkins/jenkins:lts Using default tag: latest Trying to pull repository docker.io/library/centos ... Get https://registry-1.docker.io/v2/library/centos/manifests/latest: Get https://auth.docker.io/token?scoperepository%3Alibr…

keil调试仿真退出卡死现象解决办法

更新到keil5版本V5.20之后,目前一直到V5.29版本,都存在一个问题: 退出调试模式时,有可能会卡死! 此时需要在任务管理器中结束掉进程才能强制关闭keil工程。 网上查找了很多资料,一种是退出仿真时不能有断…

Python:执行py命令,提示: Can‘t find a default Python.

1.Python运行环境罢工 今天,要运行一个前年用python编写的爬虫程序,先检测python运行环境是否正常: D:\Python38-32\works>c:\windows\py.exe Cant find a default Python. 再试: D:\Python38-32\works>py --list Installe…

Vue3 + Vite + TS + Element-Plus + Pinia项目(5)对axios进行封装

1、在src文件夹下新建config文件夹后,新建baseURL.ts文件,用来配置http主链接 2、在src文件夹下新建http文件夹后,新建request.ts文件,内容如下 import axios from "axios" import { ElMessage } from element-plus im…

【Node.JS】koa

文章目录 概述koa和express对比koa下载安装使用1.创建koa项目文件目录2. 创建koa服务3. 添加路由 koa-router4. 数据库服务 mongodb5. 添加请求参数json处理 koa-bodyparser6. 用户接口举例7.引入koa一些常用插件8.用户登录验证 koa-jwt9.webpack生产打包 来源 概述 Koa 是一个…