计算机毕业设计Python+Spark新能源汽车推荐系统 汽车大数据 汽车数据分析 汽车可视化 汽车爬虫 大数据毕业设计 大数据毕设 知识图谱 深度学习

黄河交通学院本科毕业设计(论文)任务书

学院:智能工程学院

学生姓名

刘丹杰

专业班级

大数据20-1班

学号

2080910T01521

指导教师

炎士涛

职称

副教授

学位

硕士

题目名称

基于Hadoop的新能源汽车销售数据分析系统的设计与实现

起止时间

2024年1月2日 至 2024年6月15日

选题性质

□理论研究    √应用研究    □技术开发    □产品设计   □其他

是否在实践中完成

£是          √否

设计(研究)目标:

设计并实现一个可扩展、高性能的数据分析系统,能够处理大规模的新能源汽车销售数据,并提供多维度的数据分析功能,包括销售趋势分析、地域分布分析、车型偏好分析等。实现数据可视化功能,以图表、报表等形式直观展示分析结果,并构建友好的用户界面,方便用户进行数据查询、筛选和导出。

设计(研究)内容及具体要求:

1. 数据采集模块

数据源接入:支持多种数据源的接入,如销售平台、社交媒体、政府统计数据等。

数据预处理:对采集的数据进行清洗、去重、格式化等预处理操作,确保数据质量。

2.数据存储模块

Hadoop分布式文件系统(HDFS):用于存储大规模的销售数据,提供高可靠性和高吞吐量。

数据仓库:构建基于Hadoop的数据仓库,对数据进行组织、索引和优化查询。

3. 数据处理与分析模块

MapReduce编程模型:用于处理大规模数据集,进行复杂的数据转换和聚合操作。Hive/Pig:提供SQL-like语言或脚本语言,用于数据的批处理和分析。

4. 实时数据处理模块

Spark Streaming:用于处理实时销售数据流,提供实时数据分析和处理能力。

Kafka:作为消息队列,支持高吞吐量的实时数据摄入。

5. 数据挖掘与机器学习模块

机器学习算法库:集成机器学习算法,用于预测销售趋势、客户偏好分析等。

数据挖掘工具:提供关联规则、聚类分析、分类等数据挖掘技术。

6. 数据可视化模块

图表生成工具:将分析结果通过图表、图形等形式直观展示。

仪表板:为用户提供实时数据监控和历史数据分析的仪表板。

7. 用户交互与报告模块

用户界面:提供友好的用户界面,支持数据查询、报告生成和下载。

报告自动生成:根据用户需求自动生成销售报告和分析报告。

8. 安全与权限管理模块

用户认证与授权:确保只有授权用户才能访问敏感数据。

数据加密:对存储和传输的数据进行加密,保障数据安全。

9. 系统监控与维护模块

日志管理:记录系统操作日志,便于问题追踪和性能分析。

性能监控:监控系统性能,确保数据处理的高效和稳定。

10. 扩展与集成模块

API接口:提供API接口,支持与其他系统或应用的集成。

模块化设计:系统采用模块化设计,便于未来功能的扩展和升级。

11.必须在规定时间内按质按量地完成论文,观点正确,结构合理,条理清晰,论据有理有据,具备一定的分析能力和概括能力。

进度安排:

1. 2024年1月2日--2024年3月15日, 完成选题以及开题工作。

2. 2024年3月16日--2024年4月26日,完成初稿,中期检查。

3. 2024427日--2024年5月25日,完成第二稿。

4. 2024年5月26日--2024年5月31日,完成论文查重与修改。

5. 2024年6月1日--2024年6月15日,整理资料,完成定稿,完成答辩。  

指导教师签字:             年      月      日

主要参考文献:

[1]周德,杨成慧,罗佃斌.基于Hadoop的分布式日志分析系统设计与实现[J].现代信息科技,2023,7(23):57-60.DOI:10.19850/j.cnki.2096-4706.2023.23.012.

[2]任宏,李春林,李晓峰.基于Hadoop技术的物联网大数据同步存储系统设计[J].网络安全和信息化,2023(12):85-87.

[3]谢盛嘉.基于Hadoop平台的学情分析系统设计[J].电子技术,2023,52(11):408-409.

[4]王子昱.基于Hadoop的大数据云计算处理的实现[J].无线互联科技,2023,20(19):89-91+104.

[5]李威,邱永峰.基于Hadoop的电商大数据可视化设计与实现[J].现代信息科技,2023,7(17):46-49.DOI:10.19850/j.cnki.2096-4706.2023.17.009.

[6]邹文景,唐良运,甘莹等.基于Hadoop技术的物联网大数据同步存储系统设计[J].电子设计工程,2023,31(18):114-117+122.DOI:10.14022/j.issn1674-6236.2023.18.024.

[7]Liuqi Z ,Xing W ,Zhenlin H , et al.Power Big Data Analysis Platform Design Based on Hadoop[J].Journal of Physics: Conference Series,2023,2476(1):

[8]Ning X .Individual Online Learning Behavior Analysis Based on Hadoop[J].Computational Intelligence and Neuroscience,2022,20221265340-1265340.

[9]陶淘,彭颖,张晨亮.基于Hadoop技术的气象数据实时传输监控系统设计[J].计算机测量与控制,2024,32(01):114-120.DOI:10.16526/j.cnki.11-4762/tp.2024.01.017.

[10]赵建立,汤卓凡,姚孟阳.基于Hadoop的配电网需求数据存储控制技术优化[J].粘接,2024,51(02):182-185.

[11]那蓉萃.基于Hadoop的工业物联网大数据处理及应用[J].信息记录材料,2023,24(12):221-223+226.DOI:10.16009/j.cnki.cn13-1295/tq.2023.12.061.

[12]石文昭.基于Hadoop的自动化设备监管系统设计[J].信息记录材料,2023,24(11):178-180.DOI:10.16009/j.cnki.cn13-1295/tq.2023.11.025.

系(教研室)意见:

主任签字:                           年      月      日

学院意见:

                       负责人签字:                        年       月        日

备注:1.任务书由指导教师填写并下发给学生;若是学生自选设计(论文)题目,任务书可在导师指导下由学生填写;

2.本表一式四份,在毕业设计(论文)开始前提交,学院、系(教研室)、导师、学生各一份。

核心算法代码分享如下:

package com.sqlimport org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types._
import org.junit.Testimport java.util.Propertiesclass CarSpark2024_FixBug {val spark = SparkSession.builder().master("local[6]").appName("懂车帝数据实时计算V1.0").getOrCreate()//汽车数仓CSV 模式val ods_car_Schema = StructType(List(StructField("car_id", StringType),StructField("concern_id", StringType),StructField("car_name", StringType),StructField("dealer_max_price",FloatType),StructField("dealer_min_price", FloatType),StructField("max_price", FloatType),StructField("min_price",FloatType),StructField("dealer_price", StringType),StructField("cover_img", StringType),StructField("comment_num", IntegerType),StructField("comment_result", StringType),StructField("score", FloatType),StructField("rank_tips", StringType),StructField("wg_score", StringType),StructField("ns_score", StringType),StructField("pz_score", StringType),StructField("kj_score", StringType),StructField("ck_score", StringType),StructField("dl_score", StringType),StructField("car_type", StringType),StructField("car_rank", IntegerType)))val ods_car_Df = spark.read.option("header", "false").schema(ods_car_Schema).csv("hdfs://bigdata:9000/cars2024/cars/cars.csv")@Testdef init(): Unit = {//school_province_score_Df.show()//ods_courses_Df.show()ods_car_Df.show()//school_special_score_Df.show()//school_Df.show()//ruanke_rank_Df.show()//qs_world_Df.show()}//  ----剩余使用spark_sql完成
//   --指标8:汽车价格区间Spark@Testdef tables08(): Unit = {ods_car_Df.createOrReplaceTempView("ods_car")val df2 = spark.sql("""select '1-10万' fw,count(1) num  from ods_car where dealer_min_price >0 and dealer_max_price <=10unionselect '10-15万' fw,count(1) num  from ods_car where dealer_min_price >10 and dealer_max_price <=15unionselect '15-20万' fw,count(1) num  from ods_car where dealer_min_price >15 and dealer_max_price <=20unionselect '20-30万' fw,count(1) num  from ods_car where dealer_min_price >20 and dealer_max_price <=30unionselect '30-40万' fw,count(1) num  from ods_car where dealer_min_price >30 and dealer_max_price <=40unionselect '40万以上' fw,count(1) num  from ods_car where dealer_min_price >40""")df2
//      .show(50).coalesce(1).write.mode("overwrite").option("driver", "com.mysql.cj.jdbc.Driver").option("user", "root").option("password", "123456").jdbc("jdbc:mysql://bigdata:3306/hive_car?useSSL=false","table08",new Properties())}//  --指标9:六项指标综合得分Top10汽车Spark@Testdef tables09(): Unit = {ods_car_Df.createOrReplaceTempView("ods_car")val df2 = spark.sql("""select car_name,scorefrom ods_carorder by score desclimit 20""")df2//      .show(50).coalesce(1).write.mode("overwrite").option("driver", "com.mysql.cj.jdbc.Driver").option("user", "root").option("password", "123456").jdbc("jdbc:mysql://bigdata:3306/hive_car?useSSL=false","table09",new Properties())}}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/340966.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Unity美术】spine软件的使用—2D动画的制作

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;就业…

群体优化算法---灰狼优化算法学习介绍以及在卷积神经网络训练上的应用

**长文预警**介绍 在自然界中&#xff0c;狼群的社会结构和捕猎策略展现了高度的智能和协调性&#xff0c;灰狼优化算法&#xff08;Grey Wolf Optimizer, GWO&#xff09;正是受此启发提出的一种群体智能优化算法。GWO主要模拟了灰狼的社会等级制度和捕猎行为&#xff0c;其核…

计算机毕业设计hadoop+spark+hive知识图谱音乐推荐系统 音乐数据分析可视化大屏 音乐爬虫 LSTM情感分析 大数据毕设 深度学习 机器学习

新余学院本科毕业设计(论文)开题报告 学 号 202253025 学生姓名 毛维星 届 别 24届 专 业 数据科学与大数据技术 指导教师 姓名及职称 潘诚 研究生 毕业设计 (论文)题目 基于HadoopSpark的音乐数据仓库的设计与实现 开 题 报 告 内 容 选题的依据…

使用Python操作Redis

大家好&#xff0c;在当今的互联网时代&#xff0c;随着数据量和用户量的爆发式增长&#xff0c;对于数据存储和处理的需求也日益增加。Redis作为一种高性能的键值存储数据库&#xff0c;以其快速的读写速度、丰富的数据结构支持和灵活的应用场景而备受青睐。本文将介绍Redis数…

加密经济浪潮:探索Web3对金融体系的颠覆

随着区块链技术的快速发展&#xff0c;加密经济正在成为全球金融领域的一股新的浪潮。而Web3作为下一代互联网的代表&#xff0c;以其去中心化、可编程的特性&#xff0c;正深刻影响着传统金融体系的格局和运作方式。本文将深入探讨加密经济对金融体系的颠覆&#xff0c;探索We…

C++数组实现推箱子游戏

前言 我是三天打鱼两天晒网的闲人,今天跟着课程视频学习c的数组的运用. 准备好游戏用到的图片资源 代码逻辑实现 #include<iostream> #include<graphics.h> #include<string> #include<conio.h>using namespace std;//设置画布大小 #define SCREEN…

kafka-守护启动

文章目录 1、kafka守护启动1.1、先启动zookeeper1.1.1、查看 zookeeper-server-start.sh 的地址1.1.2、查看 zookeeper.properties 的地址 1.2、查看 jps -l1.3、再启动kafka1.3.1、查看 kafka-server-start.sh 地址1.3.2、查看 server.properties 地址 1.4、再次查看 jps -l 1…

【python】OpenCV—Cartoonify and Portray

参考来自 使用PythonOpenCV将照片变成卡通照片 文章目录 1 卡通化codecv2.medianBlurcv2.adaptiveThresholdcv2.kmeanscv2.bilateralFilter 2 肖像画cv2.divide 1 卡通化 code import cv2 import numpy as npdef edge_mask(img, line_size, blur_value):gray cv2.cvtColor(…

代码随想录算法训练营第二十八天|93.复原IP地址 ,78.子集 ,90.子集II

93. 复原 IP 地址 - 力扣&#xff08;LeetCode&#xff09; class Solution {ArrayList<String> results new ArrayList<>();public List<String> restoreIpAddresses(String s) {if(s.length() > 12){return new ArrayList<>();}char[] ipChars …

OBS+nginx+nginx-http-flv-module实现阿里云的推流和拉流

背景&#xff1a;需要将球机视频推送到阿里云nginx&#xff0c;使用网页和移动端进行播放&#xff0c;以前视频格式为RTMP&#xff0c;但是在网页上面播放RTMP格式需要安装flash插件&#xff0c;chrome浏览器不给安装&#xff0c;调研后发现可以使用nginx的模块nginx-http-flv-…

MySQL之查询性能优化(四)

查询性能优化 MySQL客户端/服务器通信协议 一般来说&#xff0c;不需要去理解MySQL通信协议的内部实现细节&#xff0c;只需要大致理解通信协议是如何工作的。MySQL客户端和服务器之间的通信协议是"半双工"的&#xff0c;这意味着&#xff0c;在任何一个时刻&#…

9.抽象类和接口

抽象类 抽象类概念 在面向对象的概念中&#xff0c;所有的对象都是通过类来描绘的&#xff0c;但是反过来&#xff0c;并不是所有的类都是用来描绘对象的&#xff0c;如果一个类中没有包含足够的信息来描绘一个具体的对象&#xff0c;这样的类就是抽象类 比如&#xff1a; 我…

Vue进阶之Vue无代码可视化项目(二)

Vue无代码可视化项目 项目初始化路由子路由错误示范正确示范App.vuerouter/index.tsAboutView.vueAboutAboutview.vuerouter/index.ts项目路由router/index.tsApp.vueActionsView.vueDataSourceView.vueLayoutView.vue路由样式App.vue进一步的App.vue项目初始化 路由 router i…

高精度滚珠丝杆在自动化生产中的关键因素!

如今&#xff0c;自动化技术正以前所未有的速度改变着人们的生活和工作方式&#xff0c;特别是在高精度精密设备的制造与应用领域&#xff0c;提高生产效率和优化生产流程正变得越来越重要。在自动化生产中&#xff0c;滚珠丝杆的优化应用对于提高生产效率、保证产品质量至关重…

k8s Pods漂移时间配置

默认为300秒 apiVersion: apps/v1 kind: Deployment metadata:name: my-test spec:replicas: 1selector:matchLabels:app: my-apptemplate:metadata:labels:app: my-appspec:containers:- name: my-containerimage: nginx:latestports:- containerPort: 80tolerations:- key: &…

面试二十六、c++语言级别的多线程编程

一、 多线程编程 ​​​​​ 这里的c语言级别的多线程和linux的有一定的区别&#xff0c;c语言级别提供的多线程比较严格&#xff0c;如果主线程结束了&#xff0c;但是子线程没有结束&#xff0c;进程就会异常终止&#xff0c;而linux不会&#xff0c;会继续执行。 二、模拟卖…

LLama学习记录

学习前&#xff1a; 五大问题&#xff1a; 为什么SwiGLU激活函数能够提升模型性能&#xff1f;RoPE位置编码是什么&#xff1f;怎么用的&#xff1f;还有哪些位置编码方式&#xff1f;GQA&#xff08;Grouped-Query Attention, GQA&#xff09;分组查询注意力机制是什么&…

FL Studio21.2.8中文版水果音乐制作的革新之旅!

在数字化浪潮的推动下&#xff0c;音乐制作领域经历了翻天覆地的变化。从最初的模拟技术到如今的全数字化处理&#xff0c;音乐制作的门槛被大幅降低&#xff0c;越来越多的音乐爱好者和专业人士开始尝试自行创作和编辑音乐。在这个过程中&#xff0c;各种专业音乐制作软件成为…

CVE-2022-22947

漏洞描述 Spring Cloud Gateway 远程代码执行漏洞&#xff08;CVE-2022-22947&#xff09;发生在Spring Cloud Gateway应用程序的Actuator端点&#xff0c;其在启用、公开和不安全的情况下容易受到代码注入的攻击。攻击者可通过该漏洞恶意创建允许在远程主机上执行任意远程执行…

第二十五章新增H5基础(以及视频~兼容)

1.HTML5中新增布局标签 HTML5新增了页眉&#xff0c;页脚&#xff0c;内容块等文档结构相关标签&#xff0c;可以使文档结构更加清晰明了。 1.新增的结构标签 1、<header>标签 定义文档或者文档中内容块的页眉。通常可以包含整个页面或一个内容区域的标题&#xff0c…