Springboot2 Pandas Pyecharts 量子科技专利课程设计大作业

数据集介绍

1.背景

         根据《中国科学:信息科学》期刊上的一篇文章,量子通信包括多种协议与应用类型: 基于量子隐形传态与量子存储中继等技术,可实现量子态信息传输,进而构建量子信息网络,已成为当前科研热点,但距实用化仍然较远。

2. 数据集介绍

相关信息:复旦大学量子数据集是收集了1987到2020年3月份的基本专利信息

 数据集列名:|序号|专利名称|专利名称中文翻译|    专利名称英文翻译| 摘要| 摘要中文翻译|摘要英文翻译| 权利要求主权项|权利要求项数|独立权利要求项数|PDF全文页数|申请号|申请日|公开号|公开日|首次公开日|国家/地区|专利类型|授权日|失效日|优先权|最早优先权日|国际申请|国际公布|进入国家阶段日|申请人|申请人归属地|申请人地址|申请人类型|申请人数量|专利权人|专利权人归属地|专利权人地址|专利权人类型|专利权人数量|发明人|发明人数量|审查员|代理人|代理机构|IPC分类号|主IPC分类号|IPC分类号数量|CPC分类号|主CPC分类号|CPC分类号数量|外观设计分类号|法律效力|是否曾经授权|公知公用状态|存活期|预期剩余寿命|转让状态|许可状态|质押状态|复审/无效状态|诉讼状态|基本专利族|基本专利族专利数量|本专利引用|本专利引用数量|本专利被引|本专利被引用数量|

整体架构流程

数据处理流程

数据集成

1.数据集使用spark集成的问题

实验目的:数据传递到hdfs上,并使用spark on hive 将数据存入hive
问题描述1:os的函数listdir()返回的列表将数据集成变得很容易,但是对于spark来书,处理的开销很大
问题解决1:spark.read.csv()能够集成文件夹的所有文件
问题描述2:每个文件编码不一致,source-01的编码是utf-8但是source-03的编码是gbk
问题解决2:创建gbk和utf-8两个文件目录,并使用union连接
问题描述3: windows终端的文件到hdfs和spark on hive集群,数据应该如何集成
问题解决3:我们使用scala作为本地数据集成工具将数据传到hdfs,python将hdfs数据载入hive。
        一是scala是以java为底层核心的语言,具有jdbc良好配置,可以将数据存入mysql中作为备份数据与持久化数据。
        使用python作为数据挖掘和可视化语言,pyecharts,matplotlib,sklearn,pytorch多种类和库使数据多种多样。
        使用spark on hive,尽可能在分析的时候使用HQL语句进行数据分析
问题描述4:hive不能自动映射中文字段(create table *** like *** 失效)
问题解决: hive建表数据填充
数据集最大问题:数据混乱(文本字段中含有大量的转义字符)

2.使用pandas对数据集成

2.1 数据编码修改

如上所示,使用记事本打开我们会在记事本尾部看到编码格式,如上,上面显示的是UTF-8格式。

2.2 时间段选择

2.3 数据异常剔除

2.4 数据合并并存储至中间表

工具类实现

1. 数据可视化基础工具类

2.文本语义分析库jieba工具类

3.mongodb存储工具类

4.redis 存储工具类

5. 其他工具类

数据分析流程

数据分析

1. 分组分析(pandas 数据分组查询)

2.文本分析(调用jieba分词库)

3.数据可视化(困难一点的我们使用pyecharts做静态网页)

数据存储

1.mongodb 数据存储(需要先安装mongodb)

对数据分析和数据集成的结果使用mongodb进行存储

2.redis 数据缓存(需要下载redis)

由上可以看到,存储路径信息的是集合的数据结构,因为集合不允许重复项。

Springboot2 + vue + mongodb +redis + axios 数据交互式的前后端后台

如上显示了springboot和其他数据库,前端的使用

以上是个截图,展示了各个功能模块

网页展示

 数据集网盘地址:链接:https://pan.baidu.com/s/1jg9169hva0_GogGF4awdjQ?pwd=0225 提取码:0225

 Python 后台:
链接:https://pan.baidu.com/s/1480TP0WQ2fSWa01tg-dfjg?pwd=0225 
提取码:0225

Springboot程序:暂时不能无偿

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/139173.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GDB的TUI模式(文本界面)

2023年9月22日,周五晚上 今晚在看GDB的官方文档时,发现GDB居然有文本界面模式 TUI (Debugging with GDB) (sourceware.org) GDB开启TUI的条件 GDB的文本界面的开启条件是:操作系统有适当版本的curses库 The TUI mode is supported only on…

ArrayList 的自动扩容机制

触发扩容 ArrayList 是一个数组结构的存储容器,默认情况下,数组的长度是 10 当然我们也可以在构建 ArrayList 对象的时候自己指定初始长度。随着在程序里面不断的往 ArrayList 中添加数据,当添加的数据达到 10 个的时候,ArrayLis…

web:[GXYCTF2019]Ping Ping Ping

题目 点进题目,页面只显示/?ip,没有其他信息 联系到题目名为ping,猜测题目于ping地址有关,先尝试一下 构造payload http://31e941af-c0d7-49c9-a3fe-84cb13d8adae.node4.buuoj.cn:81/?ip127.0.0.1 这里猜测可能为远程命令执行…

Linux(CentOS)安装msf

目录 一、安装MSF 1.1 在线安装 1.2 离线安装 二、安装Postgresql数据库 一、安装MSF 1.1 在线安装 需要挂梯子!挂完梯子需要reboot重启,多试几次就可以,国内网络我试了很久都不行。没条件没梯子的看1.2离线安装 cd /opt curl https://ra…

Cortex-M4之FPU单元

最近在学习实时操作系统,以下是我对学习实时操作系统过程中做的一些笔记。 一、FPU单元 在 Coretex-M4 处理器中有一个可选的单精度 FPU 单元,一般 STM32F429 就有 FPU 单元, 如果使能了 FPU 单元的话就可以使用它来对单精度浮点数进行计算…

【探索Linux世界|中秋特辑】--- 倒计时和进度条的实现与演示

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【Linux专栏】🎈 本专栏旨在分享学习Linux的一点学习心得,欢迎大家在评论区讨论💌 演示环境&#xff1…

栈的详细实现

一 定义 概念 栈是一种特殊的线性表,只允许在固定的一端进行操作。该端叫做栈顶,相对的另一端叫做栈底。 符合LIFO(后进先出)的规则 关于栈顶的两个操作: 压栈/入栈/进栈:在栈顶部插入数据 出栈:栈顶删…

2023华为杯研究生数学建模C题分析

完整的分析查看文末名片获取! 问题一 在每个评审阶段,作品通常都是随机分发的,每份作品需要多位评委独立评审。为了增加不同评审专家所给成绩之间的可比性,不同专家评审的作品集合之间应有一些交集。但有的交集大了,则…

软件测试缺陷报告详解

【软件测试行业现状】2023年了你还敢学软件测试?未来已寄..测试人该何去何从?【自动化测试、测试开发、性能测试】 缺陷报告是描述软件缺陷现象和重现步骤地集合。软件缺陷报告Software Bug Report(SBR)或软件问题报告Software Pr…

《动手学深度学习 Pytorch版》 7.5 批量规范化

7.5.1 训练深层网络 训练神经网络的实际问题: 数据预处理的方式会对最终结果产生巨大影响。 训练时,多层感知机的中间层变量可能具有更广的变化范围。 更深层的网络很复杂容易过拟合。 批量规范化对小批量的大小有要求,只有批量大小足够…

智能合约漏洞案例,NeverFall 漏洞复现

智能合约漏洞案例,NeverFall 漏洞复现 1. 漏洞简介 https://twitter.com/BeosinAlert/status/1653619782317662211 2. 相关地址或交易 https://explorer.phalcon.xyz/tx/bsc/0xccf513fa8a8ed762487a0dcfa54aa65c74285de1bc517bd68dbafa2813e4b7cb 攻击交易 攻击…

Python绘制X-bar图和R图 | 统计过程控制SPC

X-bar图和R图是用于统计过程控制(SPC)的两种常用工具,用于监测过程的平均值和范围(变异性)。这些图有助于识别过程中的变化和异常,以便及时采取纠正措施。 **X-bar图(平均值控制图)…

pcl--第十二节 2D和3D融合和手眼标定

2D&3D融合 概述 截止目前为止,我们学习了机器人学,学习了2D和3D视觉算法。我们也学习了2D相机(图像数据的来源)和3D相机(点云数据的来源)工作原理。 实际上,我们最终要做的,是一个手眼机器人系统。在这个系统里&#xff0c…

zookeeper + kafka

Zookeeper 概述 Zookeeper是一个开源的分布式服务管理框架。存储业务服务节点元数据及状态信息,并负责通知再 ZooKeeper 上注册的服务几点状态给客户端 Zookeeper 工作机制 Zookeeper从设计模式角度来理解: 是一个基于观察者模式设计的分布式服务管理框架&…

微信小程序底部安全区域高度获取

CSS 属性 safe-area-inset-bottom safe-area-inset-bottom 就是安全区的高度 padding-bottom:env(safe-area-inset-bottom); wx.getSystemInfoSync() wx.getSystemInfoSync()可以获取系统信息 let system wx.getSystemInfoSync() let bottomSafe system.screenHeight -…

yolov5使用最新MPDIOU损失函数,有效和准确的边界盒回归的损失,优于GIoU/EIoU/CIoU/EIoU(附代码可用)

文章目录 1. 论文1.1. 主要目的1.2. 设计思路2 代码3.总结1. 论文 MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression (一个有效和准确的边界框损失回归函数) 论文地址 1.1. 主要目的 当预测框与边界框具有相同的纵横比,但宽度和高度值完全不同时,大多数…

【湖科大教书匠】计算机网络随堂笔记第1章(计算机网络概述)

目录 1.1、计算机网络在信息时代的作用 我国互联网发展状况 1.2、因特网概述 1、网络、互连网(互联网)和因特网 2、因特网发展的三个阶段 因特网服务提供者ISP(Internet Service Provider) 基于ISP的三层结构的因特网 3、因特网的标准化工作 4、因特网的…

2023华为杯数学建模D题——碳排放路径优化基于指数分解法的LMDI 模型

LMDI 模型是基于指数分解法(IDA) 发展而成的一种因素分解法。LMDI模型在 Kaya 拓展式的基础上, 利用对数平均法对影响因素进行分析。 综合比较其他的指数分解方法, LMDI 分解法有着可完全分解因子、 无残差项等优势。根据对 Kaya …

Xamarin.Android实现App内版本更新

目录 1、具体的效果2、代码实现2.1 基本原理2.2 开发环境2.3 具体代码2.3.1 基本设置2.3.2 系统的权限授予2.3.3 进度条的layout文件2.3.4 核心的升级文件 3、代码下载4、知识点5、参考文献 1、具体的效果 有事需要在程序内集成自动更新的功能,网上找了下&#xff…

企业级数据仓库-理论知识

D3 AM 大数据中间件 Hive:将SQL转化成分布式Map/Reduce进行运算,也支持转换成Spark,需要单独安装Hive集群才能访问Spark,支持60%的SQL,延迟比较大。SparkSQL:属于Spark生态圈,Hive on Sqark。HBase: NoSQL,高并发读,适…