数据挖掘实验一

一、实验环境及背景

使用软件:
  • Anaconda3 Jupyter Notebook
实验内容:
  1. 1.使用Tushare或者其他手段获取任意两支股票近三个月的交易数据。做出收盘价的变动图像。
  2. 2.使用Pandas_datareader获取世界银行数据库中美国(USA)、瑞典(SWE)、瑞士(CHE)三个国家近20年的NY.GDP.PCAP.KD数据,作图分析。
  3. 3.对于泰坦尼克的数据集,试分析幸存与否与独立登船的相关性(alone数据列)

二、实验内容

  • 作业题1

1.使用Tushare或者其他手段获取任意两支股票近三个月的交易数据。做出收盘价的变动图像。

(1)Tushare安装与接口调用方法

1.模块安装

使用pip install tushare指令在Anaconda Prompt终端中安装即可。

pip install tushare

2.模块调用

打开jupyter,导入tushare包:

import tushare as ts

3.查看安装版本

print(f"tushare 版本: {ts.__version__}")

(2)实验数据的获取

1.获取tushare的token

注册登录tushare网站后,点击个人主页,点击“接口token”选项卡,点击复制token

tushare官网:Tushare数据icon-default.png?t=N7T8https://tushare.pro/

 这里选择了000001.SZ和000002.SZ两支股票的数据

 【作业1代码】

import tushare as ts
print(f"tushare 版本: {ts.__version__}")
import tushare as ts
import pandas as pd
import numpy as np 
import datetime as dt#下面的*号内容处复制粘贴自己的token码即可
token = '*****************************************' 
ts.set_token(token)
pro = ts.pro_api()# 对000002.SZ拉取数据
df = pro.daily(**{"ts_code": "000002.SZ","trade_date": "","start_date": 20240101,"end_date": 20240331,"offset": "","limit": ""
}, fields=["ts_code","trade_date","open","close"
])
print(df)

#将日期转化为时间序列
df['trade_date'] = pd.to_datetime(df['trade_date'])
#将日期升序排列
df = df.set_index('trade_date').sort_index(ascending=True)
df

#y轴为收盘价
y1 = df['close']
x1 = range(len(y1))
#x1 = df['trade_date']import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号#绘制收盘价走势图
plt.figure(1)
plt.plot(x1,y1)
plt.xlabel("日期")
plt.ylabel("收盘价")
plt.title("2024年1月-3月000002.SZ股票收盘价走势图")
plt.show()

【000002.SZ走势图效果】

【绘制000001.SZ收盘价走势图】

# 拉取数据
df1 = pro.daily(**{"ts_code": "000001.SZ","trade_date": "","start_date": 20240101,"end_date": 20240331,"offset": "","limit": ""
}, fields=["ts_code","trade_date","open","close"
])
print(df1)#将日期转化为时间序列
df1['trade_date'] = pd.to_datetime(df1['trade_date'])
#将日期升序排列
df1 = df1.set_index('trade_date').sort_index(ascending=True)
df1#y轴为收盘价
y2 = df1['close']
x2 = range(len(y2))
#x1 = df['trade_date']import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号#绘制收盘价走势图
plt.figure(1)
plt.plot(x2,y2)
plt.xlabel("日期")
plt.ylabel("收盘价")
plt.title("2024年1月-3月000001.SZ股票收盘价走势图")
plt.show()

【000001.SZ收盘价走势图效果】

  •  作业题2

2.使用Pandas_datareader获取世界银行数据库中美国(USA)、瑞典(SWE)、瑞士(CHE)三个国家近20年的NY.GDP.PCAP.KD数据,作图分析。

(1)Pandas_datareader安装及调用

1.模块安装

使用pip install pandas-datareader指令在Anaconda Prompt终端中安装即可。

2.打开jupyter,导入pandas-datareader包:

# 导入wb用于查询世界银行数据
# http://ju.outofmemory.cn/entry/308589
# https://pandas-datareader.readthedocs.io/en/latest/readers/world-bank.html?
# highlight=pandas_datareader.wb
# 导入包
import pandas_datareader.wb as worldbank

(2)作业2代码
# 导入wb用于查询世界银行数据
# http://ju.outofmemory.cn/entry/308589
# https://pandas-datareader.readthedocs.io/en/latest/readers/world-bank.html?
# highlight=pandas_datareader.wb
# 导入包
import pandas_datareader.wb as worldbank
import matplotlib.pyplot as plt 
import pandas as pd
import seaborn as sns# 图表内嵌中文字体问题
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style({'font.sans-serif':['simhei','Arial']})# 起止年,近20年(2021为NAN,故采用2000-2020年数据)
start_year = 2000
end_year = 2020# 下载数据三国美国(USA)、瑞典(SWE)、瑞士(CHE)的"NY.GDP.PCAP.KD"数据
date = worldbank.download(indicator = "NY.GDP.PCAP.KD",country = ["USA","SWE","CHE"],start = start_year,end = end_year)
print('"NY.GDP.PCAP.KD数据:',date)# 合并数据
dates = date.unstack(level=0)
dates

 

# 画图
fig,ax = plt.subplots(1,1,figsize=(12,7))
plt.plot(dates.iloc[:,0],'g-',label="SWE") #Sweden 瑞典
plt.plot(dates.iloc[:,1],'b-*',label="CHE") #Switzerland 瑞士
plt.plot(dates.iloc[:,2],'r--',label="USA") #United States 美国plt.title('美国、瑞典、瑞士三国人均GDP对比',fontsize=20)
plt.legend()
plt.xlabel('年份')
plt.ylabel('GDP')
ax.set_xticklabels(dates.index,rotation=20,fontsize=14)
plt.savefig('美国、瑞典、瑞士三国GDP.png',dpi=300)
plt.show()

  •  作业题3

3.对于泰坦尼克的数据集,试分析幸存与否与独立登船的相关性(alone数据列)。

# 引入库
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import pandas as pd# 图表内嵌中文字体问题
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style('whitegrid',{'font.sans-serif':['simhei', 'Arial']})# 导入数据
titanic = pd.read_excel('titanic.xlsx')# 统计幸存者的是否独立登船比例
survived = titanic.groupby(['alone','survived']).size().unstack()
survived['sum'] = survived[0]+survived[1]
survived['生还率'] = survived[1]/survived['sum']
print('幸存者按照是否独立登船统计的生还者、遇难者:')
print('0:遇难,1:生还')
print(survived)
print('幸存与否与独立登船的相关系数:')
print(titanic['survived'].corr(titanic['alone']))
mm = titanic['survived'].corr(titanic['alone'])
if mm > 0:print('幸存与否与独立登船呈正相关')
else:print('幸存与否与独立登船呈负相关')
print()

# 画相关系数矩阵
plt.figure(figsize=(10,8))# sns.heatmap(survived,corr(),linewidths = 0.1,vmax=1.0,square=True,linecolor='white', annot=True,annot_kws={'size':20,'weight':'bold','color':'white'})
sns.heatmap(survived,linewidths = 0.1,vmax=1.0,square=True,linecolor='white', annot=True,annot_kws={'size':20,'weight':'bold','color':'green'})
plt.savefig('相关矩阵.png',dpi=300,bbox_inches='tight')
plt.show()

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/315750.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux-管道通信

1. 管道概念 管道,是进程间通信的一种方式,在Linux命令中“ | ”就是一种管道,它可以,连接前一条命令,和后一条命令,把前面命令处理完的内容交给后面,例如 cat filename | grep hello …

IDEA 中的奇技淫巧

IDEA 中的奇技淫巧 书签 在使用ctrlalt方向键跳转时,或者追踪代码时,经常遇到的情况是层级太多,找不到代码的初始位置,入口。可以通过书签的形式去打上一个标记,后续可以直接跳转到书签位置。 标记书签:c…

C# GetField 方法应用实例

目录 关于 C# Type 类 GetField 方法应用 应用举例 心理CT设计题 类设计 DPCT类实现代码 小结 关于 C# Type 类 Type表示类型声明:类类型、接口类型、数组类型、值类型、枚举类型、类型参数、泛型类型定义,以及开放或封闭构造的泛型类型。调用 t…

新媒体运营-----短视频运营-----PR视频剪辑----视频调色

新媒体运营-----短视频运营-----PR视频剪辑-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/138079659 文章目录 1. Lumetri调色,明暗对比度2. Lumetri调色,创意与矢量示波器2.1 创意2.2 矢量示波器 3. L…

前端开发攻略---用原生JS在网页中也能实现语音识别

1、语音识别的过程 语音识别涉及三个过程:首先,需要设备的麦克风接收这段语音;其次,语音识别服务器会根据一系列语法 (基本上,语法是你希望在具体的应用中能够识别出来的词汇) 来检查这段语音;最后&#xf…

纯js对比excel小工具

如何使用JavaScript和xlsx.js实现Excel文件对比:实战指南 在日常办公或数据分析工作中,我们经常需要比较两个Excel文件中的数据差异。手动对比不仅耗时费力,还容易出错。本文将带你通过一个简单的网页应用,利用JavaScript和开源库…

【极速前进】20240422:预训练RHO-1、合成数据CodecLM、网页到HTML数据集、MLLM消融实验MM1、Branch-Train-Mix

一、RHO-1:不是所有的token都是必须的 论文地址:https://arxiv.org/pdf/2404.07965.pdf 1. 不是所有token均相等:token损失值的训练动态。 ​ 使用来自OpenWebMath的15B token来持续预训练Tinyllama-1B,每1B token保存一个che…

GPT学术优化推荐(gpt_academic )

GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合GPT等等 ChatGPT/GLM提供图形交互界面,特别优化论文阅读/润色/写作体验,模块化设计,支持自定义快捷按钮&…

[iOS]CocoaPods安装和使用

1.了解brew、rvm、ruby、gem、cocaspods之间的关系 在 macOS 环境中,Brew、RVM、Ruby、Gem 和 CocoaPods 之间存在以下关系: Homebrew (Brew):Homebrew 是 macOS 上的包管理器,用于安装和管理各种开源软件包。它使您能够轻松地从…

基于SpringBoot+Vue校园竞赛管理系统的设计与实现

项目介绍: 传统信息的管理大部分依赖于管理人员的手工登记与管理,然而,随着近些年信息技术的迅猛发展,让许多比较老套的信息管理模式进行了更新迭代,竞赛信息因为其管理内容繁杂,管理数量繁多导致手工进行…

【AIGC调研系列】Sora级别的国产视频大模型-Vidu

Vidu能够达到Sora级别的标准。Vidu被多个来源认为是国内首个Sora级别的视频大模型[2][3][4]。它采用了团队原创的Diffusion与Transformer融合的架构U-ViT,能够生成长达16秒、分辨率高达1080P的高清视频内容[1][6]。此外,Vidu的一致性、运动幅度都达到了S…

HEVC/H.265视频编解码学习笔记–框架及块划分关系

前言 由于本人在学习视频的过程中,觉得分块单元太多搞不清楚其关系,因此本文着重记录这些分块单元的概念以及关联。 一、框架 视频为一帧一帧的图像,其编码的主要核心是压缩空间以及时间上的冗余。因此,视频编码有帧内预测和帧间…

使用docker搭建GitLab个人开发项目私服

一、安装docker 1.更新系统 dnf update # 最后出现这个标识就说明更新系统成功 Complete!2.添加docker源 dnf config-manager --add-repohttps://download.docker.com/linux/centos/docker-ce.repo # 最后出现这个标识就说明添加成功 Adding repo from: https://download.…

uniapp分包,以及通过uni-simple-router进行分包

先说一下uniapp的直接分包方式,很简单: 配置分包信息 打开manifest.json源码视图,添加 “optimization”:{“subPackages”:true} 开启分包优化 我们在根目录下创建一个pagesA文件夹,用来放置需要分包的页面 然后配置路由 运行到…

机器学习:基于Sklearn框架,使用逻辑回归对由心脏病引发的死亡进行预测分析

前言 系列专栏:机器学习:高级应用与实践【项目实战100】【2024】✨︎ 在本专栏中不仅包含一些适合初学者的最新机器学习项目,每个项目都处理一组不同的问题,包括监督和无监督学习、分类、回归和聚类,而且涉及创建深度学…

(八)Servlet教程——创建Web项目以及Servlet的实现

1. 打开Idea编辑器 2. 点击界面上的“新建项目”按钮 3. 设置好项目名称和位置 应用服务器选择之前设置好的Tomcat服务器 构建系统默认选择Maven 4. 点击“下一步”按钮 5. 点击“完成”按钮,Idea就创建好了项目,创建完成后的目录结构如下图所示 6. 此…

共享单车(二):项目日志

stdin, stdout, stderr Linux系统下,当一个用户进程被创建时,与之对应的三个数据流(stdin,stdout和stderr,即三个文件)也会被创建。 stdin,标准输入文件,通常对应着终端的键盘。 s…

将针孔模型相机 应用到3DGS

Motivation 3DGS 的 投影采用的是 CG系的投影矩阵 P P P, 默认相机的 principal point (相机光心) 位于图像的中点处。但是 实际应用的 绝大多数的 相机 并不满足这样一个设定, 因此我们 需要根据 f , c x , c y {f,c_x, c_y} f,cx​,cy​ 这几个参数重新构建3D …

docker安装【zookeeper】【kafka】【provectuslabs/kafka-ui】记录

目录 1.安装zookeeper:3.9.2-jre-172.安装kafka:3.7.03.安装provectuslabs/kafka-ui (选做)新环境没有jdk,安装jdk-17.0.10备用 mkdir -p /export/{data,apps,logs,conf,downloads}cd /export/downloadscurl -OLk https://download.oracle.…

Docker搭建Maven仓库Nexus

文章目录 一、简介二、Docker部署三、仓库配置四、用户使用Maven五、管理Docker镜像 一、简介 Nexus Repository Manager(简称Nexus)是一个强大的仓库管理器。 Nexus3支持maven、docker、npm、yum、apt等多种仓库的管理。 建立了 Maven 私服后&#xf…