随着ChatGPT带动AI产业链股票火爆,数据要素作为其中重要一环,也被市场重视。
如何深度挖掘数据要素产业链股票呢?
国内已经成立好几家数据交易所,比如上海数据交易所,里面已经有很多挂牌的数据产品。如果能把所有已经挂牌数据产品的上市公司找出来,然后去评估其数据资产的价值,或许可以发现不错的投资机会。
具体步骤有三步:
- 从上海数据交易所爬取所有数据产品相关资料,建立数据公司数据库
上海数据交易所的网页是很有规律的:
第2页:https://nidts.chinadep.com/ep-hall?productName=&dataType=&type=&pageSize=9&pageNum=2
第3页:https://nidts.chinadep.com/ep-hall?productName=&dataType=&type=&pageSize=9&pageNum=3
pageNum参数是从1到132,每页+1;
网页中的数据是动态加载的,返回的是json格式,所以可以这样在ChatGPT中写提示词:
你是一个Python编程专家,任务是爬取网页数据。
下面是具体步骤:
在d盘创建名为”上海大数据交易所”的excel表格;
打开网页https://nidts.chinadep.com/ep-hall?productName=&dataType=&type=&pageSize=9&pageNum=1,pageNum参数是从1到132,每页+1;
每页的request headers
:Authority:
http://nidts.chinadep.com
:Method:
GET
:Path:
/daep/broker/product/visitor/pageProduct?productName=&dataType=&type=&pageSize=9&pageNum=1
:Scheme:
https
Accept:
application/json, text/plain, */*
Accept-Encoding:
gzip, deflate, br
Accept-Language:
zh-CN,zh;q=0.9,en;q=0.8
Ignorecanceltoken:
true
Referer:
https://nidts.chinadep.com/ep-hall?productName=&dataType=&type=&pageSize=9&pageNum=1
Sec-Ch-Ua:
"Not.A/Brand";v="8", "Chromium";v="114", "Google Chrome";v="114"
Sec-Ch-Ua-Mobile:
?0
Sec-Ch-Ua-Platform:
"Windows"
Sec-Fetch-Dest:
empty
Sec-Fetch-Mode:
cors
Sec-Fetch-Site:
same-origin
User-Agent:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36
构造请求,获取网页 JSON 数据;
输出返回的 JSON 数据;
将原始 JSON 数据解析为 Python 字典;
然后根据嵌套结构,提取JSON 数据中 "data" 的数据,然后 "data"中提取 "list" 下的数据;从"list" 数据中提取 "supplierCompanyName"、 "dataName"、"dataContent"、 "supplierProductReleaseTime"这四个字段;
保存这四个字段到d盘上海大数据交易所的excel表格中;
注意:每一步都要输出信息,方便查找bug;
需要有应对反爬虫的措施,如:修改请求头、延迟请求、每爬取一页数据后延迟5秒;
每获取一页的Json数据,就保存到excel表格中;
很快,1186条数据就爬取下来了。删除掉重复的数据,一共有125家企业。
- 获取所有上市公司企业名称等信息,建立上市公司数据库
在ChatGPT中输入如下提示词:
写一段Python代码,使用Akshare库获取所有A股上市公司的企业名称、股票代码、股票简称这些数据,保存到d盘excel文件中。
接口: stock_info_sh_name_code
目标地址: 上海证券交易所
描述: 上海证券交易所股票代码和简称数据
限量: 单次获取所有上海证券交易所股票代码和简称数据
输入参数
名称 类型 描述
symbol str symbol="主板A股"; choice of {"主板A股", "主板B股", "科创板"}
输出参数
名称 类型 描述
证券代码 object -
证券简称 object -
公司全称 object -
上市日期 object -
接口示例
import akshare as ak
stock_info_sh_name_code_df = ak.stock_info_sh_name_code(symbol="主板A股")
print(stock_info_sh_name_code_df)
运行,获取上市公司数据。
- 进行比对,同时在两个数据库里面的企业,就是潜在研究对象,可以进一步进行深度研究
在ChatGPT中输入提示词:
写一段Python代码,完成excel数据处理的任务。具体步骤:
F盘有2个excel文件:全部A股股票信息20230601.xlsx、上海大数据交易所全部数据产品20230601.xlsx,
提取“全部A股股票信息20230601.xlsx”中的c2单元格到c6467单元格的所有数据,
提取“上海大数据交易所全部数据产品20230601.xlsx”中的A1单元格到 A125单元格的所有数据,
然后交叉对比,找出所有相同的数据,然后保存到F盘的stock.xlsx
最终结果是有5家企业:
中远海运科技股份有限公司
上海钢联电子商务股份有限公司
中国东方航空股份有限公司
上海宝信软件股份有限公司
北京海天瑞声科技股份有限公司
接下里就可以对这5家企业进行深度研究了。
全部A股股票信息20230601.xlsx、上海大数据交易所全部数据产品20230601.xlsx,这两个表格,可以加入知识星球“AIGC部落”进行下载。