python selenium.webdriver 爬取政策文件

文章目录

        • 获取文章链接
        • 批量爬取政策文件
          • 应用selenium爬取文件信息
          • 数据处理
          • 导出为excel

获取文章链接

获取中央人民政府网站链接,进入国务院政策文件库,分为国务院文件和部门文件(发改委、工信部、交通运输部、市场监督局、商务部等)
在这里插入图片描述
搜索关键词——汽车,即可得到按照 相关度 或者 时间 排列的政策文件。
在这里插入图片描述

批量爬取政策文件

批量获取文件链接并存入列表

应用selenium爬取文件信息

利用xpath定位链接、索引号、标题、发文机关、发文字号、主题分类、成文日期、发布日期、文件内容等信息。

右侧通过光标定位各部分信息,右键点击 copy 并选择 copy xpath即可复制xpath路径。
在这里插入图片描述

  • 完整代码
from selenium import webdriver
from urllib.error import HTTPError
from selenium.webdriver.common.by import By   #selenium新版本写法
import warnings
warnings.filterwarnings('ignore')"""
爬虫国务院文件
传入链接,返还链接内的全部内容,生成字典
"""
def get_info(id,url):options = webdriver.ChromeOptions()options.add_argument('--headless')options.add_argument('--no-sandbox')options.add_argument('--disable-dev-shm-usage')driver = webdriver.Chrome(options=options)link = {}driver.get(url)try:link['文章ID'] = id  # 序列ID,从0—现有的文件数link['链接'] = url  # 原文链接#time.sleep(3)link['索引号'] = driver.find_element(By.XPATH,'/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[1]/td[2]').text  # 索引号link['标题'] = driver.find_element(By.XPATH,"/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[3]/td[2]").text  # 标题link['发文机关'] = driver.find_element(By.XPATH,"/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[2]/td[2]").text  # 发文机关link['发文字号'] = driver.find_element(By.XPATH,"/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[4]/td[2]").text  # 发文字号link['主题分类'] = driver.find_element(By.XPATH,"/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[1]/td[4]").text  # 主题分类link['成文日期'] = driver.find_element(By.XPATH,"/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[2]/td[4]").text  # 成文日期link['发布日期'] = driver.find_element(By.XPATH,'/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[4]/td[4]')   # 发布日期link['文件内容'] = driver.find_element(By.XPATH,"//*[@id='UCAP-CONTENT']").text  # 内容with open('汽车/国务院文件/'+link['标题']+'.txt','w',encoding='utf-8') as file:file.write(link['文件内容'])except HTTPError:return Nonedriver.quit()return link
数据处理

每次爬取单一文件信息并整理为dataframe,之后按行合并。

import pandas as pddf = pd.DataFrame()
with open('link1.txt','r',encoding='utf-8') as f:links = f.readlines()for id,url in enumerate(links):url = url.strip('\n')print(url)result = get_info(id,url)df1 = pd.DataFrame.from_dict(result,'index').Tdf = pd.concat([df,df1],axis=0)df

在这里插入图片描述

导出为excel
df.to_excel('汽车行业政策文本研究.xlsx',index=False)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言-排序,初识指针

目录 【1】冒泡排序&#xff08;从小到大&#xff09; 【2】选择排序 【3】二维数组 【4】指针 【5】指针修饰 【6】大小端 【7】初见二级指针 练习&#xff1a; 【1】冒泡排序&#xff08;从小到大&#xff09; #include <stdio.h> //数组哪里的\0?自己和字符串…

异步任务——CompletabelFuture

本专栏学习内容又是来自尚硅谷周阳老师的视频 有兴趣的小伙伴可以点击视频地址观看 在学习CompletableFuture之前&#xff0c;必须要先了解一下Future Future 概念 Future接口&#xff08;FutureTask实现类&#xff09;定义了操作异步任务执行的一些方法&#xff0c;如获取异…

Android应用启动全流程分析(源码深度剖析)

作者&#xff1a;努比亚技术团队 源码来源&#xff1a;努比亚技术团队 1.前言 从用户手指点击桌面上的应用图标到屏幕上显示出应用主Activity界面而完成应用启动&#xff0c;快的话往往都不需要一秒钟&#xff0c;但是这整个过程却是十分复杂的&#xff0c;其中涉及了Android系…

【java】【基础2】程序流程控制

目录 一、最经典的三种执行顺序 二、分支结构 2.1 if 2.2 switch 2.3 if与switch区别 三、循环结构 3.1 for循环 3.2 while循环 3.3 do-while循环 3.4 三种循环区别 3.5 补充知识&#xff1a;死循环 3.6 补充知识&#xff1a;循环嵌套 四、跳转关键字&#xff1a;br…

自建DNSlog服务器

DNSlog简介 在某些情况下&#xff0c;无法利用漏洞获得回显。但是&#xff0c;如果目标可以发送DNS请求&#xff0c;则可以通过DNS log方式将想获得的数据外带出来。 DNS log常用于以下情况&#xff1a; SQL盲注无回显的命令执行无回显的SSRF 网上公开提供dnslog服务有很多…

MySQL 主从复制与读写分离

概念 主从复制与读写分离的意义 企业中的业务通常数据量都比较大&#xff0c;而单台数据库在数据存储、安全性和高并发方面都无法满足实际的需求&#xff0c;所以需要配置多台主从数据服务器&#xff0c;以实现主从复制&#xff0c;增加数据可靠性&#xff0c;读写分离&#x…