【R语言爬虫实战】抓取省市级城市常务会议内容

🍉CSDN小墨&晓末:https://blog.csdn.net/jd1813346972

   个人介绍: 研一|统计学|干货分享
         擅长Python、Matlab、R等主流编程软件
         累计十余项国家级比赛奖项,参与研究经费10w、40w级横向

文章目录

  • 1 设置内容存储位置及加载包
  • 2 首页网页文本内容爬取
  • 3 循环抓取后续网页
  • 4 数据存储

实现基于R语言的省级常务会议内容的网页爬虫,包括htlm页面解析,由于首页与其它页网页url格式不同的循环读取方式,以及数据存储功能,代码块内附完整编码解析。

  实现效果:

在这里插入图片描述

1 设置内容存储位置及加载包

setwd("F:\\地级城市政策")#设置文件保存路径library(rvest)
library(stringr)
library(rlist)

2 首页网页文本内容爬取

#读取第一页文件内容
url1 <-("http://www.lijiang.gov.cn/html/zhengwugongkai/zhengfuxinxigongkai/fadingzhudonggongkaineirong/zhengfuhuiyi/changwuhuiyi/index.html")
httr_web <-read_html(url1,encoding ='utf-8')  #抓取网页#具体时间
time<-httr_web%>%html_nodes('ul.wjer_list li span')%>%html_text(trim = T)#抓取具体时间
######
timel<-data.frame()
for (i in 1:length(time)){if(i/2==2){timel[i]<-time[i]}
}
time<-strsplit(time,split = "-") # strsplit函数将数据拆分成列表(年月日)time<-strsplit(time,split = ":") # strsplit函数将数据拆分成列表(年月日)
for(i in 1:length(time)) #定义语句循环次数,直至所有链接提取完成
{time[i]<-time[[i]][2] #提取列表中位置2的信息,填充websites1
}for(i in 1:length(time)) #定义语句循环次数,直至所有链接提取完成
{time[i]<-strsplit(time[[i]],split = "-") #提取列表中位置2的信息,填充websites1
}###########
time<-do.call(rbind,time)[,1:2]# 将列表转换为矩阵,提取第第一列和第二列(年、月)
time<-data.frame(time) #转化为数据框形式
po<-data.frame(time)#列合并数据框,格式为次数、年份、月份

3 循环抓取后续网页

po<-data.frame()
index <-seq(1,8,1)
for (i in index){# 读取网址url = paste("http://www.cxz.gov.cn/xxgk/xxgkzhlistpage.jsp?totalpage=8&PAGENUM=",i,"&urltype=tree.TreeTempUrl&wbtreeid=1977")url2<-str_replace_all(url," ","")  #合并网页去掉空格url <-(url2)#由于直接使用url2抓取内容为空:原因未知,故重新读取一次httr_web <-read_html(url,encoding ='utf-8')  #抓取网页#具体时间time<-httr_web%>%html_nodes('ul li span')%>%html_text()#抓取链接#具体时间time<-strsplit(time,split = "-") # strsplit函数将数据拆分成列表(年月日)time<-do.call(rbind,time)[,1:2]# 将列表转换为矩阵,提取第第一列和第二列(年、月)time<-data.frame(time) #转化为数据框形式timek<-data.frame(time)po<-data.frame(rbind(po,timek))
}
po1<-po
po1$X1<-as.numeric(as.character(po1$X1))
po1$X2<-as.numeric(as.character(po1$X2))
time3<-data.frame(2018,7)
names(time3)<-c("X1","X2")
po1<-data.frame(rbind(po1,time3))

4 数据存储

#将因子型转化为数值型
po1<-po
po1$X1<-as.numeric(as.character(po1$X1))
po1$X2<-as.numeric(as.character(po1$X2))##已获得每个常务会网页的网址及命名需要数据(年份、月份,第k次),现循环存储每个网页文本内容comments1<-as.character(comments$websites2)#将因子型转化为字符串,即网页形式
p=length(comments1)
for(k in 1:length(comments1)) #定义语句循环次数,直至所有链接提取完成
{ur2 <-comments1[k]httr_web2 <-read_html(ur2,encoding ='utf-8')  #抓取网页text<-httr_web2%>%html_nodes('div.xw-txt p')%>%html_text(trim =T)name<-paste("天津市\\","天津",po1[1:p,1][k],po1[1:p,2][k],68-k+1,".txt")#文件命名write.table(text, file = name, sep = "\n",row.names = F, col.names = F)
}ur2 <-comments1[1]
httr_web2 <-read_html(ur2,encoding ='utf-8')  #抓取网页
text<-httr_web2%>%html_nodes('div.xw-txt p')%>%html_text(trim =T)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/272892.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在vue3中使用el-tree-select做一个树形下拉选择器

el-tree-select是一个含有下拉菜单的树形选择器&#xff0c;结合了 el-tree 和 el-select 两个组件的功能。 因为包含了el-tree的功能&#xff0c;我们可以自定义tree的节点&#xff0c;创造出想要的组件 使用default插槽可以自定义节点内容&#xff0c;它的default插槽相当于…

基于美洲狮优化算法(Puma Optimizar Algorithm ,POA)的无人机三维路径规划(提供MATLAB代码)

一、无人机路径规划模型介绍 无人机三维路径规划是指在三维空间中为无人机规划一条合理的飞行路径&#xff0c;使其能够安全、高效地完成任务。路径规划是无人机自主飞行的关键技术之一&#xff0c;它可以通过算法和模型来确定无人机的航迹&#xff0c;以避开障碍物、优化飞行…

STM32之串口中断接收UART_Start_Receive_IT

网上搜索了好多&#xff0c;都是说主函数增加UART_Receive_IT()函数来着&#xff0c;实际正确的是UART_Start_Receive_IT()函数。 —————————————————— 参考时间&#xff1a;2024年3月9日 Cube版本&#xff1a;STM32CubeMX 6.8.1版本 参考芯片&#xff1a…

【AI视野·今日Robot 机器人论文速览 第八十三期】Wed, 6 Mar 2024

AI视野今日CS.Robotics 机器人学论文速览 Wed, 6 Mar 2024 Totally 30 papers &#x1f449;上期速览✈更多精彩请移步主页 Interesting: &#x1f4da;SpaceHopper,外星探索多功能三足机器人 (from Robotic Systems Lab, ETH Zurich) Daily Robotics Papers A Safety-Criti…

UnicodeDecodeError: ‘gbk‘和Error: Command ‘pip install ‘pycocotools>=2.0

今天重新弄YOLOv5的时候发现不能用了&#xff0c;刚开始给我报这个错误 subprocess.CalledProcessError: Command ‘pip install ‘pycocotools&#xff1e;2.0‘‘ returned non-zero exit statu 说这个包安装不了 根据他的指令pip install ‘pycocotools&#xff1e;2.0这个根…

CAS 登出方案

1.配置 CAS 服务器端 添加配置cas.logout.followServiceRedirects:true&#xff0c;使支持 CAS 退出时支持输入 service 参数为跳转路径 2.配置客户端服务,添加session清除操作 3.前端文件添加跳转重定向 1) 直接在客户端调用http请求/cas/logout去注销不能携带cookie信息, 无…

RocketMQ架构详解

文章目录 概述RocketMQ架构rocketmq的工作流程Broker 高可用集群刷盘策略 概述 RocketMQ一个纯java、分布式、队列模型的开源消息中间件&#xff0c;前身是MetaQ&#xff0c;是阿里研发的一个队列模型的消息中间件&#xff0c;后开源给apache基金会成为了apache的顶级开源项目…

提高驾驶安全性 | 基于ACM32 MCU的胎压监测仪方案

概述 胎压监测系统 作为车辆的基础部件&#xff0c;轮胎是影响行车安全不可忽视的因素之一。据统计&#xff0c;中国每年由胎压问题引起轮胎爆炸的交通事故约占 30%&#xff0c;其中 50%的高速交通事故是由车辆胎压异常引起。因此&#xff0c;准确实时地监测车辆在行驶过程中…

部署LVS负载均衡集群架构

目录 一、ipvsadm 工具 二、NAT模式下部署LVS负载均衡 1、部署NFS共享存储服务器 1.1 安装NFS软件 1.2 新建共享目录和站点文件 1.3 设置共享策略 2、部署节点服务器1 2.1 安装并启动nginx软件 2.2 挂载共享目录到网页站点目录 2.3 修改网关 3、部署节点服务器2 3.…

Swift 入门学习:集合(Collection)类型趣谈-下

概览 集合的概念在任何编程语言中都占有重要的位置&#xff0c;正所谓&#xff1a;“古来聚散地&#xff0c;宿昔长荆棘&#xff1b;游人聚散中&#xff0c;一片湖光里”。把那一片片、一瓣瓣、一粒粒“可耐”的小精灵全部收拢、吸纳的井然有序、条条有理&#xff0c;怎能不让…

恋活2 仿原神人物卡系列2全合集打包

内含&#xff1a;炽沙话事人 芭别尔迪希雅镀金女团 -沙中净水镀金女团 -叶轮舞者珐露珊坎蒂丝柯莱可莉丽莎-叶隐芳名神里绫华-花时来信瑶瑶。 下载地址&#xff1a; https://www.changyouzuhao.cn/13661.html

C++ Standard Library简介

目录 ​编辑 引言&#xff1a; Boost C Libraries&#xff1a;截至本文编写时间最新版本 1.84.0 STL源码分析&#xff1a; C STL源码分析&#xff08;一&#xff09;&#xff1a;STL体系结构和一些基础知识 libc&#xff1a; 概述 libc 入门 现状 平台和编译…

(黑马出品_03)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

&#xff08;黑马出品_03&#xff09;SpringCloudRabbitMQDockerRedis搜索分布式 微服务技术Docker 今日目标1.初识Docker1.1.什么是Docker1.1.1.应用部署的环境问题1.1.2.Docker解决依赖兼容问题1.1.3.Docker解决操作系统环境差异1.1.4.小结 1.2…

Java共享问题 、synchronized 线程安全分析、Monitor、wait/notify

文章目录 1.共享带来的问题1.1 临界区 Critical Section1.2 竞态条件 Race Condition 2. synchronized语法及理解2.1 方法上的 synchronized 3.变量的线程安全分析3.1.成员变量和静态变量是否线程安全&#xff1f;3.2.局部变量是否线程安全&#xff1f;3.2.1 局部变量线程安全分…

ElasticSearch架构介绍及原理解析

Elasticsearch 是一个高度可扩展的开源全文搜索和分析引擎&#xff0c;用于处理大量的数据。它是由 Elasticsearch BV 公司开发&#xff0c;并且是用 Java 语言编写的。Elasticsearch 基于 Lucene 搜索引擎&#xff0c;提供了 RESTful API&#xff0c;允许你通过 JSON 格式的请…

DFS例题(n皇后问题)C++(Acwing)

代码&#xff1a; #include <iostream>using namespace std;const int N 20;int n; char g[N][N]; bool col[N], dg[N], udg[N];void dfs(int u) {if(u n){for(int i 0; i < n; i) puts(g[i]);puts("");return; }for(int i 0; i < n…

数字化审计智慧

简析内部审计数字化转型的方法和路径 内部审计是一种独立的、客观的确认和咨询活动&#xff0c;包括鉴证、识别和分析问题以及提供管理建议和解决方案。狭义的数字化转型是指将企业经营管理和业务操作的各种行为、状态和结果用数字的形式来记录和存储&#xff0c;据此再对数据进…

【xv6操作系统】Lab systems calls

一、实验前须知 阅读 xv6 文档的第 2 章和第 4 章的 4.3 节和 4.4 节以及相关源文件&#xff1a; 系统调用的用户空间代码在 user/user.h 和 user/usys.pl 中。 内核空间代码在 kernel/syscall.h 和 kernel/syscall.c 中。 与进程相关的代码在 kernel/proc.h 和 kernel/proc.c…

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:ImageSpan)

Text组件的子组件&#xff0c;用于显示行内图片。 说明&#xff1a; 该组件从API Version 10开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 子组件 无 接口 ImageSpan(value: ResourceStr | PixelMap) 参数&#xff1a; 参数名参数类…

大模型学习过程记录

一、基础知识 自然语言处理&#xff1a;能够让计算理解人类的语言。 检测计算机是否智能化的方法&#xff1a;图灵测试 自然语言处理相关基础点&#xff1a; 基础点1——词表示问题&#xff1a; 1、词表示&#xff1a;把自然语言中最基本的语言单位——词&#xff0c;将它转…