Python爬虫(十七)_糗事百科案例

news/2024/12/25 1:30:13/文章来源:https://blog.csdn.net/javasdn/article/details/132610530

糗事百科实例

爬取糗事百科段子，假设页面的URL是: http://www.qiushibaike.com/8hr/page/1

要求：

使用requests获取页面信息，用XPath/re做数据提取
获取每个帖子里的用户头像连接、用户姓名、段子内容、点赞次数和评论次数
保存到json文件内

参考代码

#-*- coding:utf-8 -*-import requests
from lxml import etreepage = 1
url = 'http://www.qiushibaike.com/8hr/page/' + str(page) 
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36','Accept-Language': 'zh-CN,zh;q=0.8'}try:response = requests.get(url, headers=headers)resHtml = response.texthtml = etree.HTML(resHtml)result = html.xpath('//div[contains(@id,"qiushi_tag")]')for site in result:item = {}imgUrl = site.xpath('./div//img/@src')[0].encode('utf-8')# print(imgUrl)username = site.xpath('./div//h2')[0].text# print(username)content = site.xpath('.//div[@class="content"]/span')[0].text.strip().encode('utf-8')# print(content)# 投票次数vote = site.xpath('.//i')[0].text# print(vote)#print site.xpath('.//*[@class="number"]')[0].text# 评论信息comments = site.xpath('.//i')[1].text# print(comments)print imgUrl, username, content, vote, commentsexcept Exception, e:print e

演示效果

糗事百科

糗事百科

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/115167.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

什么是HTTPS协议？与HTTP协议区别？

什么是HTTPS协议？与HTTP协议区别？

一、协议科普 HTTP协议（超文本传输协议）是一种用于在计算机网络上传输超文本的应用层协议。它是一种客户端-服务器协议，允许客户端通过Web浏览器等方式向服务器发送请求，服务器则返回响应。HTTP协议是构建万维网（WWW&…

阅读更多...

详解排序算法(附带Java/Python/Js源码)

详解排序算法(附带Java/Python/Js源码)

冒泡算法依次比较两个相邻的子元素，如果他们的顺序错误就把他们交换过来，重复地进行此过程直到没有相邻元素需要交换，即完成整个冒泡，时间复杂度。比较相邻的元素。如果第一个比第二个大，就交换它们两个；…

阅读更多...

day 3

day 3

阅读更多...

Leetcode107. 二叉树的层序遍历 II

Leetcode107. 二叉树的层序遍历 II

力扣（LeetCode）官网 - 全球极客挚爱的技术成长平台给你二叉树的根节点 root ，返回其节点值自底向上的层序遍历。 （即按从叶子节点所在层到根节点所在的层，逐层从左向右遍历） 输入：root [3,9…

阅读更多...

咸虾米之一些快捷方式的操作，一行方块的左右滑动,方块在一区域内的任意移动

咸虾米之一些快捷方式的操作，一行方块的左右滑动,方块在一区域内的任意移动

由于本着只学习微信小程序的目的，上面的几篇博文都是跟着黑马程序的课程走的！后面的就讲解uni-app的实验呢！一个人的精力是有限的，于是换了们课程继续深造微信小程序！！！ 以下是在 .wxml中的一些…

阅读更多...

音频母带制作::AAMS V4.0 Crack

音频母带制作::AAMS V4.0 Crack

自动音频母带制作简介。使用 AAMS V4 让您的音乐听起来很美妙！ 作为从事音乐工作的音乐家，您在向公众发布材料时需要尽可能最好的声音，而为所有音频扬声器系统提供良好的商业声音是一项困难且耗时的任务。AI掌握的力量！ 掌控您…

阅读更多...

2023.8.26-2023.9.3 周报【3D+GAN+Diffusion基础知识+训练测试】

目录学习目标学习内容学习时间学习产出学习目标 1. 3D方向的基础知识 2. 图像生成的基础知识（GAN \ Diffusion） 3. 训练测试GAN和Diffusion 学习内容 1. 斯坦福cv课程-3D （网课含PPT） 2. sjtu生成模型课件 3. ge…

阅读更多...

【卷积神经网络】经典网络之 LeNet-5, AlexNet 与 VGG-16

【卷积神经网络】经典网络之 LeNet-5, AlexNet 与 VGG-16

随着计算机硬件的升级与性能的提高，运算量已不再是阻碍深度学习发展的难题。卷积神经网络（Convolution Neural Network，CNN）是深度学习中一项代表性的工作，其雏形是 1998 年 LeCun 提出的 LeNet-5 模型。如今&#xff…

阅读更多...

【Axure高保真原型】多图表动态切换

【Axure高保真原型】多图表动态切换

今天和大家分享多图表动态切换的原型模板，点击不同的图标可以动态切换对应的表，包括柱状图、条形图、饼图、环形图、折线图、曲线图、面积图、阶梯图、雷达图；而且图表数据可以在左侧表格中动态维护，包括增加修改和删除&#xff0…

阅读更多...

百万级并发IM即时消息系统（2）

百万级并发IM即时消息系统（2）

1.用户model type UserBasic struct {gorm.ModelName stringPassWord stringPhone string valid:"matches(^1[3-9]{1}\\d{9}$)"Email string valid:"email"Avatar string //头像Identity stringClientIp s…

阅读更多...

docker高级（DockerFile解析）

docker高级（DockerFile解析）

1、构建三步骤编写Dockerfile文件 docker build命令构建镜像 docker run依镜像运行容器实例 2、DockerFile构建过程解析 Dockerfile内容基础知识 1：每条保留字指令都必须为大写字母且后面要跟随至少一个参数 2：指令按照从上到下，顺序执行…

阅读更多...

JavaScript Web APIs -03 事件流、事件委托、其他事件（加载、滚动、尺寸）

JavaScript Web APIs -03 事件流、事件委托、其他事件（加载、滚动、尺寸）

Web APIs - 03 文章目录 Web APIs - 03事件流捕获和冒泡阻止冒泡事件委托其他事件页面加载事件元素滚动事件页面尺寸事件元素尺寸与位置进一步学习事件进阶，实现更多交互的网页特效，结合事件流的特征优化事件执行的效率掌握阻止事件冒泡的方法理解事…

阅读更多...

爬虫逆向实战（二十八）--某税网第一步登录

爬虫逆向实战（二十八）--某税网第一步登录

一、数据接口分析主页地址：某税网 1、抓包通过抓包可以发现登录接口是factorAccountLogin 2、判断是否有加密参数请求参数是否加密？ 通过查看载荷模块可以发现有一个datagram 和一个signature加密参数请求头是否加密？ 通过查看“标…

阅读更多...

如何从ChatGPT中获得最佳聊天对话效果

如何从ChatGPT中获得最佳聊天对话效果

从了解ChatGPT工作原理开始，然后从互动中学习，这是一位AI研究员的建议。人们利用ChatGPT来撰写文章、论文、生成文案和计算机代码，或者仅仅作为学习或研究工具。然而，大多数人不了解它的工作原理或它能做什么，所以他…

阅读更多...

excel怎么设置任意选一个单元格纵横竖横都有颜色

excel怎么设置任意选一个单元格纵横竖横都有颜色

有时excel表格内容过多的时候，我们通过excel设置任意选一个单元格纵横，竖横背景颜色，这样会更加具有辨识度。设置方式截图如下设置成功后，预览的效果图

阅读更多...

如何修复 Cloudflare 错误 1015“您受到速率限制”

如何修复 Cloudflare 错误 1015“您受到速率限制”

目录错误 1015 您受到费率限制如何修复错误 1015 您的速率受到限制 Cloudflare 降低用户活动速度禁用网站的速率限制擦除当前的速率限制设置增加网站可以处理的请求数量修改时间限制增加带宽支持网站优化社区支持为网站访问者提供无错误的体验应该如何学…

阅读更多...

无涯教程-Android - Spinner函数

无涯教程-Android - Spinner函数

Spinner允许您从下拉菜单中选择一个项目例如。使用Gmail应用程序时,将显示如下所示的下拉菜单,您需要从下拉菜单中选择一个项目。 Spinner Example 示例本示例演示计算机的类别,您需要从类别中选择一个类别。以下是修改后的主要Activity文件src/com.example.spinner/Andr…

阅读更多...

域内密码喷洒

域内密码喷洒

在Kerberos阶段认证的AS-REQ阶段，请求包cname对应的值是用户名，当用户名存在时候，密码正确和错误两种情况下，AS-REP返回包不一样，所以可以利用这一点对域用户名进行密码喷洒攻击域内密码喷洒工具 Kerbrute kerbrut…

阅读更多...

顺序表链表OJ题(2)-＞【数据结构】

顺序表链表OJ题(2)-＞【数据结构】

W...Y的主页 😊 代码仓库分享 💕 前言： 单链表的结构常常不完美，没有双向链表那么”优秀“，所以繁衍出很多OJ练习题。今天我们继续来look look数据结构习题。下面就是OJ时间！！！ …

阅读更多...

Vue安装过程的困惑解答——nodejs和vue关系、webpack、vue-cli、vue的项目结构

Vue安装过程的困惑解答——nodejs和vue关系、webpack、vue-cli、vue的项目结构

文章目录 1、为什么在使用vue前要下载nodejs？2、为什么安装nodejs后就能使用NPM包管理工具？3、为什么是V8引擎并且使用C实现？4、为什么会安装淘宝镜像？5、什么是webpack模板？6、什么是脚手架 vue-cli？6.1 安…

阅读更多...

最新文章

推荐文章