[day5]python网络爬虫实战:爬取Top250电影(Scrapy版)

l> 我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版,欢迎购买。点击进入详情

文章目录

  • 1.开发环境
  • 2.第三方库
  • 3.Scrapy css 语法
  • 4.网页分析
  • 5.xx.py
  • 6.保存爬取的内容为csv文件
  • 7.问题1:"UnicodeDecodeError: 'utf-8' codec can't decode byte"
  • 8.问题2:拒绝访问
  • 9.问题3:csv文件中文乱码
  • 10.效果
  • 11.Github源码

关于Scrapy的用法,我们可以参考这篇文章:
[day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)

1.开发环境

  1. IDE: PyCharm 2021.2.1 (Professional Edition)
  2. Python: 3.9.7

2.第三方库

  1. scrapy: 网络请求
  2. scrapy.css: 分析HTML特征

3.Scrapy css 语法

https://geek-docs.com/scrapy/scrapy-tutorials/scrapy-css-grammar.html

4.网页分析

用Chrome打开https://movie.xxx.com/top250,点击红圈中的箭头,然后鼠标滑过左边网页区域的时候,右边就会显示对应的HTML代码块。

5.xx.py

class xxSpider(scrapy.Spider):name = 'xx'allowed_domains = ['movie.xx.com']start_urls = ['https://movie.xx.com/top250']def parse(self, response):for movie in response.css('div.item'):item = xxItem()item['movie_name'] = movie.css('div.pic a img::attr(alt)').extract()yield item# 其它页next_page = response.css('span.next a::attr(href)').extract_first()if next_page:print('************* next_page = ' + next_page)yield Request(self.start_urls[0] + next_page, callback=self.parse)

6.保存爬取的内容为csv文件

start.py中的命令行我们修改为:

cmdline.execute("scrapy crawl xx-o data.csv".split())

7.问题1:“UnicodeDecodeError: ‘utf-8’ codec can’t decode byte”

需要在settings.py中设置:

ROBOTSTXT_OBEY = False

8.问题2:拒绝访问

需要在settings.py中设置:

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'

9.问题3:csv文件中文乱码

需要在settings.py中设置:

FEED_EXPORT_ENCODING = 'utf-8-sig'

10.效果

在这里插入图片描述

11.Github源码

https://github.com/ddnosh/weekly-sample-python/tree/master/5.douban/douban

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36957.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在Flutter中使用markdown

最近在写flutter入门的项目,打算把常用的widgets和插件用法总结下,方便后期查找,项目大概是这个样子。 搜索页 widgets属性页面写的时候考虑排版,但是文字居多,如果设计下排版,用widgets把样式写好&#xf…

vvic、小红书API接口调用

本帖只展示部分代码及接口 需了解更多或开发系统请移步注册测试 http://console.open.onebound.cn/console/?iRookie { “item”: { “num_iid”: “5eb1097ba091410953951d17”, “title”: “2020夏季新款韩版女装高腰直筒裤宽松阔腿西装短裤上班穿搭 黑色 M”, “desc_shor…

Python的网易云音乐数据分析系统 爬虫 echarts可视化 Flask框架 音乐推荐系统 源码下载

Python的网易云音乐数据分析系统 爬虫 echarts可视化 Flask框架 音乐推荐系统 一、技术说明 网易云音乐数据(歌单、用户、歌词、评论)Python爬取Flask框架搭建ECharts、WordCloud可视化项目。系统分为:数据采集模块、数据分析处理模块、数据存储模块、以及数据可视…

【vue3仿网易云音乐app】歌单列表以及歌单界面

实现效果: 实现思路: 异步获取后台api中的歌单信息使用轮播图组件,实现歌单轮播将播放量转换为万、亿单位点击歌单画面,进入单独的歌单详情页 具体实现过程: 1. 异步获取后台api中的歌单信息 在api/index.js中定义获…

【分享】用java和pathon实现小红书(Red Booklet)客服自动回复功能、技术实现分析

技术栈:python、java、android,进程管理、socket通信 客户需求: 客户需要在Red Booklet平台做一个可以24小时自动回复用户私信、评论、回关用户等行为的客服软件。他说他们公司有50个小红书号,十几个客服,急需一款代…

哪家互联网大厂,对离职员工最“狠”?

本文转载自 时代数据,作者 张照 又到一年毕业季。今年高校应届毕业生达到909万人,再创历史新高。 但最让毕业生们焦虑的是,能否顺利进入互联网大厂工作。因为对于他们来说,进入一家互联网大厂工作意味着丰厚的薪水和光明的前景。…

被裁员,HR说要背调阴我!网友说,主动裁员还敢整人?录音留证,必须诉讼!...

HR能卑鄙到什么程度? 一位网友爆料:自己被裁员,HR威胁说要背调阴我,我说:随便! 网友说,主动裁员还敢整人?录音留证,必须诉讼! 有人让楼主威胁回去&#xff0c…

聊聊裁员

大家好!我是韩老师。 从去年下半年开始,无论是大厂还是小厂,不少公司都裁员风波不断。 昨天“微软科技”公众号上,也提及了裁员。 原文链接:预见2023 | 微软侯阳:上半年将在华推出两大服务,始终…

公司通知要大裁员,hr太强势,和所有人吵起来,老板见势不妙,不得不答应大家要求,把HR一起裁掉了!...

在裁员中,hr一般都会代表老板的利益和员工对抗,但如果hr和员工闹翻了,老板会维护hr吗? 一位网友说: 一上班就收到消息要裁员,立马让报上名单面谈,锁电脑关权限。后面那些人面谈的时候吵起来了&a…

谷歌、亚马逊、Meta等多家科技公司被爆员工「假工作」,裁员成最终归宿

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 国际知名商业顾问 Brent Peterson 和 Gaylan Nielson 曾在《Fake Work》中定义 「假工作」—— 在价值幻觉下所做的努力,包括毫无意义的会议、报告和演示。 在科技行业&…

雅思口语高分课程

雅思口语高分课程 雅思口语7的途径 课程英文名:Score High Ielts Speaking 此视频教程共4.0小时,中英双语字幕,画质清晰无水印,源码附件全 下载地址 百度网盘地址:https://pan.baidu.com/s/1eb-XCeEI5p5Z88Soc-hho…

应该如何训练自己的雅思口语?

如何训练自己的雅思口语?这是很多雅思考生在备考的时候遇到的问题,那么接下来就和来看看吧! 第一,用英文简单界定一个东西的技巧。美国人和美国人交谈80%是想告诉对方这个事物是什么。我们的课本尽管词汇难度不断加深,…

雅思口语想考7分,到底该说英音还是美音

在雅思口语考试中 英音和美音到底会不会影响我们的口语成绩 具体区别有哪些 英国人好像一贯有点瞧不起美国英语: 虽然不是女王本人所说(上图是个高仿号,并不是真英国女王),但戏谑也来源于生活,应该多…

不出国,雅思也有大用。来看这篇IELTS雅思考试超详细扫盲贴

文 / 冷玥(微信公众号:王不留) 随着欧美国家陆续开放边境,出国留学的话题也开始热了起来。 我根据周围小伙伴们的经验分享,结合自身经历,整理了一份雅思考试扫盲帖,大约8000字,希望对…

【ChatGPT|AI 应用】AI 助力 Excel ,办公效率倍倍倍增

应用背景 Word、Excel 和 PowerPoint 是办公工作中最基本的三个应用程序,它们可以帮助用户创建、编辑和展示各种文档、电子表格和演示文稿。无论您是为了工作还是学习,使用 Microsoft Office 套件可以提高您的效率并使您的工作更加专业和高效&#xff0…

chatgpt智能提效职场办公--ppt怎么做

作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!😄 导入PPT有 1.通过菜单导入 打开PowerPoint 找到菜单栏中的 点击"插入" 总结 最后的最后 以上是chatgpt能力的冰山一角。…

大模型技术发展概述 -(四)

文本内容参考论文《A Survey of Large Language Models》 论文标题:A Survey of Large Language Models 论文链接:https://arxiv.org/pdf/2303.18223v10.pdf 大模型技术发展概述 -(四) 6. 使用方法6.1 上下文学习6.1.1 提示形式6.…

ChatGPT +工业机器人/自动驾驶控制器的一些尝试

ChatGPT 的功能目前已扩展到机器人领域,可以用语言直观控制如机械臂、无人机、家庭辅助机器人等的多个平台。这会改变人机交互的未来形式吗? 你可曾想过用自己的话告诉机器人该做什么,就像对人说话那样? 比如说,只要告…

multimodal prompting

Prompting for Multimodal Hateful Meme Classification 这篇文献探讨了针对hateful memes的分类问题,提出了一种基于提示的方法(PromptHate),该方法利用预训练的语言模型来实现分类。由于hateful memes需要复杂的推理和上下文背…

基于各种机器学习和深度学习的中文微博情感分析

来源:机器学习AI算法工程 本文约600字,建议阅读5分钟 本文中,我们介绍了中文微博情感分析的情况。 中文微博情感分类语料库 "情感分析"是我本科的毕业设计,也是我入门并爱上NLP的项目hhh,当时网上相关语料库…