scrapy案例——豆瓣电影Top250的爬取

项目：豆瓣电影Top250的爬取

案例需求：

1.使用scrapy爬虫技术爬取豆瓣电影Top250的电影数据（包括排名、电影名称、导演、演员、url、评分）

2.实现分页爬取，共十页

3.将爬取下来的数据保存在数据库中

案例分析：

1.找到正确的数据吧，并复制正确的请求url

做好准备：开启管道、关闭君子协议、伪造浏览器

ITEM_PIPELINES = {'doubanbook.pipelines.DoubanbookPipeline': 300,
}

ROBOTSTXT_OBEY = False

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'

2.解析数据：如title

    def parse(self, response):# 实例一个容器保存爬取的信息item = DoubanbookItem()# 这部分是爬取部分，使用xpath的方式选择信息，具体方法根据网页结构而定for box in response.xpath('//ol[@class="grid_view"]/li'):item['Rank'] = box.xpath('.//div[@class="pic"]/em/text()').extract()[0]item['Name'] = box.xpath('.//div[@class="info"]/div[1]/a/span[1]/text()').extract()[0].strip().replace("\n","").replace(" ", "")s = box.xpath('.//div[@class="bd"]/p/text()').extract()[0].strip().replace(" ", "")item['Author'] = s.split()[0]if len(s.split()) > 1:item['Actor'] = s.split()[1]item['Score'] = box.xpath('.//div[@class="star"]/span[2]/text()').extract()[0].strip()item['Url'] = box.xpath('.//div[@class="pic"]/a/@href').extract()yield item

items.py中

import scrapyclass DoubanbookItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()Rank = scrapy.Field()Name = scrapy.Field()Author = scrapy.Field()Actor = scrapy.Field()Score = scrapy.Field()Url = scrapy.Field()

3.获取翻页链接

# 获取下一页的rl信息next_url = response.xpath('//span[@class="next"]/link/@href').extract()if next_url:# 将信息组合成下一页的urlpage = 'https://movie.douban.com/top250' + next_url[0]yield scrapy.Request(page, callback=self.parse)

4.保存至数据库

pipelines.py

from itemadapter import ItemAdapter
import pymysql.cursors
import pymysql
from twisted.enterprise import adbapiclass DoubanbookPipeline(object):def __init__(self):# 打开文件# 连接数据库self.conn = pymysql.connect(host='localhost',port=3306,user='root',passwd='wx990826',db='douban',)self.cur = self.conn.cursor()def process_item(self, item, spider):sqli = "insert into movie(ranks,title,author,actor,score,url) values(%s,%s,%s,%s,%s,%s)"self.cur.execute(sqli, (item['Rank'], item['Name'], item['Author'], item['Actor'], item['Score'],item['Url']))self.conn.commit()return item# 该方法在spider被开启时被调用。

运行项目：

start.py

from scrapy import cmdline
cmdline.execute(['scrapy','crawl','read','--nolog'])

运行结果：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/452463.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

scrapy案例——豆瓣电影Top250的爬取

相关文章

利用由 Search AI 提供支持的自动导入功能加速 Elastic Observability 中的日志分析

Java程序设计：spring boot（2）

作业2-线性回归的Matlab代码实现

【vue】vue-router_ vue3路由管理器

linux环境下C程序的编译过程以及makefile的简单使用

git-合并连续两次提交（一个功能，备注相同）

智能时代摩托车一键启动无钥匙进入感受科技前线

【前端】如何制作一个自己的网站（11）

Python SQL 注入攻击及其防护措施：编写安全的数据库查询

闯关leetcode——136. Single Number

leetcode30:串联所有单词的字串

thinkpad E14 GEN5 加内存

Java 类和对象详解（下）

C++进阶——set和map

【C语言】strtok、strerror函数

xlsx xlsx-style-vite 实现前端根据element 表格导出excel且定制化样式背景列宽等

优阅达携手 Theobald 亮相新加坡科技周，助力企业 SAP 数据集成与应用

【Router】路由器中NAT、NAPT、NPT是什么?

Java | Leetcode Java题解之第486题预测赢家

SQL Server 2019数据库“正常，已自动关闭”