专栏文章索引:爬虫
目录
一、介绍
二、推荐
1.接口自动化
2.Web自动化
一、介绍
爬虫技术一般可以分为两种类型:接口自动化和web自动化。下面是它们的简要介绍:
1.接口自动化
接口自动化技术的主要目的是通过模拟HTTP请求来实现自动化,通常用于测试web API和抓取数据。接口自动化爬虫可以直接访问数据接口获取数据,它可以通过发送规范的HTTP请求来实现数据的抓取和操作。接口自动化技术适用于需要大量抓取数据的需求,以及在抓取时对页面交互没有要求的场景。
综上所述,根据不同的需求和场景,可以选择适合自己的爬虫类型,分别应用Web自动化或接口自动化技术来进行网页数据的抓取和处理。
2.Web自动化
Web自动化技术旨在模拟人类操作浏览器来实现自动化,通常用于对网页进行操作和抓取数据。Web自动化爬虫可以通过自动化浏览器驱动,模拟人类的行为来实现数据的抓取和操作。Web自动化技术可以模拟页面操作、登陆、填表、拖拽等操作,非常适合于需要登录并模拟用户操作的网站、复杂的网页交互以及需要抓取动态网页数据的需求。
二、推荐
1.接口自动化
- requests库
python的第三方库,目前使用比较多
2.Web自动化
- Selenium
初学者可以先学习这个工具
- DrissionPage
语法跟Selenium类似,由于出现的比较晚,检测还不是很严格
- SaossionPage
DrissionPage的plus版