1、不返回网页,如果不返回内容,延迟返回时间
不返回网页是传统的反爬虫手段,即爬虫向相应的网址发送请求后,网站返回404页面,表明服务器无法正常提供信息或服务器无法响应;网站也可能长时间不返回数据,这意味着爬虫已经被封杀。
2、传回资料非目的网页
例如错误网页、空页、爬取多页等等,都可以传回同一网页。
3、返回非目标网页
即网站说,网站会返回假数据,比如返回空白页或爬取多页时返回同一页。当你的爬虫运行顺利时,你会开心地做其他事情。结果半小时后,你发现每一页的爬行结果都是一样的,这就是获得假网站。
例如,到哪儿网的机票价格页面,在网上标注的价格与html源代码竟然不一样。
4、增加获取数据的难度:登录后可以查看登录时设置验证码
网站也会通过增加获取数据的难度来防爬虫,一般登录就可以看到数据,并设置验证码。为限制爬虫,无论您是否是真正的用户,站点都可能要求您登录并输入验证码进行访问。
这4种情况在爬虫界是很常见的。爬虫需要根据不同的实际情况制定不同的反爬虫策略,才能顺利工作。
有一种方法是在爬虫类时使用高质量的代理IP地址,代理IP可以轻松快速更换IP,这样爬虫程序就可以继续下去了。