自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm=1001.2014.3001.5501
在爬取网页的过程中,经常会出现不久前可以爬取的网页现在无法爬取了,这是因为您的IP被爬取网站的服务器所屏蔽了。此时代理服务可以为您解决这一麻烦,设置代理时,首先需要找到代理地址,例如,122.114.31.177,对应的端口号为808,完整的格式为122.114.31.177:808。示例代码如下:
import requests
proxy = {'http': '122.114.31.177:808',
'https': '122.114.31.177:8080'} # 设置代理ip与对应的端口号
# 对需要爬取的网页发送请求
response = requests.get('http://www.mingrisoft.com/', proxies=proxy)
print(response.content) # 以字节流形式打印网页源码
注意:由于示例中代理IP是免费的,所以使用的时间不固定,超出使用的时间范围内该地址将失效。在地址失效或者地址错误后,控制台将显示如图5所示的错误信息。
图5 代理地址失效或错误所提示的信息