接着在页面上右键–>审查,或者F12选择Network项
然后在页面搜索框输入自己感兴趣的关键字并执行搜索,这里我以中国建筑工人为例,可以发现,页面上并没有页码选择,图片是通过鼠标向下滚动时动态加载的,尝试往下滚动鼠标可以在右侧栏中发现我们需要的东西,随便打开一个比如说第一个来查看:
会发现在response中即为我们需要的,将内容复制出并使用JSON格式化工具打开,可以看出items中每个元素中的pic_url即为页面上每张图片的源地址
再查看每个请求的Request URL可以知道如何发送请求,可以得到URL为:
https://pic.sogou.com/pics?query=%D6%D0%B9%FA%BD%A8%D6%FE%B9%A4%C8%CB&mode=1&start=48&reqType=ajax&reqFrom=result&tn=0,可以看出其中的start来控制每次请求的开始位置
好了,接下来只需要每次发送请求指定位置开始的URL,然后获取响应中图片的源地址并下载即可
import time
import random
import socket
# 设置请求超时时间,防止长时间停留在同一个请求
socket.setdefaulttimeout(20)def pullImgfFromSoGou(category, num, path):count = 0for i in range(num//48):n = i + 1url = 'https://pic.sogou.com/pics?query='+category+'&mode=1&start='+str(n*48)+'&reqType=ajax&reqFrom=result&tn=0'imgs = requests.get(url)jd = json.loads(imgs.text)jd = jd['items']imgs_url = []for j in jd:imgs_url.append(j['pic_url'])for img_url in imgs_url:print('***** '+str(count)+'.jpg *****'+' Downloading...')try:urllib.request.urlretrieve(img_url, path+str(count)+'.jpg')# 请求时可能会出现404HttpError,或者连接重置等等异常导致程序突出,这里直接采用Exception进行处理,出现了异常只需要跳过进行下一张的下载即可except Exception:continuefinally:count += 1# 休息数秒,预防IP被禁time.sleep(random.randint(0, 3)+random.random())# 每批次下载完成多休息几秒time.sleep(10*random.randint(1,5))print('Download complete!')if __name__ == '__main__':pullImgfFromSoGou('中国建筑工人', 10000, 'E:/Data/Hat/')