AotucCrawler 快速爬取美女图片

今天介绍一款自动化爬取图片项目。

GitHub: https://github.com/YoongiKim/AutoCrawler

Google, Naver multiprocess image web crawler (Selenium)

关键字

  • 爬虫网站:Google、Naver (美、韩两大搜索引擎)

  • 运行方式:Multiprocess(多进程)

  • 爬取格式:image (图片)

  • 基于自动化工具:Selenium (不解释)

如何使用

  1. Git克隆AutoCrawler项目到本地

  2. 自行安装 Chrome 浏览器

  3. 安装依赖

> pip -r requirements.txt
  • certifi: 包含了很多可信任知名公司的证书/公钥。

  • chardet:提供自动检测字符编码的功能。

  • idna: 提供"对于RFC5891中定义的IDNA协议(Internationalised Domain Names in Applications)的支持"。

  • requests: 依赖于上面三个基础库,他主要用于根据图片链接下载图片。

  • selenium: 用于启动浏览器,爬取图片链接。

  • webdriver-manager: 用来管理selenium浏览器驱动的项目。

仔细分析别人项目,不管是源码还是依赖库都会有收获。webdriver-manager 就是我发现的一个宝藏项目,它简化的浏览器驱动的管理。

  1. 打开keywords.txt文件,编写爬取的关键字。

cat
dog
  1. 运行main.py 文件

> python main.py

参数说明:

--skip true:如果下载的关键字已经存在,是否跳过关键字,重新下载时需要设置。

--threads 4:下载使用线程数量

--google true:从google.com 下载。

--naver true: 从naver.com 下载。

--full false: 下载全分辨率图像而不是缩略图 (慢)。

--face false: Face search mode。

--no_gui auto: 使用 GUI 模式. (headless模式) 全分辨率模式可以加速, 但是缩略图模式不稳定。默认auto模式,如果full=false 默认使用使用GUI,如果full=true默认Headless模式。(可用于docker linux系统)。

--limit 0: 设置最大图片下载范围。(0: 无限制)

--proxy-list: 逗号分隔的代理列表,如: socks://127.0.0.1:1080, http://127.0.0.1:1081,每个线程从列表中随即选择一个。

例如:

> python main.py --threads 2 --google true  --naver false --full false --limit 50

图片

  1. 爬取的图片保存于 downloads/ 目录。

小结

  1. 因为使用的是Google网站,没有梯子的同学有点郁闷。项目本身并不复杂,两个python文件加一起不到1000行代码,我们完全可以花点时间替换为国内可访问的搜索引擎。

  2. 下载图片只是为了欣赏猫猫狗狗吗?当然不是,我们可用下载的图片训练 AI,当然你也可以测试文件上传的时候用。

下面是配套资料,对于做【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴我走过了最艰难的路程,希望也能帮助到你!å¨è¿éæå¥å¾çæè¿°

最后: 可以在公众号:程序员小濠 ! 免费领取一份216页软件测试工程师面试宝典文档资料。以及相对应的视频学习教程免费分享!,其中包括了有基础知识、Linux必备、Shell、互联网程序原理、Mysql数据库、抓包工具专题、接口测试工具、测试进阶-Python编程、Web自动化测试、APP自动化测试、接口自动化测试、测试高级持续集成、测试架构开发测试框架、性能测试、安全测试等。

如果我的博客对你有帮助、如果你喜欢我的博客内容,请 “点赞” “评论” “收藏” 一键三连哦!喜欢软件测试的小伙伴们,可以加入我们的测试技术交流扣扣群:310357728里面有各种软件测试资源和技术讨论)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32586.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

爬取单张图片(简单版)

一.创建Python项目 (1)创建CrawlerDemo爬虫项目 二、安装所需要的库 (1)安装requests库在终端执行命令语句:pip install requests (2)安装lxml库-解析网页在终端执行命令语句:pip …

python爬虫爬取网上图片

爬虫原理爬虫需要遵守的规则实际操作 爬虫 其实通俗点来讲爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来,(切记是安全的数据,允许爬的范围…

Python——爬取图片

大家好,我是xiaomeng 小孟 您好 欢迎大家阅读今天的文章————Python爬取图片(爬虫) 最近爬虫挺火的,所以我今天也来一个爬虫! 正文: 首先,我们先下载模块,pip install requests…

爬取谷歌图片

python爬虫:爬取谷歌图片 前言涉及到的库需要使用的插件实现过程 前言 由于工作需要,需要从网上获取大量图片。(使用谷歌图片需自备梯子)涉及到的库 pip 安装 from selenium import webdriver from selenium.webdriver.chrome.…

python 爬取图片

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、爬虫是什么?二、编写网络爬虫要用到的python库(常用)代码实现导入所需模块:对网站发起请求并转化为text格式…

AotucCrawler 快速爬取图片

AotucCrawler 快速爬取图片 今天介绍一款自动化爬取图片项目。 GitHub: GitHub - YoongiKim/AutoCrawler: Google, Naver multiprocess image web crawler (Selenium) Google, Naver multiprocess image web crawler (Selenium) 关键字 爬虫网站:Google、Naver &…

Python爬取图片

爬取网站 https://image.baidu.com/ 先打开页面 然后点击动物图片 当然选择哪个都可以我这里只是喜欢动物的所以选择这个分类 爬取任何数据 第一步就是先确定数据来源 先打开 f12 来看一下 先点击随便一个图片右键 然后点击检查 就会跳到那个图片所在的位置 如下&#xff1a…

(三)爬取一些网页图片

爬取一些网页图片 1、随机爬取一个网页: import requests# 1、获取图片网页源码 def Get_Source_Page():url https://pic.netbian.com/index.html# 当爬虫程序运行爬网站,若不设置header为任意一个名字,会被有些网站检查出是python爬虫&…

模拟双色球

投注号码由6个红色球号码和1个蓝色球号码组成。红色球号码从1 - 33选择;蓝色球号码从1 - 16中选择。 package com;import java.util.Random; import java.util.Scanner;public class Test {public static void main(String[] args) {// 1.随机一组中奖号码,6个红球号码不重复(1…

年轻人的第一支牙刷,“少年”国风定制,BYCOOMagic电动牙刷体验

刷牙是每个人每天必做的事,普通牙刷由于清洁力度不够,无法做到深层次刷牙清理,加上刷牙时间不足,因此大多数人属于敷衍式刷牙。欲善其事、先利其器,要想科学刷牙,电动牙刷必不可少,最近我就入手…

第三方ipad笔哪个牌子好用?ipad触控笔推荐平价

至于选择苹果原装的电容笔,还是平替的电容笔,要看个人的需求而定,比如画图用的,可以用Apple Pencil;比如学习记笔记用的,可以用平替电容笔,目前的平替电容笔无论是品质还是性能,都非…

咦?智能颈部按摩仪还能语音播报,快搞起来!

一、档位切换实现 1、档位实现原理 按摩仪共设置15个档位,可以控制按摩的力度,通过BOOST升压电路实现。 通过P8口产生PWM波,调节PWM输出的正占空比来实现升压,详细的硬件原理可参考硬件部分关于升压原理的介绍,具体数…

电动牙刷/洗牙器出口欧盟CE认证测试标准EN 60335

电动牙刷/洗牙器在这两年开始被很多厂家看中这块的发展,因为据调查了解到,电动牙刷比普通牙刷更能够清除牙菌减少牙龈,更好的做到了清洁的作用。 在欧美国家几乎所有的人都使用电动牙刷,是一款普遍流行的日用品,因此在…

oh-my-posh - 终端个性化工具 - 美化PowerShell / cmd - 好物分享,真香~

一. 什么是oh-my-posh? Oh My Posh 是一款终端个性化工具,支持 Windows、Linux(WSL)、macOS 系统上的 PowerShell、bash、zsh 等终端,可以配置不同主题达到个性化的效果。 本篇文章,将以PowerShell终端为例&#xff0…

酷科技 | Amabrush电动牙刷:10秒就可以完成刷牙

刷牙是我们每天都要做的事情,虽然整个过程不过两三分钟,但无论是早上急急忙忙的起床,还是晚上困意来袭,忘记刷牙或者随便糊弄一下,已经成为了很多人经常会做的事情。 牙齿的健康很重要,因此刷牙这件事虽小但…

PaddleSpeech 流式语音识别系统 PP-ASR

(以下内容搬运自 PaddleSpeech) PP-ASR 目录 1. 简介2. 特点3. 使用教程 3.1 预训练模型3.2 模型训练3.3 模型推理3.4 服务部署3.5 支持个性化场景部署 4. 快速开始 1. 简介 PP-ASR 是一个 提供 ASR 功能的工具。其提供了多种中文和英文的模型,支持模型的训练&a…

飞利浦 PHILIPS 电动牙刷HX6730 拆解

今日,一直比较喜欢用的电动牙刷,飞利浦HX6730坏掉了,初步感觉考虑飞利浦的保修,但是发现发票找不到了。飞利浦的客服也说,电动牙刷的两年保修依据分别是:1、发票开据日期;2、在无发票的情况下&a…

CES Asia:藏在儿童电动牙刷里的科技

科技巨头苹果公司常常对外表达的观念是,产品的核心是使用者,科技是用来解决问题,让产品设计得能帮助使用者生活得更美好,科技要做的是帮助人们拥有完成原本无法做到的事的能力。苹果公司认为科技应当藏身幕后,而不是走…

两款黑科技、高颜值电动牙刷正面PK,如何选择性价比是关键

随着人们生活水平的提升,近年来,各种黑科技层出不穷,对我们的生活带来了巨大的改变,甚至可以说是“武装到了牙齿”——例如目前不少厂商推出了智能声波电动牙刷(以下简称:电动牙刷),让刷牙也变得极具科技感。 目前市面上的电动牙刷品牌众多、鱼龙混杂,但在性能、质量…