聊天没有表情包被嘲讽，程序员直接用python爬取了十万张表情包

前言
分析页面
具体实现
- 解析页面
- - 获取网页内容
  - 解析网页内容
- 文件下载
- - 多线程下载
成果
总结

前言

事情要从几天前说起，我有一个朋友，他在和他喜欢的小姐姐聊天时，聊天的气氛一直非常尬，这时他就想发点表情包来缓和一下气氛，但一看自己的表情包收藏都是这样的。。。
在这里插入图片描述
。。。这发过去，基本就直接和小姐姐说拜拜了，然后他就向我求救问我有没有表情包，表情包我是没有，但网站有呀，来来，爬虫整起。

分析页面

今天爬取的网站是斗图吧，有一说一表情包是真的多，看这惊人的页数
接下来就该看看怎么拿到表情包图片的url了，首先打开谷歌浏览器，然后点F12进入爬虫快乐模式
在这里插入图片描述
然后完成下图的操作，先点击1号箭头，然后再选中一个表情包即可，红色框中就是我们要爬取的对象，其中表情包的src就在里面

现在我们就搞清楚了怎么拿到表情包的url了，就开始写代码了

具体实现

解析页面

获取网页内容

这里就是获取爬取网页的信息

def askURL(url):head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"}req = urllib.request.Request(url=url, headers=head)html = ""try:response = urllib.request.urlopen(req)html = response.read()except Exception as result:print(result)return html

解析网页内容

# 取出图片src的正则式
imglink = re.compile(r'<img alt="(.*?)" class="img-responsive lazy image_dta" data-backup=".*?" data-original="(.*?)" referrerpolicy="no-referrer" src=".*?"/>',re.S)
def getimgsrcs(url):html = askURL(url)bs = BeautifulSoup(html, "html.parser")names = []srcs = []# 找到所有的img标签for item in bs.find_all('img'):item = str(item)# 根据上面的正则表达式规则把图片的src以及图片名拿下来imgsrc = re.findall(imglink, item)# 这里是因为拿取的img标签可能不是我们想要的，所以匹配正则规则之后可能返回空值，因此判断一下if (len(imgsrc) != 0):imgname = ""if imgsrc[0][0] != '':imgname = imgsrc[0][0] + '.' + getFileType(imgsrc[0][1])else:imgname = getFileName(imgsrc[0][1])names.append(imgname)srcs.append(imgsrc[0][1])return names, srcs

到现在为止，已经拿到了所有的图片的链接和名字，那么就可以开始下载了

文件下载

多线程下载

因为文件实在有点多，所以最好采用多线程的方式下载，我这里只是给了一个样例，大家按照这个逻辑写一下就好

 pool = ThreadPoolExecutor(max_workers=50)for j in range(len(names)):pool.submit(FileDownload.downloadFile, urls[j], filelocation[j])

成果

在这里插入图片描述

在这里插入图片描述
总共是爬了十万多张表情包，这次咱也是表情包大户了

总结

很简单的一个爬虫，适合我这样的初学者练练手，如果对爬虫有兴趣的话可以看看我的爬虫专栏的其他文章，说不定也有你喜欢的

爬虫专栏，快来点我呀

两行代码爬取微博热搜，并实现邮件提醒功能，妈妈再也不用担心我吃不到瓜了爬虫基础

python爬取4k小姐姐图片人生苦短我用python

python爬b站视频人生苦短我用python

Python爬取美女图片爬虫基础

有缘再写，侵权立删

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/46208.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

聊天没有表情包被嘲讽，程序员直接用python爬取了十万张表情包

聊天没有表情包被嘲讽，程序员直接用python爬取了十万张表情包

前言

分析页面

具体实现

解析页面

获取网页内容

解析网页内容

文件下载

多线程下载

成果

总结

相关文章

搞笑程序员表情包 | 这代码……辣眼睛…..

itchat实现微信好友头像爬取并进行拼接成大图当头像

关于微信小程序新版头像昵称API 接口处理

微信小程序设置头像

维纶触摸屏密码弹出界面

IDEC和泉触摸屏维修HG2F-SS22V HG4F软件通信分析

LockBit被破解！日本警方已帮助3家企业恢复数据

关于Oracle 19c登陆OEM，输入正确账号密码后，输入框清空，无法登陆问题

Lab: Username enumeration via account lock账户锁定限制的暴力破解靶场复盘

汉仪股份通过注册：年营收2.2亿谢立群控制公司35%股权

设备指纹详解之识别垃圾账号

SAP 账号被锁定，显示无法再进行口令登录的解决办法

Oracle数据库账号被锁了怎么解锁

三菱Q PLC解密用户名功能块FB破解

怎样写好一本书

CiteSpace作者合作网络分析-web of science文献

citespace wos文献处理

参与微软Docs翻译

【Transfer Learning】泛化到未知域：域泛化 (Domain Generalization) 综述论文

关于建立开放的学术论文共享平台的倡议