爬取淘宝任意商品数据,你上你也行

文章目录

      • 构造url
      • 分析页面结构
      • 爬取多页数据
      • 最后

构造url

第一页url

https://s.taobao.com/search?q="面膜"

第二页url

https://s.taobao.com/search?q="面膜"&bcoffset=4&p4ppushleft=2%2C48&s=44&ntoffset=4

第三页url

https://s.taobao.com/search?q="面膜"&bcoffset=1&p4ppushleft=2%2C48&ntoffset=1&s=88

这里没有发现很明显的规律,看到了bcoffset和s其实都是不一样的;这种情况就需要大胆尝试了;

//1.去掉s只留bcoffset
https://s.taobao.com/search?q="面膜"&bcoffset=4&p4ppushleft=2%2C48&ntoffset=4

发现访问不了;换另一种思路

//2.去掉bcoffsets只留s
https://s.taobao.com/search?q="面膜"&s=44

访问到的就是淘宝中第二页的界面,在试一下s=88,发现就是第三页的界面

https://s.taobao.com/search?q="面膜"&s=88

所以,得出结论,淘宝上每页商品的url链接就是

https://s.taobao.com/search?q="面膜"&s=44*i

分析页面结构

先试一下爬取某一个页面,这里就以第一页为例

https://s.taobao.com/search?q="面膜"

我们先进该网页看一下网页结构,一进去发现需要登录,这里需要注意爬取的时候可能也需要登录;

在这里插入图片描述
登录后进入面膜首页

在这里插入图片描述

尝试先爬取首页来分析网页结构,很多网站浏览器检查出来的结构和我们看到的结构并不一致

import requests
url = 'https://s.taobao.com/search?q="面膜"'
# 模拟浏览器,不会的后面会讲
header = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36" } 
response = requests.get(url,headers=header)
print(response.text)

可以看到输出的都是登录信息,所以这里引入cookie(需要之前登录过)
在这里插入图片描述

右键检查,network,刷新一下界面,找到network的第一个search开头的,右边找到cookie,复制(浏览器header也在这里可以查看)
在这里插入图片描述
在requests中引入cookie;cookie太长了,我就不贴代码了
在这里插入图片描述
现在看到的就是,面膜首页结构了
在这里插入图片描述
稍微仔细观察一下,发现数据都是类似下面以键值对存储的,所以我们直接构造正则表达式匹配关心的内容即可。

"raw_title":"泰国海藻面膜小颗粒天然补水保湿嫩白男女士淡化祛痘印收缩毛孔斑"
"pic_url":"//g-search2.alicdn.com/img/bao/uploaded/i4/i3/709459503/O1CN01x0BiwS2K4QN8zB20v_!!709459503.jpg"
"detail_url":"//item.taobao.com/item.htm?id\u003d542945305681\u0026ns\u003d1\u0026abbucket\u003d13#detail"
"view_price":"179.00"
"view_fee":"0.00"

r’“view_price”:".*?"’ 匹配"view_price":加非贪婪匹配(尽可能少获取)

import re
price=re.findall(r'"view_price":".*?"',response.text)
print(price)

可以看到第一页的所有价格全在这
在这里插入图片描述

获取一下店铺名和商品图片url,简单修改一下正则表达式即可

nick=re.findall(r'"nick":".*?"',response.text)
pic_url=re.findall(r'"pic_url":".*?"',response.text)
print(nick,pic_url)

在这里插入图片描述

爬取多页数据

将之前的代码封装在一个函数里面,便于复用,代码前面也有,需要获取代码的微信公众号回复淘宝即可;

在这里插入图片描述

最后

可以关注一下我的公众号,最近开始写公众号,我会在上面分享一些资源和发布一些csdn上发布不了的干货;有问题也可以在公众号上留言
在这里插入图片描述

点个关注是对博主最大的支持
回复淘宝即可获取 爬取淘宝任意商品代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/71851.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

淘宝商品数据爬取并分析数据

一、抓取数据 1、抓取数据的意义 对电商来说,抓取某些数据,再进行分析,可以有效地反映出数据在某个区间内变化情况。数据受某些因素而发生巨大的影响,也可以借助分析的数据来规划相关项目的后续发展。因此,如果能利…

爬取淘宝商家货物简单销售数据(销量,价格,销售地,货物名称)

爬取淘宝商家货物简单销售数据(销量,价格,销售地,货物名称) 爬取淘宝店家数据信息 爬取淘宝商家货物简单销售数据(销量,价格,销售地,货物名称)一、登录淘宝&a…

第三方速卖通数据抓取工具全面解析

跨境电商的崛起,使得越来越多的卖家选择在速卖通平台上开店,但是如何获取有用的数据并进行分析,成为了卖家们面临的一个难题。第三方速卖通数据抓取工具应运而生,成为了卖家们获取有价值数据的新利器。本文将从以下八个方面对第三…

获取用户手机号码

小程序中有很多地方都会用到注册用户信息的地方,用户需要填写手机号等, 有了这个组件可以快速获取微信绑定手机号码,无须用户填写。 1.getPhoneNumber这个组件通过button来实现(别的标签无效)。将button中的open-type“…

获取微信手机号码

access_token是公众号的全局唯一接口调用凭据,公众号调用各接口时都需要使用access_token。 微信开发需要用到的access_token,其实是分为两个种类的,一种是普通的access_token,另一种是网页授权access_token。 普通的access_tok…

基于java的手机批量导入手机号系统,检测手机号微信是否开通

大量的手机号码按照记事本格式(记事本文档里面只可以有手机号和状态)导入(手机号----状态),具体代码包括工具类的使用,可以点击下载查询。 //导出跳转GetMapping("/phone-list-export")public M…

Android快速实现手机号码识别OCR

在Android App中开发扫描手机号码、电话号码OCR功能,一般有多种方案选择: 1. 调用商业在线OCR接口 2. 集成商业离线OCR SDK 3. 集成开源OCR模块 (若需集成离线识别SDK,可参考https://blog.csdn.net/dieqms/article/details/110…

写中文文章,字数≠质量,多少字最佳?

在这个自媒体盛行的时代,我们经常听到“字数至上”的说法,有人认为写作一定要达到一定的字数才能够算是一篇好文章,但是真的是这样吗?中文文章写多少字才算合适呢?下面就让我们来一起探讨一下。 1.字数不等于质量 首…

写完的文档有多少个字?字数统计在word哪里

还记得小时候写作文的时候,为了确保字数足够,会一个字一个字地去数,但是现在不用啦,现在基本上都是利用电脑来编写文档,利用word节省很多办公时间,而word很智能,功能也很齐全,再也不…

最适合十二星座的那些表白方式!

白羊座: 世俗又浪漫; 金牛座: 奢华大场面; 双子座: 诱发好奇心; 巨蟹座: 省钱又省事; 狮子座: 一起打肿脸; 处女座: 看谁更细腻; 天秤座: 需要好口才; 天蝎座: 深情加酒精; …

占星周运(白羊座)

冥王拱太阳 海王六合太阳 北交拱土星,北交合水星 火星六合天王 金星型木星 羊羊,继续追求金钱和财产吧。记忆也是一种财产。你的家庭生活既是充满活力/暴躁的,也是有吸引力/引人注目的。拥抱孩子。在五月剩下的时间里,偶然认识的朋友、交谈&…

星座与性格

星座与传说 | 星座与爱情 | 星座与性格 | 星座与生日愿望 | 星座与经商 | 测试你的性成熟程度 十二星座 宝瓶星座 双鱼星座 白羊星座 金牛星座 双子星座 巨蟹星座 狮子星座 处女星座 天秤星座 天蝎星座 射手星座 摩羯星座 十二星座 宝瓶星座 双鱼星座 白羊星座 金牛星座 双子…

PyTorch定长验证码训练集数字识别(几乎每行注释,开箱即用)

文章目录 前言一、代码1.1 MyDataset.py(加载数据集和计算均值,标准差)1.2 Mymodels.py(使用预训练模型)1.2.1 ResNet介绍 1.3 main.py(启动代码)1.4 inferring.py(验证是否识别成功)1.5 文件目录树1.6 资源链接 二、借鉴 前言 这是一个识别出验证码图片的代码。训…

chatgpt赋能python:Python制表位:优化数据可视化与分析的利器

Python 制表位:优化数据可视化与分析的利器 在数据可视化和分析中,表格是一种常用的数据展示方式。Python 提供了丰富的用于构建表格的库,其中之一便是制表位(Tabulate)。本文将介绍制表位的特点、使用方法以及另外一…

结合代谢组学和网络药理学技术发现的差异代谢物和中药成分的药物靶点关联等技术操作

本期分享一篇中南大学今年发表在Computational and Structural Biotechnology Journal 杂志(影响因子6.018)上的论文《结合代谢组学和网络药理学揭示羟基红花黄色素A抗急性颅脑损伤的机制》。 外伤性脑损伤(Traumatic brain injury,TBI)已成为世界范围内导致死亡、发病和残…

网络药理学分析工具开发好了

上次文章说开发网络药理学工具,其实上周五就已经做好了,但我为什么要今天才通知各位小伙伴呢。因为第一版做的实在太丑了图片,所以我觉得要好好打磨一下,所以今天才写这篇文章。我们先来看下软件打磨前后的对比: 第一版…

论文查重发现他引率为0怎么办

今天准备论文查重,发现虽然查重率低,但是他引率为0。搞得我一脸懵。 格式什么的都是正确的,引用大段的文献也有,为啥他引率为0呢。。。。 被逼无奈,将文章中的上标注和参考文献的标注全部用手打的,不使用…

文末送书 | 图灵宇宙:用漫画讲述图灵奖背后的计算机科学发展简史

张立波,武延军,赵琛 著 电子工业出版社-博文视点2022-09-01 ISBN: 9787121442933定价:109.00 元 新书推荐 🌟今日福利 |关于本书| 这是一本以计算机领域重要奖项——图灵奖为切入点,系统展现计算机科学发展…

“复制”马斯克(三):我们要为他的“反智事业”买单吗?

马斯克首次跻身世界首富,引发大众的强烈关注。 但是,首富的排名对马斯克、对我们而言都并不重要,对我们更为重要的一个影响是,随着马斯克所取得的商业成功和巨大财富积累,他的事业正在进入一个全新的阶段。 去年的12月…