Python爬取京东商品销售数据进行数据分析示例代码,以口红为例

文章目录

    • 一、准备工作
      • 驱动安装
      • 模块使用与介绍
    • 二、流程解析
    • 三、完整代码
    • 四、效果展示
      • 关于Python技术储备
        • 一、Python所有方向的学习路线
        • 二、Python基础学习视频
        • 三、精品Python学习书籍
        • 四、Python工具包+项目源码合集
        • ①Python工具包
        • ②Python实战案例
        • ③Python小游戏源码
        • 五、面试资料
        • 六、Python兼职渠道


一、准备工作

驱动安装

实现案例之前,我们要先安装一个谷歌驱动,因为我们是使用selenium 操控谷歌驱动,然后操控浏览器实现自动操作的,模拟人的行为去操作浏览器。

以谷歌浏览器为例,打开浏览器看下我们自己的版本,然后下载跟自己浏览器版本一样或者最相近的版本,下载后解压一下,把解压好的插件放到我们的python环境里面,或者和代码放到一起也可以。

模块使用与介绍

  • selenium pip install selenium ,直接输入selenium的话是默认安装最新的,selenium后面加上版本号就是安装对应的的版本;
  • csv 内置模块,不需要安装,把数据保存到Excel表格用的;
  • time 内置模块,不需要安装,时间模块,主要用于延时等待;

二、流程解析

我们访问一个网站,要输入一个网址,所以代码也是这么写的。

首先导入模块

from selenium import webdriver

文件名或者包名不要命名为selenium,会导致无法导入。 webdriver可以认为是浏览器的驱动器,要驱动浏览器必须用到webdriver,支持多种浏览器。

实例化浏览器对象 ,我这里用的是谷歌,建议大家用谷歌,方便一点。

driver = webdriver.Chrome()

我们用get访问一个网址,自动打开网址。

driver.get('https://www.jd.com/')

运行一下

打开网址后,以买口红为例。

我们首先要通过你想购买的商品关键字来搜索得到商品信息,用搜索结果去获取信息。

那我们也要写一个输入,空白处点击右键,选择检查。选择element 元素面板

鼠标点击左边的箭头按钮,去点击搜索框,它就会直接定位到搜索标签。在标签上点击右键,选择copy,选择copy selector 。如果你是xpath ,就copy它的xpath 。然后把我们想要搜索的内容写出来

driver.find\_element\_by\_css\_selector('#key').send\_keys('口红')

再运行的时候,它就会自动打开浏览器进入目标网址搜索口红。

同样的方法,找到搜索按钮进行点击。

driver.find\_element\_by\_css\_selector('.button').click()

再运行就会自动点击搜索了,页面搜索出来了,那么咱们正常浏览网页是要下拉网页对吧,咱们让它自动下拉就好了。 先导入time模块

import time

执行页面滚动的操作

def drop\_down():"""执行页面滚动的操作"""  # javascriptfor x in range(1, 12, 2):  # for循环下拉次数,取1 3 5 7 9 11, 在你不断的下拉过程中, 页面高度也会变的;time.sleep(1)j = x / 9  # 1/9  3/9  5/9  9/9# document.documentElement.scrollTop  指定滚动条的位置# document.documentElement.scrollHeight 获取浏览器页面的最大高度js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight \* %f' % jdriver.execute\_script(js)  # 执行我们JS代码

循环写好了,然后调用一下。

drop\_down()

我们再给它来个延时

driver.implicitly\_wait(10)

这是一个隐式等待,等待网页延时,网不好的话加载很慢。

隐式等待不是必须等十秒,在十秒内你的网络加载好后,它随时会加载,十秒后没加载出来的话才会强行加载。

还有另外一种死等的,你写的几秒就等几秒,相对没有那么人性化。

time.sleep(10)

加载完数据后我们需要去找商品数据来源

价格/标题/评价/封面/店铺等等

还是鼠标右键点击检查,在element ,点击小箭头去点击你想查看的数据。

可以看到都在li标签里面 获取所有的 li 标签内容,还是一样的,直接copy 。 在左下角就有了 这里表示的是取的第一个,但是我们是要获取所有的标签,所以左边框框里 li 后面的可以删掉不要。 不要的话,可以看到这里是60个商品数据,一页是60个。 所以我们把剩下的复制过来, 用lis接收一下 。

lis = driver.find\_elements\_by\_css\_selector('#J\_goodsList ul li')

因为我们是获取所有的标签数据,所以比之前多了一个s

打印一下

print(lis)

通过lis返回数据 列表 [] 列表里面的元素 <> 对象

遍历一下,把所有的元素拿出来。

for li in lis:title = li.find\_element\_by\_css\_selector('.p-name em').text.replace('\\n', '')  # 商品标题 获取标签文本数据price = li.find\_element\_by\_css\_selector('.p-price strong i').text  # 价格commit = li.find\_element\_by\_css\_selector('.p-commit strong a').text  # 评论量shop\_name = li.find\_element\_by\_css\_selector('.J\_im\_icon a').text  # 店铺名字href = li.find\_element\_by\_css\_selector('.p-img a').get\_attribute('href')  # 商品详情页icons = li.find\_elements\_by\_css\_selector('.p-icons i')icon = ','.join(\[i.text for i in icons\])  # 列表推导式  ','.join 以逗号把列表中的元素拼接成一个字符串数据dit = {'商品标题': title,'商品价格': price,'评论量': commit,'店铺名字': shop\_name,'标签': icon,'商品详情页': href,}csv\_writer.writerow(dit)print(title, price, commit, href, icon, sep=' | ')

搜索功能

key\_world = input('请输入你想要获取商品数据: ')

要获取的数据 ,获取到后保存CSV

f = open(f'京东{key\_world}商品数据.csv', mode='a', encoding='utf-8', newline='')
csv\_writer = csv.DictWriter(f, fieldnames=\['商品标题','商品价格','评论量','店铺名字','标签','商品详情页',
\])
csv\_writer.writeheader()

然后再写一个自动翻页

for page in range(1, 11):print(f'正在爬取第{page}页的数据内容')time.sleep(1)drop\_down()get\_shop\_info()  # 下载数据driver.find\_element\_by\_css\_selector('.pn-next').click()  # 点击下一页

三、完整代码

from selenium import webdriver
import time
import csvdef drop\_down():"""执行页面滚动的操作"""  for x in range(1, 12, 2):  time.sleep(1)j = x / 9  # 1/9  3/9  5/9  9/9# document.documentElement.scrollTop  指定滚动条的位置# document.documentElement.scrollHeight 获取浏览器页面的最大高度js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight \* %f' % jdriver.execute\_script(js)  # 执行JS代码key\_world = input('请输入你想要获取商品数据: ')f = open(f'京东{key\_world}商品数据.csv', mode='a', encoding='utf-8', newline='')
csv\_writer = csv.DictWriter(f, fieldnames=\['商品标题','商品价格','评论量','店铺名字','标签','商品详情页',
\])
csv\_writer.writeheader()# 实例化一个浏览器对象driver = webdriver.Chrome()
driver.get('https://www.jd.com/')  # 访问一个网址 打开浏览器 打开网址
# 通过css语法在element(元素面板)里面查找 #key 某个标签数据 输入一个关键词 口红
driver.find\_element\_by\_css\_selector('#key').send\_keys(key\_world)  # 找到输入框标签
driver.find\_element\_by\_css\_selector('.button').click()  # 找到搜索按钮 进行点击
# time.sleep(10) # 等待 
# driver.implicitly\_wait(10)  # 隐式等待 def get\_shop\_info():# 第一步 获取所有的li标签内容driver.implicitly\_wait(10)lis = driver.find\_elements\_by\_css\_selector('#J\_goodsList ul li')  # 获取多个标签# 返回数据 列表 \[\] 列表里面的元素 <> 对象# print(len(lis))for li in lis:title = li.find\_element\_by\_css\_selector('.p-name em').text.replace('\\n', '')  # 商品标题 获取标签文本数据price = li.find\_element\_by\_css\_selector('.p-price strong i').text  # 价格commit = li.find\_element\_by\_css\_selector('.p-commit strong a').text  # 评论量shop\_name = li.find\_element\_by\_css\_selector('.J\_im\_icon a').text  # 店铺名字href = li.find\_element\_by\_css\_selector('.p-img a').get\_attribute('href')  # 商品详情页icons = li.find\_elements\_by\_css\_selector('.p-icons i')icon = ','.join(\[i.text for i in icons\])  # 列表推导式  ','.join 以逗号把列表中的元素拼接成一个字符串数据dit = {'商品标题': title,'商品价格': price,'评论量': commit,'店铺名字': shop\_name,'标签': icon,'商品详情页': href,}csv\_writer.writerow(dit)print(title, price, commit, href, icon, sep=' | ')# print(href)for page in range(1, 11):print(f'正在爬取第{page}页的数据内容')time.sleep(1)drop\_down()get\_shop\_info()  # 下载数据driver.find\_element\_by\_css\_selector('.pn-next').click()  # 点击下一页driver.quit()  # 关闭浏览器

四、效果展示


关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

二、Python基础学习视频

② 路线对应学习视频

还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~在这里插入图片描述
在这里插入图片描述

③练习题

每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
在这里插入图片描述
因篇幅有限,仅展示部分资料

三、精品Python学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述

四、Python工具包+项目源码合集
①Python工具包

学习Python常用的开发软件都在这里了!每个都有详细的安装教程,保证你可以安装成功哦!
在这里插入图片描述

②Python实战案例

光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。100+实战案例源码等你来拿!
在这里插入图片描述

③Python小游戏源码

如果觉得上面的实战案例有点枯燥,可以试试自己用Python编写小游戏,让你的学习过程中增添一点趣味!
在这里插入图片描述

五、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述
在这里插入图片描述

六、Python兼职渠道

而且学会Python以后,还可以在各大兼职平台接单赚钱,各种兼职渠道+兼职注意事项+如何和客户沟通,我都整理成文档了。
在这里插入图片描述
在这里插入图片描述
这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/202193.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【电路笔记】-电流源

电流源 文章目录 电流源1、概述1.1 理想电流源1.2 实际电流源1.3 连接规则 2、依赖电流2.1 压控电流源2.2 电流控制电流源 3、总结 本文为前面文章 电压源的延续&#xff0c;我们将在本文介绍电流源。 与电压源的情况类似&#xff0c;我们将首先介绍理想电流源的概念&#xff…

【数据结构】树的基本概念 | 入门树以及二叉树必熟知

树的学习过程中&#xff0c;二叉树比较重要&#xff0c;但是在学习二叉树之前&#xff0c;得先需要了解到一些数的概念。 树的定义 树是一种非线性的数据结构&#xff0c;它是由 n&#xff08;n > 0&#xff09;个有限结点组成一个具有层次关系的集合。把它叫做树是因为它…

BTS-GAN:基于MRI和条件对抗性网络的乳腺肿瘤计算机辅助分割系统

BTS-GAN: Computer-aided segmentation system for breast tumor using MRI and conditional adversarial networks BTS-GAN&#xff1a;基于MRI和条件对抗性网络的乳腺肿瘤计算机辅助分割系统背景贡献实验方法Parallel dilated convolution module&#xff08;并行扩展卷积模块…

tp8 使用rabbitMQ(1)简单队列

php8.0 使用 rabbitmq 要使用 3.6版本以上的&#xff0c; 并且还要开启 php.ini中的 socket 扩展 php think make:command SimpleMQProduce //创建一个生产者命令行 php think make:command SimpleMQConsumer //创建一个消费者命令行 生产者代码 <?php declare (strict_ty…

为何设计师都在用这个原型样机资源网站?

谈论原型样机素材模板&#xff0c;这个话题对设计师来说如同老朋友一般熟悉。设计师们在创作完毕后&#xff0c;为了更淋漓尽致地展示他们的设计成果&#xff0c;通常会将其放置在真实的样机素材模板中。这种原型样机素材可以让设计作品迅速且清晰地呈现在真实环境中。找到一个…

java游戏制作-飞翔的鸟游戏

一.准备工作 首先创建一个新的Java项目命名为“飞翔的鸟”&#xff0c;并在src中创建一个包命名为“com.qiku.bird"&#xff0c;在这个包内分别创建4个类命名为“Bird”、“BirdGame”、“Column”、“Ground”&#xff0c;并向需要的图片素材导入到包内。 二.代码呈现 …

【每日一题】2216.美化数组的最少删除数-2023.11.21

题目&#xff1a; 2216. 美化数组的最少删除数 给你一个下标从 0 开始的整数数组 nums &#xff0c;如果满足下述条件&#xff0c;则认为数组 nums 是一个 美丽数组 &#xff1a; nums.length 为偶数对所有满足 i % 2 0 的下标 i &#xff0c;nums[i] ! nums[i 1] 均成立 …

【Vue】自定义指令

hello&#xff0c;我是小索奇&#xff0c;精心制作的Vue系列持续发放&#xff0c;涵盖大量的经验和示例&#xff0c;如果对您有用&#xff0c;可以点赞收藏哈~ 自定义指令 自定义指令就是自己定义的指令&#xff0c;是对 DOM 元素进行底层操作封装 ,程序化地控制 DOM&#xff…

【开源】基于Vue.js的高校实验室管理系统的设计和实现

项目编号&#xff1a; S 015 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S015&#xff0c;文末获取源码。} 项目编号&#xff1a;S015&#xff0c;文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、研究内容2.1 实验室类型模块2.2 实验室模块2.3 实…

2023 最新 PDF.js 在 Vue3 中的使用(长期更新)

因为自己写业务要定制各种 pdf 预览情况&#xff08;可能&#xff09;&#xff0c;所以采用了 pdf.js 而不是各种第三方封装库&#xff0c;主要还是为了更好的自由度。 一、PDF.js 介绍 官方地址 中文文档 PDF.js 是一个使用 HTML5 构建的便携式文档格式查看器。 pdf.js 是社区…

ABB机 器 人 操 作 培 训

目 录 1 培训手册介绍 ---------------------------------------------2 2 系统安全与环境保护 ---------------------------------------------3 3 机器人综述 ---------------------------------------------5 4 机器人示教 --------------------------------------------12…

自动解决IP冲突的问题 利用批处理更改末位IP循环+1直到网络畅通为止 解放双手 事半功倍

好久没出来写点什么了&#xff0c;难道今天有点时间&#xff0c;顺便把这两天碰到的问题出个解决方法吧。 这几天去客户那儿解决网络问题&#xff0c;因为客户的网络是固定的静态IP&#xff0c;因为没做MAC绑定&#xff0c;IP固定在本地电脑上&#xff0c;只要上不了网&#xf…

微信小程序面试题【100道】

文章目录 小程序面试题100问前言一、技术性问题1.有哪些参数传值的方法2.小程序修改数据值与Vue和React有什么差异3.如何实现下拉刷新与上拉加载4.bindtap和catchtap的区别是什么5.小程序有哪些导航API&#xff0c;它们各自的应用场景与差异区别是什么6.小程序中如何使用第三方…

python爬虫扣代码案例:某智能商业分析平台

声明&#xff1a; 该文章为学习使用&#xff0c;严禁用于商业用途和非法用途&#xff0c;违者后果自负&#xff0c;由此产生的一切后果均与作者无关 一、找出需要加密的参数 js运行 atob(‘aHR0cHM6Ly93d3cucWltYWkuY24vcmFuaw’) 拿到网址&#xff0c;F12打开调试工具&#…

拆解:淘宝客新玩法之微信淘礼金创建怎么做

最近看到一种新的淘宝客玩法&#xff0c;迫不及待的想分享给大家。微信公众号查券大家都不陌生&#xff0c;也有不少人都在做这个。最近看到有人在做微信公众号创建淘礼金。之所以说这个玩法新是因为目前大多数淘客还在做返利。返利有周期长、提现有门槛等痛点。 微信公众号创建…

BW4HANA 从头到脚 概念详解 ---- 持续更新中

1. 理解BW4HANA是干嘛的 好歹干了这么久的活了&#xff0c;从当初的啥也不懂到现在感觉啥都知道点&#xff0c;虽然知道的有限&#xff0c;但是也不是小白。渐渐的也知道了SAP开发的一些逻辑。本来咱是想当个BW的大牛的。但是现在感觉这条船要沉了是怎么回事。个人才稍微摸到点…

信息系统的安全保护等级的五个级别

信息系统的安全保护等级分为五级&#xff1a;第一级为自主保护级、第二级为指导保护级、第三级为监督保护级、第四级为强制保护级、第五级为专控保护级。 法律依据&#xff1a;《信息安全等级保护管理办法》第四条 信息系统的安全保护等级分为以下五级&#xff1a;   &#…

Python + Docker 还是 Rust + WebAssembly?

在不断发展的技术世界中&#xff0c;由大语言模型驱动的应用程序&#xff0c;通常被称为“LLM 应用”&#xff0c;已成为各种行业技术创新背后的驱动力。随着这些应用程序的普及&#xff0c;用户需求的大量涌入对底层基础设施的性能、安全性和可靠性提出了新的挑战。 Python 和…

基于单片机直流电机调速(proteus仿真+源程序)

一、系统方案 1、本设计采用这51单片机作为主控器。 2、转速值送到液晶1602显示。 3、按键设加减速&#xff0c;开始暂停、正反转。 二、硬件设计 原理图如下&#xff1a; 三、单片机软件设计 1、首先是系统初始化 en0; rw0; write_com(0x01); //lcd初始化 write_com(0x38)…

如何提高图片转excel的效果?(软件选择篇)

在日常的工作中&#xff0c;我们常常会遇到一些财务报表类的图片需要转换成可编辑的excel&#xff0c;但是&#xff0c;受各种条件的限制&#xff0c;常常只能通过手工录入这种原始的方式来实现&#xff0c;随着人工智能、深度学习以及网络技术的发展&#xff0c;这种原始的录入…