7.1.4 Selenium 爬取京东商品信息实战

目录

1、实战内容

2、思路

3、分析 url

4、开始操作

1、得到 Cookies

2、访问页面,得到 response

3、解析页面

4、存入 MySQL

5、1-3步总代码


1、实战内容

爬取京东笔记本电脑商品的信息(如:价格、商品名、评论数量),存入 MySQL 中

2、思路

京东需要登录才能搜索进入,所以首先从登录页面出发,自己登录,然后等待,得到 Cookies,之后带着 Cookies 模拟访问页面,得到页面的 response,再对 response 进行分析,将分析内容存入 MySQL 中。

3、分析 url

来到 京东搜索 笔记本电脑,之后观察首页之后的几页的链接,如下:

不难发现,除了首页之外,其他链接的区别是从第四行的 page 开始,大胆猜测链接就到此即可,且规律也显而易见,就可以直接构造链接。

4、开始操作

1、得到 Cookies

from selenium import webdriver
import json, timedef get_cookie(url):browser = webdriver.Chrome()browser.get(url)    # 进入登录页面time.sleep(10)      # 停一段时间,自己手动登录cookies_dict_list = browser.get_cookies()  # 获取list的cookiescookies_json = json.dumps(cookies_dict_list)  # 列表转换成字符串保存with open('cookies.txt', 'w') as f:f.write(cookies_json)print('cookies保存成功!')browser.close()if __name__ == '__main__':url_login = 'https://passport.jd.com/uc/login?'     # 登录页面urlget_cookie(url_login)

之后就可看到 txt 文件中的 cookies(多个),之后模拟登录构造 cookie 时,对照其中的即可.

2、访问页面,得到 response

当 selenium 访问时,若页面是笔记本电脑页,直接进行爬取;若不是,即在登录页,构造 cookie,添加,登录;

js 语句是使页面滑倒最低端,等待数据包刷新出来,才能得到完整的页面 response(这里的 resposne 相当于使用 request 时候的 response.text );

def get_html(url):    # 此 url 为分析的笔记本电脑页面的 urlbrowser = webdriver.Chrome()browser.get(url)if browser.current_url == url:js = "var q=document.documentElement.scrollTop=100000"browser.execute_script(js)time.sleep(2)responses = browser.page_sourcebrowser.close()return responseselse:with open('cookies.txt', 'r', encoding='utf8') as f:listCookies = json.loads(f.read())for cookie in listCookies:cookie_dict = {'domain': '.jd.com','name': cookie.get('name'),'value': cookie.get('value'),"expires": '1746673777',    # 表示 cookies到期时间'path': '/',            # expiry必须为整数,所以使用 expires'httpOnly': False,"sameSite": "Lax",'Secure': False}browser.add_cookie(cookie_dict) # 将获得的所有 cookies 都加入time.sleep(1)browser.get(url)js = "var q=document.documentElement.scrollTop=100000"browser.execute_script(js)time.sleep(2)response = browser.page_sourcebrowser.close()return response

cookies 到期时间是用时间戳来记录的,可用工具查看时间戳(Unix timestamp)转换工具 - 在线工具

3、解析页面

这里我使用了 Xpath 的解析方法,并将结果构造成字典列表,输出。

def parse(response):html = etree.HTML(response)products_lis = html.xpath('//li[contains(@class, "gl-item")]')products_list = []for product_li in products_lis:product = {}price = product_li.xpath('./div/div[@class="p-price"]/strong/i/text()')name = product_li.xpath('./div/div[contains(@class, "p-name")]/a/em/text()')comment = product_li.xpath('./div/div[@class="p-commit"]/strong/a/text()')product['price'] = price[0]product['name'] = name[0].strip()product['comment'] = comment[0]products_list.append(product)print(products_list)print(len(products_list))

4、存入 MySQL

上述已经得到每一个商品数据的字典,所以直接对字典或字典列表进行存储即可。

参考链接:4.4 MySQL存储-CSDN博客 5.2 Ajax 数据爬取实战-CSDN博客

5、1-3步总代码

from selenium import webdriver
import json, time
from lxml import etreedef get_cookie(url):browser = webdriver.Chrome()browser.get(url)    # 进入登录页面time.sleep(10)      # 停一段时间,自己手动登录cookies_dict_list = browser.get_cookies()  # 获取list的cookiescookies_json = json.dumps(cookies_dict_list)  # 转换成字符串保存with open('cookies.txt', 'w') as f:f.write(cookies_json)print('cookies保存成功!')browser.close()def get_html(url):browser = webdriver.Chrome()browser.get(url)if browser.current_url == url:js = "var q=document.documentElement.scrollTop=100000"browser.execute_script(js)time.sleep(2)responses = browser.page_sourcebrowser.close()return responseselse:with open('cookies.txt', 'r', encoding='utf8') as f:listCookies = json.loads(f.read())for cookie in listCookies:cookie_dict = {'domain': '.jd.com','name': cookie.get('name'),'value': cookie.get('value'),"expires": '1746673777','path': '/','httpOnly': False,"sameSite": "Lax",'Secure': False}browser.add_cookie(cookie_dict) # 将获得的所有 cookies 都加入time.sleep(1)browser.get(url)js = "var q=document.documentElement.scrollTop=100000"browser.execute_script(js)time.sleep(2)response = browser.page_sourcebrowser.close()return responsedef parse(response):html = etree.HTML(response)products_lis = html.xpath('//li[contains(@class, "gl-item")]')products_list = []for product_li in products_lis:product = {}price = product_li.xpath('./div/div[@class="p-price"]/strong/i/text()')name = product_li.xpath('./div/div[contains(@class, "p-name")]/a/em/text()')comment = product_li.xpath('./div/div[@class="p-commit"]/strong/a/text()')product['price'] = price[0]product['name'] = name[0].strip()product['comment'] = comment[0]products_list.append(product)print(products_list)print(len(products_list))if __name__ == '__main__':keyword = '笔记本电脑'url_login = 'https://passport.jd.com/uc/login?'     # 登录页面urlget_cookie(url_login)for page in range(1, 20, 2):base_url = f'https://search.jd.com/Search?keyword={keyword}&wq=%E7%AC%94%E8%AE%B0%E6%9C%AC%E7%94%B5%E8%84%91&pvid=222071d82c0344059f4aac713b1679b4&isList=0&page={page}'response = get_html(base_url)parse(response)

文章参考:python爬虫之使用selenium爬取京东商品信息并把数据保存至mongodb数据库_seleniu获取京东cookie-CSDN博客

 文章到此结束,本人新手,若有错误,欢迎指正;若有疑问,欢迎讨论。若文章对你有用,点个小赞鼓励一下,谢谢大家,一起加油吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/301834.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JSBridge原理 - 前端H5与客户端Native交互

1. 概述: 在混合应用开发中,一种常见且成熟的技术方案是将原生应用与 WebView 结合,使得复杂的业务逻辑可以通过网页技术实现。实现这种类型的混合应用时,就需要解决H5与Native之间的双向通信。JSBridge 是一种在混合应用中实现 …

uni-app(H5)论坛 | 社区 表情选择 UI组件

项目源码请移步:bbs 效果 实现思路 表情切换 人物、动物、小黄人不同表情之间的切换实际就是组件的切换 emoji表情 emoji表情本身就是一种字符 如需其他emoji表情可参考 EmojiAll中文官方网站 需要注意的就是数据库的存储格式需要支持emoji表情,我项…

使用Python将多张图片转换为动态GIF图像

在本文中,我们将学习如何使用Python编写代码,将多张静态图片转换为一个动态的GIF图像。无论你的图片格式是JPEG(.jpg)还是PNG(.png),我们都将使用Python中的PIL库来实现这一功能。通过本文的学习…

证书生成和获取阿里云备案获取密钥流程

1.在java文件夹下 输入 cmd 打开命令行窗口 2. keytool -genkey -alias 证书名 -keyalg RSA -keysize 2048 -validity 36500 -keystore 证书名.keystore 输入这一行,把证书名三个字 改成 项目的名称(例如:D23102802) 3. 密码默认填…

【HTML】简单制作一个分形动画

目录 前言 开始 HTML部分 效果图 ​编辑​编辑​编辑​编辑总结 前言 无需多言,本文将详细介绍一段代码,具体内容如下: 开始 首先新建文件夹,创建一个文本文档,其中HTML的文件名改为[index.html]&a…

金融企业区域集中库的设计构想和测试验证

导读 本文探讨了金融企业区域集中库的设计构想和测试验证,包括架构设想、数据库整合场景测试及优势和使用设想。作者提出利用 TiDB 数据库产品集中建设区域集中库,解决 MySQL 存量节点的整合问题,实现部署的标准化、按需扩展和统一运维管理。…

gitlab使用

个人笔记(整理不易,有帮助点个赞) 笔记目录:学习笔记目录_pytest和unittest、airtest_weixin_42717928的博客-CSDN博客 个人随笔:工作总结随笔_8、以前工作中都接触过哪些类型的测试文档-CSDN博客 目录 一&#xff1a…

SSL中的CA证书

目录 一、CA概述 二、数据加密 三、身份认证 一、CA概述 SSL如何保证网络通信的安全和数据的完整性呢?就是采用了两种手段:身份认证和数据加密。身份认证就需要用到CA证书。 CA是证书的签发机构,它是公钥基础设施(Public Key In…

鸿蒙OS开发实战:【自动化测试框架】使用指南

概述 为支撑HarmonyOS操作系统的自动化测试活动开展,我们提供了支持JS/TS语言的单元及UI测试框架,支持开发者针对应用接口进行单元测试,并且可基于UI操作进行UI自动化脚本的编写。 本指南重点介绍自动化测试框架的主要功能,同时…

linux centos 系统 docker及podman拉取kylin麒麟镜像内部及部署安装Gaussdb数据库

研究总结来之不易 1.首先下载安装包,网址: 软件包 | openGauss 2.参考安装连接: 单节点安装 openGauss学习笔记-03 openGauss极简版单节点安装_opengauss 笔记-CSDN博客 当然他们说的有些也是不完全一样的,根据自己的环境摸索…

.NET 设计模式—装饰器模式(Decorator Pattern)

简介 装饰者模式(Decorator Pattern)是一种结构型设计模式,它允许你在不改变对象接口的前提下,动态地将新行为附加到对象上。这种模式是通过创建一个包装(或装饰)对象,将要被装饰的对象包裹起来…

设计模式之命令模式讲解

概念:命令模式(Command Pattern)又称行动(Action)模式或交易(Transaction)模式。将一个请求封装成一个对象,从而让你使用不同的请求把客户端参数化,对请求排队或者记录请…

2月智能手表线上电商市场(京东天猫淘宝)分析:华为手表成最大赢家!

近年来,各大厂商纷纷积极布局健康管理领域,智能手表成为可穿戴市场的热门产品。随着越来越多的厂商进入,智能手表的芯片技术、显示屏技术、传感器技术等都在不断进步,整体性能和功能得到显著提升,使得用户体验更加出色…

【Labview】虚拟仪器技术

一、背景知识 1.1 虚拟仪器的定义、组成和应用 虚拟仪器的特点 虚拟仪器的突出特征为“硬件功能软件化”,虚拟仪器是在计算机上显示仪器面板,将硬件电路完成信号调理和处理功能由计算机程序完成。 虚拟仪器的组成 硬件软件 硬件是基础,负责将…

0104练习与思考题-算法基础-算法导论第三版

2.3-1 归并示意图 问题:使用图2-4作为模型,说明归并排序再数组 A ( 3 , 41 , 52 , 26 , 38 , 57 , 9 , 49 ) A(3,41,52,26,38,57,9,49) A(3,41,52,26,38,57,9,49)上的操作。图示: tips::有不少在线算法可视化工具(软…

基于taro搭建小程序多项目框架

前言 为什么需要这样一个框架,以及这个框架带来的好处是什么? 从字面意思上理解:该框架可以用来同时管理多个小程序,并且可以抽离公用组件或业务逻辑供各个小程序使用。当你工作中面临这种同时维护多个小程序的业务场景时&#…

【Mysql高可用集群-双主双活-myql+keeplived】

Mysql高可用集群-双主双活-myqlkeeplived 一、介绍二、准备工作1.两台centos7 linux服务器2.mysql安装包3.keepalived安装包 三、安装mysql1.在128、129两台服务器根据《linux安装mysql服务-两种安装方式教程》按方式一安装好mysql应用。2.修改128服务器/etc/my.cnf配置文件&am…

mynet开源库

1.介绍 个人实现的c开源网络库. 2.软件架构 1.结构图 2.基于event的自动分发机制 3.多优先级分发队列,延迟分发队列 内部event服务于通知机制的优先级为0,外部event优先级为1. 当集中处理分发的event_callback时&#xff0c…

Flutter如何集成到已有iOS工程上

大家好,我是咕噜铁蛋,今天我将和大家分享一个实用的技术教程——如何将Flutter集成到已有的iOS工程中。Flutter是Google推出的一款开源的移动UI框架,它允许开发者使用Dart语言来开发高性能、美观的原生应用,并支持iOS和Android两大…

聚观早报 | 百度文心一言上线新功能;腾势Z9GT将发布

聚观早报每日整理最值得关注的行业重点事件,帮助大家及时了解最新行业动态,每日读报,就读聚观365资讯简报。 整理丨Cutie 4月08日消息 百度文心一言上线新功能 腾势Z9GT将发布 华为将举办鸿蒙春季沟通会 苹果与Shutterstock达成协议 O…