手把手学爬虫第三弹——爬取动态渲染的信息,2024年最新2024最新阿里Python高级面试题及答案

print(response.json())

except:

pass

if name == ‘main’:

url = ‘https://ys.mihoyo.com/content/ysCn/getContentList?pageSize=20&pageNum=1&order=asc&channelId=150’

get_data(url)

请添加图片描述

4.清洗数据

对于返回的JSON格式的数据我们不需要任何选择器就可以直接获取,注意看清数据的层次结构,这样我们就可以一层层获取我们需要的数据了,获取的时候参照格式化后的代码即可。

格式化后的数据如下,显然我们需要的数据在list这个列表里面,所以我们先拿到这个list,然后去遍历list进一步取出里面的数据。

请添加图片描述

def get_data(url):

try:

yinpin = []

tu_url = None

jianjie = None

response = requests.get(url=url, headers=headers)

print(response.json())

res = response.json()

data_list = res[‘data’][‘list’] # 获取到list数据

print(data_list)

i = 1

for each in data_list:

print(‘正在爬取第{}个角色…’.format(i))

i = i + 1

id = each[‘id’] # 角色id

title = each[‘title’] # 角色名字

start_time = each[‘start_time’] # 角色上线时间

ext_list = each[‘ext’]

for item in ext_list:

if item[‘arrtName’] == ‘角色-PC端主图’: # 角色主图

tu_url = item[‘value’][0][‘url’]

elif item[‘arrtName’] == ‘角色-简介’: # 角色简介

jianjie = processing(item[‘value’])

elif item[‘arrtName’] == ‘角色-音频1-2’: # 可以使用正则匹配所有的

yinpin = item[‘value’][0][‘name’] + ‘||’ + item[‘value’][0][‘url’] # 一条配音链接

data = {

“角色ID”: id,

“角色名称”: title,

“上线时间”: start_time,

“高清图片”: tu_url,

“角色简介”: jianjie,

“角色配音”: yinpin,

}

print(data)

dict_infor.append(data)

print(dict_infor)

except ZeroDivisionError as e:

print(“except:”, e)

finally:

pass

5.完整代码以及效果截图

-- coding: utf-8 --

@Time : 2021/9/18 16:03

@Author : KK

@File : 40_原神官网.py

@Software: PyCharm

import requests

import re

import csv

import time

headers = {

‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36’}

dict_infor = []

处理字符串中的空白符,并拼接字符串

def processing(strs):

n = strs.replace(‘

’, ‘’).replace(‘
\n’, ‘’).replace(‘

\n’, ‘’).replace(‘\n’, ‘’) # 去除空字符

return n # 返回拼接后的字符串

def get_data(url):

try:

yinpin = []

tu_url = None

jianjie = None

response = requests.get(url=url, headers=headers)

print(response.json())

res = response.json()

data_list = res[‘data’][‘list’] # 获取到list数据

print(data_list)

i = 1

for each in data_list:

print(‘正在爬取第{}个角色…’.format(i))

i = i + 1

id = each[‘id’] # 角色id

title = each[‘title’] # 角色名字

start_time = each[‘start_time’] # 角色上线时间

ext_list = each[‘ext’]

for item in ext_list:

if item[‘arrtName’] == ‘角色-PC端主图’: # 角色主图

tu_url = item[‘value’][0][‘url’]

elif item[‘arrtName’] == ‘角色-简介’: # 角色简介

jianjie = processing(item[‘value’])

elif item[‘arrtName’] == ‘角色-音频1-2’: # 可以使用正则匹配所有的

yinpin = item[‘value’][0][‘name’] + ‘||’ + item[‘value’][0][‘url’] # 一条配音链接

data = {

“角色ID”: id,

“角色名称”: title,

“上线时间”: start_time,

“高清图片”: tu_url,

“角色简介”: jianjie,

“角色配音”: yinpin,

}

print(data)

dict_infor.append(data)

print(dict_infor)

except ZeroDivisionError as e:

print(“except:”, e)

finally:

pass

def get_url():

page_list = [150, 151, 324]

for i in page_list:

url = ‘https://ys.mihoyo.com/content/ysCn/getContentList?pageSize=20&pageNum=1&order=asc&channelId={}’.format(i)

get_data(url)

if name == ‘main’:

get_url()

保存到csv

with open(r’E:\python\pythonProject3\venv\Include\原神.csv’, ‘a’, encoding=‘utf-8’, newline=‘’) as cf:

writer = csv.DictWriter(cf, fieldnames=[‘角色ID’, ‘角色名称’, ‘上线时间’, ‘高清图片’, ‘角色简介’, ‘角色配音’])

writer.writeheader()

writer.writerows(dict_infor)

time.sleep(1)

print(‘爬取并保存完毕’)

请添加图片描述

6.分析总结

通过上面的代码可以发现,对于这类数据的爬取其实和requests请求方式差不多,主要区别在于我们获取到的数据不同,对于JSON数据我们同样进行适当的处理,获取我们想要的数据。

三、Selenium爬取动态数据

============================================================================

Selenium是浏览器自动化测试框架,是一个用于web测试的工具,可以直接在浏览器中运行,并可驱动浏览器执行一定的操作,例如点击、下拉等,还可以获取浏览器当前页面的源代码。

1.安装Selenium以及浏览器驱动

在pycharm搜索安装selenium模块或者直接控制台pip install selenium命令行安装。

由于该框架需要浏览器驱动,我们根据自己所使用的浏览器下载对应版本即可。

chrome浏览器驱动

Firefox浏览器驱动

IE浏览器驱动

2.Selenium使用准备

下载完成后将名称chromedriver.exe的文件提取出来放在与自己的python.exe文件同级的路径中。

请添加图片描述

3.Selenium模块常用方法

查阅官网文档

a.定位元素

| 模块名称 | 使用 |

| — | — |

| find_element_by_id() | |

| find_element_by_name() | |

| find_element_by_xpath() | |

| find_element_by_link_text() | |

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
img

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
img

,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
[外链图片转存中…(img-8mFxk1VA-1712838831380)]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/305227.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

yarn集群部署

yarn集群部署案例 我们来基于一个案例讲解yarn集群部署 我们要部署yarn集群,需要分别部署HDFS文件系统及YARN集群 Hadoop HDFS分布式文件系统,我们会启动: NameNode进程作为管理节点DataNode进程作为工作节点SecondaryNamenode作为辅助 同…

python爬虫----BeautifulSoup(第二十天)

🎈🎈作者主页: 喔的嘛呀🎈🎈 🎈🎈所属专栏:python爬虫学习🎈🎈 ✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天…

Docker安装及开启远程访问

这几天有人问我docker是怎么开启远程服务的? 正好之前我做过这件事情,并且写了相关的笔记,现在整理为一篇博客发出来。 安装Docker 首先更新一下自己的yum版本 yum update安装一下所需要的软件包 yum-config-manager --add-repo http://…

OpenAI推出GPTBot网络爬虫:提升AI模型同时引发道德法律争议

文章目录 一、GPTBot 简介二、功能特点三、技术细节3.1、用户代理标识3.2、数据采集规则3.3、数据使用目的3.4、网站屏蔽方法3.5、数据过滤 四、GPTBot 的道德和法律问题五、GPTBot 的使用方法和限制六、总结 一、GPTBot 简介 OpenAI 推出的网络爬虫GPTBot旨在通过从互联网上收…

VMware启动显示“打开虚拟机时出错: 获取该虚拟机的所有权失败”

提示框(忘截图了)里提示目录C:\Users\mosep\Documents\Virtual Machines\VM-Win10 x64\中的某个文件(在我这里好像是VM-Win10 x64.vmx,VM-Win10 x64是我给虚拟机取的名字)在被使用中。 找到这个目录,删除.…

海外软文通稿代发 - 大舍传媒

引言 在当今高度信息化的时代,企业和个人品牌形象的塑造与传播变得越来越重要。为了在国际舞台上获得更大的竞争优势,许多企业和品牌纷纷将视线投向了国外市场。而在这个过程中,专业的软文通稿代发服务成为了他们的得力助手。本文将向您介绍…

《看漫画学C++》第12章 可大可小的“容器”——向量

在C编程的世界里,数组是一种基础且广泛使用的数据结构。然而,传统的静态数组在大小固定、管理不便等方面的局限性,常常让开发者感到束手束脚。幸运的是,C标准库中的vector类为我们提供了一种更加灵活、高效的动态数组解决方案。 …

python之文件操作与管理

1、文件操作 通过open()操作,来创建文件对象,下面是open()函数语法如下: open(file,mode r,buffering -1 , encoding None ,errors None , newline None,closefd True,opener …

Java日期正则表达式(附Demo)

目录 前言1. 基本知识2. Demo 前言 对于正则匹配,在项目实战中运用比较广泛 原先写过一版Python相关的:ip和端口号的正则表达式 1. 基本知识 对于日期的正则相对比较简单 以下是一些常见的日期格式及其对应的正则表达式示例: 年-月-日&a…

Python | Leetcode Python题解之第16题最接近的三数之和

题目&#xff1a; 题解&#xff1a; class Solution:def threeSumClosest(self, nums: List[int], target: int) -> int:nums.sort()n len(nums)best 10**7# 根据差值的绝对值来更新答案def update(cur):nonlocal bestif abs(cur - target) < abs(best - target):best…

行车记录仪_智能后视镜_流媒体主板PCBA解决方案

行车记录仪主板解决方案采用了联发科MT6761高性能处理器&#xff0c;搭载了四核ARM Cortex-A53架构&#xff0c;主频达到2.0GHz&#xff0c;大大提升了运行速度和性能。此外&#xff0c;该主板搭载了Android 11.0操作系统&#xff0c;保证了系统的流畅运行&#xff0c;告别了死…

4月9号总结

java学习 一.steam流 1.介绍 Stream 是 Java 8 中引入的一种处理集合数据的新抽象。它提供了一种高效且便利的方式来处理集合中的元素&#xff0c;支持函数式编程的特性&#xff0c;使得集合操作变得更加简洁和灵活。 2.创建 List和Set可以直接调用接口的steam方法转换为流 …

大话设计模式——11.桥接模式(Bridge Pattern)

简介 将抽象部分与它的实现部分分离&#xff0c;使它们可以独立变化。 UML图&#xff1a; 应用场景&#xff1a; 系统需要在构建的抽象化角色和具体化角色之间增加更多的灵活性不想使用继承导致系统类的个数急剧增加某个类存在多个变化维度使用继承方式容易出现类的膨胀 示例…

基于SSM+Jsp+Mysql的二手车交易网站

开发语言&#xff1a;Java框架&#xff1a;ssm技术&#xff1a;JSPJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包…

MINI2440 开发板 给他干出来了

环境是ubuntu14.04。不要问我为什么是这个版本&#xff0c;因为之前的ubuntu12.04 环境干不出来&#xff0c;你去试试就知道了&#xff01;各种资源包下载不下来。 输入启动参数&#xff1a; 进入MINI2440&#xff1a;别说心里一万个开心&#xff0c;启动完成&#xff0c;输入p…

set和map

这里是目录标题 setinsertfinderasecountlower_boundupper_boundmultisetset的应用 mappairinsertinsert的pair map的遍历map对[ ]的重载(重点)multimap set set的普通迭代器和const迭代器都不支持修改。(这点可以根据源代码看出来&#xff0c;都是对const iterator进行了type…

19 文件接口

文件概念 文件指的是文件内容属性&#xff0c;对文件的操作无外乎就是对内容或者属性的操作 为什么平时不用文件接口 我们运行程序访问文件&#xff0c;本质是进程在访问文件&#xff0c;向硬件写入内容&#xff0c;只有操作系统有这个权限。普通用户想写入内容呢&#xff1…

【一】学习TDengine-总结新技术学习的思考

学习TDengine-总结新技术学习的思考 概要 因业务场景需要我们开始接触时序数据库&#xff0c;于是开始根据以往的学习经验着手熟悉这一项新技术&#xff0c;学习也是一种技能&#xff0c;成功的人越容易成功&#xff0c;因为他们掌握了一套成功的方法&#xff0c;这里提到学习经…

蓝桥杯第十三届电子类单片机组决赛程序设计

前言 一、决赛题目 1.比赛题目 2.题目解读 二、功能实现 1.关于定时器资源 1&#xff09;超声波和NE555需要的定时器资源 2&#xff09;定时器2 2.单位切换 3.数据长度不足时&#xff0c;高位熄灭 4.AD/DA多通道的处理 5.PWM输出 6.长按功能的实现 三、完整代码演…