手把手学爬虫第三弹——爬取动态渲染的信息，2024年最新2024最新阿里Python高级面试题及答案

print(response.json())

except:

pass

if name == ‘main’:

url = ‘https://ys.mihoyo.com/content/ysCn/getContentList?pageSize=20&pageNum=1&order=asc&channelId=150’

get_data(url)

请添加图片描述

4.清洗数据

对于返回的JSON格式的数据我们不需要任何选择器就可以直接获取，注意看清数据的层次结构，这样我们就可以一层层获取我们需要的数据了，获取的时候参照格式化后的代码即可。

格式化后的数据如下，显然我们需要的数据在list这个列表里面，所以我们先拿到这个list，然后去遍历list进一步取出里面的数据。

def get_data(url):

try:

yinpin = []

tu_url = None

jianjie = None

response = requests.get(url=url, headers=headers)

print(response.json())

res = response.json()

data_list = res[‘data’][‘list’] # 获取到list数据

print(data_list)

i = 1

for each in data_list:

print(‘正在爬取第{}个角色…’.format(i))

i = i + 1

id = each[‘id’] # 角色id

title = each[‘title’] # 角色名字

start_time = each[‘start_time’] # 角色上线时间

ext_list = each[‘ext’]

for item in ext_list:

if item[‘arrtName’] == ‘角色-PC端主图’: # 角色主图

tu_url = item[‘value’][0][‘url’]

elif item[‘arrtName’] == ‘角色-简介’: # 角色简介

jianjie = processing(item[‘value’])

elif item[‘arrtName’] == ‘角色-音频1-2’: # 可以使用正则匹配所有的

yinpin = item[‘value’][0][‘name’] + ‘||’ + item[‘value’][0][‘url’] # 一条配音链接

data = {

“角色ID”: id,

“角色名称”: title,

“上线时间”: start_time,

“高清图片”: tu_url,

“角色简介”: jianjie,

“角色配音”: yinpin,

}

print(data)

dict_infor.append(data)

print(dict_infor)

except ZeroDivisionError as e:

print(“except:”, e)

finally:

pass

5.完整代码以及效果截图

-- coding: utf-8 --

@Time : 2021/9/18 16:03

@Author : KK

@File : 40_原神官网.py

@Software: PyCharm

import requests

import re

import csv

import time

headers = {

‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36’}

dict_infor = []

处理字符串中的空白符，并拼接字符串

def processing(strs):

n = strs.replace(‘

’, ‘’).replace(‘
\n’, ‘’).replace(‘

\n’, ‘’).replace(‘\n’, ‘’) # 去除空字符

return n # 返回拼接后的字符串

def get_data(url):

try:

yinpin = []

tu_url = None

jianjie = None

response = requests.get(url=url, headers=headers)

print(response.json())

res = response.json()

data_list = res[‘data’][‘list’] # 获取到list数据

print(data_list)

i = 1

for each in data_list:

print(‘正在爬取第{}个角色…’.format(i))

i = i + 1

id = each[‘id’] # 角色id

title = each[‘title’] # 角色名字

start_time = each[‘start_time’] # 角色上线时间

ext_list = each[‘ext’]

for item in ext_list:

if item[‘arrtName’] == ‘角色-PC端主图’: # 角色主图

tu_url = item[‘value’][0][‘url’]

elif item[‘arrtName’] == ‘角色-简介’: # 角色简介

jianjie = processing(item[‘value’])

elif item[‘arrtName’] == ‘角色-音频1-2’: # 可以使用正则匹配所有的

yinpin = item[‘value’][0][‘name’] + ‘||’ + item[‘value’][0][‘url’] # 一条配音链接

data = {

“角色ID”: id,

“角色名称”: title,

“上线时间”: start_time,

“高清图片”: tu_url,

“角色简介”: jianjie,

“角色配音”: yinpin,

}

print(data)

dict_infor.append(data)

print(dict_infor)

except ZeroDivisionError as e:

print(“except:”, e)

finally:

pass

def get_url():

page_list = [150, 151, 324]

for i in page_list:

url = ‘https://ys.mihoyo.com/content/ysCn/getContentList?pageSize=20&pageNum=1&order=asc&channelId={}’.format(i)

get_data(url)

if name == ‘main’:

get_url()

保存到csv

with open(r’E:\python\pythonProject3\venv\Include\原神.csv’, ‘a’, encoding=‘utf-8’, newline=‘’) as cf:

writer = csv.DictWriter(cf, fieldnames=[‘角色ID’, ‘角色名称’, ‘上线时间’, ‘高清图片’, ‘角色简介’, ‘角色配音’])

writer.writeheader()

writer.writerows(dict_infor)

time.sleep(1)

print(‘爬取并保存完毕’)

请添加图片描述

6.分析总结

通过上面的代码可以发现，对于这类数据的爬取其实和requests请求方式差不多，主要区别在于我们获取到的数据不同，对于JSON数据我们同样进行适当的处理，获取我们想要的数据。

三、Selenium爬取动态数据

============================================================================

Selenium是浏览器自动化测试框架，是一个用于web测试的工具，可以直接在浏览器中运行，并可驱动浏览器执行一定的操作，例如点击、下拉等，还可以获取浏览器当前页面的源代码。

1.安装Selenium以及浏览器驱动

在pycharm搜索安装selenium模块或者直接控制台pip install selenium命令行安装。

由于该框架需要浏览器驱动，我们根据自己所使用的浏览器下载对应版本即可。

chrome浏览器驱动

Firefox浏览器驱动

IE浏览器驱动

2.Selenium使用准备

下载完成后将名称chromedriver.exe的文件提取出来放在与自己的python.exe文件同级的路径中。

3.Selenium模块常用方法

查阅官网文档

a.定位元素

| 模块名称 | 使用 |

| — | — |

| find_element_by_id() | |

| find_element_by_name() | |

| find_element_by_xpath() | |

| find_element_by_link_text() | |

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
[外链图片转存中…(img-8mFxk1VA-1712838831380)]

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/305227.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！