Python数据分析:爬虫从网页爬取数据需要几步?

对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取网页上的数据,爬虫从网页爬取数据需要几步?总结下来,Python爬取网页数据需要发起请求、获取响应内容、解析数据、保存数据共计4步。

本文使用Python爬取去哪儿网景点评论数据共计100条数据,数据爬取后使用Tableau Public软件进行可视化分析,从数据获取,到数据清洗,最后数据可视化进行全流程数据分析,下面一起来学习。

示例工具:anconda3.7

本文讲解内容:数据获取、数据可视化

适用范围:网页数据获取及评论分析

网页数据爬取

Python爬取网页数据需要发起请求、获取响应内容、解析数据、保存数据共计4步,懂的数据爬取的原理后,进行数据爬取。

1、发起请求

以去哪儿旅行网站为例,爬取网页数据,首先发送请求。

import requests
u='https://travel.qunar.com/p-cs300100-xian-jingdian'#爬取网址
response=requests.get(u)
print('状态码:{}'.format(response.status_code))
if response.status_code != 200:pass
else:print("服务器连接正常")

​这里返回状态码为200,说明服务器连接正常,可以进行数据爬取。

2、获取响应内容

服务器连接正常后,直接打印返回内容,这里返回整个网页html。

print(response.text)

3、解析数据

网页结构由复杂的html语言构成,这里借助BeautifulSoup库进行解析。

from bs4 import BeautifulSoupri = requests.get(url=u)
soupi=BeautifulSoup(ri.text,'lxml')#解析网址
ul=soupi.find('ul',class_='list_item clrfix')
lis = ul.find_all('li')
lis

对于特定的标签进行定位,输出text。

print(soupi.h1.text)#标签定位,输出text
lis=ul.find_all('li')
print(lis[0].text)

建立一个字典,解析目标标签内容。

li1=lis[0]
dic={}
dic['景点名称']=li1.find('span',class_="cn_tit").text
dic['攻略提到数量']=li1.find('div',class_="strategy_sum").text
dic['评论数量']=li1.find('div',class_="comment_sum").text
dic['lng']=li['data-lng']
dic['lat']=li['data-lat']
dic

使用for循环解析标签内容。

import requests
from bs4 import BeautifulSoup
u1='https://travel.qunar.com/p-cs300100-xian-jingdian'
ri=requests.get(url= u1)soupi=BeautifulSoup(ri.text,'lxml')#解析网址
ul=soupi.find('ul',class_='list_item clrfix')
lis=ul.find_all('li')
for li in lis:dic={}dic['景点名称']=li.find('span',class_="cn_tit").textdic['攻略提到数量']=li.find('div',class_="strategy_sum").textdic['评论数量']=li.find('div',class_="comment_sum").textdic['lng']=li['data-lng']dic['lat']=li['data-lat']
print(dic)

根据翻页规律设置翻页数,这里设置一个列表,用来循环爬取前十页数据。

#根据翻页规律,设置翻页数
urllst=[]
for i in range(11):urllst.append('https://travel.qunar.com/p-cs300100-xian-jingdian'+str('-1-')+str(i))urllst=urllst[2:11]urllst.append('https://travel.qunar.com/p-cs300100-xian-jingdian')
urllst

4、保存数据

新建一个空的数据框,用于保存数据。

import pandas as pd
dic = pd.DataFrame(columns=["景点名称", "攻略提到数量", "评论数量", "lng", "lat"])
dic

在空的数据框中保存第一条数据,并且使用for循环,依次爬取其余页面的数据。

n=0
dic.loc[n, '景点名称'] = li.find('span', class_="cn_tit").text
dic.loc[n, '攻略提到数量'] = li.find('div', class_="strategy_sum").text
dic.loc[n, '评论数量'] = li.find('div', class_="comment_sum").text
dic.loc[n, 'lng'] = li['data-lng']
dic.loc[n, 'lat'] = li['data-lat']
dic

最后

如果对Python感兴趣的话,可以试试我的学习方法以及相关的学习资料

Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、Python必备开发工具
 

三、精品Python学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

四、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

六、Python练习题

检查学习结果。

七、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

大家拿到脑图后,根据脑图对应的学习路线,做好学习计划制定。根据学习计划的路线来逐步学习,正常情况下2个月以内,再结合文章中资料,就能够很好地掌握Python并实现一些实践功能。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69975.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我用python疯狂爬取公司数据

我是半路从一个纯小白学过来的,学习途中也掉过许多坑,在这里建议新手要先把基础打扎实,然后再去学习自己需要的内容,不要想着全部学完再用,那样你是永远学不完的,用哪方面就学习哪方面的内容,不…

【Python爬虫与数据分析】爬虫网络请求

目录 一、网络请求流程 1.HTTP 2.URL 3.网络传输模型 4.长链接/短链接 二、爬虫基础 1.基础概念 2.发送请求 3.请求模式 4.cookie 5.retrying 一、网络请求流程 1.HTTP 用户输入网址,例如 www.baidu.com浏览器先向DNS请求,找到网址域名对应的…

有哪些网站用爬虫爬取能得到很有价值的数据?

目录 第一部分:介绍爬虫项目 1、微信好友的爬虫 2、拉勾网的数据那么多的招聘信息有用吗? 3、豆瓣的图书、电影信息有用吗? 4、美团和大众点评的数据有用吗? 5、伯乐在线的文章数据有用吗? 6、腾讯NBA的用户评论数据有用吗…

微信小程序——云函数

云函数是一种在小程序端编写、定义,通过开发工具部署到云服务器中,在小程序端可以远程调用的函数。这种函数在云服务器中执行。所以云函数可以简单替代nodejs后端接口。 体验云函数 1、创建云函数 前提:在新建项目时,选择”云开…

借助云函数实现微信小程序订阅消息推送功能

项目需要弄个微信小程序,第一次发教程,有些地方可能不太清楚,我尽量把我遇到的问题描述清楚 先看一下官方给订阅消息的简介 接下来咱们就开始借助云函数实现微信小程序订阅消息推送功能: 1、获取模板ID 模板id的获取首先要登陆微…

微信小程序 云开发 聊天功能

项目背景 。功能要求为:一对一聊天,可以发送文字,图片,语音,文件,视频,含消息列表页。 暑假没事干来写篇博客复盘一下。框架和样式部分就是采用了colorUI 的组件,没啥好说的&#x…

借助云开发,利用订阅消息,云函数路由实现小程序好友一对一聊天,添加好友等仿微信功能

微信小程序借助云开发,利用订阅消息,云函数路由实现小程序好友一对一聊天,添加好友等仿微信功能 这篇文章已经进行了更新,请点此进行查看仿微信好友聊天**点此获取源码** 主要功能有后续可能补充功能详细介绍注意 这篇文章已经进行…

微信小程序云开发通过服务号给用户推送模板消息

主要参考下面两个文章 1、云函数接收公众号消息推送 | 微信开放社区 ​​​​​​2、微信小程序通过公众号(服务号)推送通知或提醒步骤及代码(一,获取推送前所需信息)_微信小程序推送服务通知_庆登登登的博客-CSDN博客 一些基本的概念就不讲了,这里主要…

微信小程序云开发———云函数

1.云函数环境配置 在目录中添加一个cloud文件夹与pages平级 并在project.config.json文件中配置云函数所在目录cloud/ 保存后cloud文件夹会出现一个云朵的形状,并且需要我们进行同步环境列表 因为作者有其他的云开发环境,所以正常来说同学们新建的cloud…

微信小程序消息推送

简介 微信小程序发送消息推送到用户微信上 基础流程 用户登录 :获取微信提供的openid 开发者去微信公众平台申请模板:获得模板id授权消息推送:在小程序中调用wx.requestSubscribeMessage方法成功后将数据保存到后台 消息推送表 中在需要发送…

再度警惕!AI“灭霸”要来了?Hinton、Bengio等300余大佬联名上书

来源:机器之心 人工智能存在「灭绝」级别的风险,未来的系统可能像核武器一样致命。本周二,著名的人工智能学者、科技公司创始人团结了起来,发出呼吁。 公开信地址:https://www.safe.ai/statement-on-ai-risk 前有马斯克…

【探索人工智能】我与讯飞星火认知大模型的对话

文章目录 讯飞星火认知大模型的地址概要讯飞星火认知大模型的发展历程讯飞星火认知大模型的主页利用讯飞星火大模型解决一些基本的数学问题讯飞星火认知大模型与OpenAI,ChatGPT没有关系!让讯飞星火认知大模型编写传奇代码hello world小结 讯飞星火认知大模型的地址 …

在Ubuntu22.04里安装脉冲星信号处理工具----Pulsar软件包

在Ubuntu22.04安装Pulsar软件包 1.ubuntu 22.04 安装gcc-7、g7(用来编译后续软件) 1.1 添加镜像: 打开源镜像文件 sudo vim /etc/apt/sources.list在最后一行添加如下内容: deb [archamd64] http://archive.ubuntu.com/ubunt…

6-2. 实战项目:足球运动员分析

足球运动员分析 1. 项目背景 当前,足球运动是最受欢迎的运动之一(也可以说没有之一)。 我们的任务,就是在众多的足球运动员中,发现统计一些关于足球运动员的共性,或某些潜在的规律。也是好玩。 2. 数据…

【案例】足球运动员分析

文章目录 足球运动员分析案例需求数据集程序实现1. 导入相关库2. 加载相关数据集3. 数据探索与清洗3.1. 缺失值处理3.2. 异常值处理处理3.3. 重复值处理 4. 身高与体重处理5. 运动员身高,体重,评分信息分布6. 左脚与右脚选手在数量上是否存在偏差7. 从球…

足球运动员分析

数据集 数据集 背景: 我们关注足球运动员的如下内容: 足球运动员是否受出生日期的影响?左撇子适合踢足球吗?足球运动员的号码是否与位置有关?足球运动员的年龄与能力具有怎样的关联? 哪些技能会对足球运…

解析波士顿动力Handle机器人背后的技术(附PPT+视频)

[转] http://www.leiphone.com/news/201703/URrR8CG2tmtghNDl.html 导语:Boston Dynamics 在机器人动力方面堪称翘楚,其由双足或多足机器人组成的机器人天团总是时不时能给我们带来惊喜。上周,Boston Dynamics 又发布了一段视频,并…

解析波士顿Handle机器人背后的技术

在斗鱼直播平台,浙大李超博士的公开课分享了关于handle的技术细节,解析波士顿Handle机器人背后的技术,观察敏锐,思路清晰。 内容介绍了波士顿动力公司的历代4足和2足机器人的开发历史。并结合李超的专业重点讲解了腿的细节。 李…

开源四足机器人 附设计图及代码

斯坦福学生机器人俱乐部(Stanford Student Robotics club)Extreme Mobility 团队最近迎来了一名新成员——一个名为 Stanford Doggo 的四足机器人。这个机器人能跳 1 米多高,还能表演后空翻。与其他四足机器人动辄上万美元的成本不同&#xf…

ROS2机器人笔记21-03-14

ROS会议和活动: 如果对机器人技术感兴趣,但是看不到任何适合兴趣的项目,那么可能还需要考虑将其应用于同级组织中,例如OpenCV和MoveIt! 核心是各种应用和ROS2的逐渐普及 GPU运算越来越主流,Nvidia Jetson…