Python网络爬虫:爬取腾讯招聘网职位信息 并做成简单可视化图表

hello,大家好,我是wangzirui32,今天我们来学习如何爬取腾讯招聘网职位信息,并做成简单可视化图表,开始学习吧!

文章目录

  • 1. 网页分析
  • 2. 获取json数据
  • 3. 转换为Excel
  • 4. 招聘城市信息可视化

1. 网页分析

首先来到腾讯招聘网首页,搜索“Python”,同时打开开发者工具,选择Network,发现了API请求:
请求
这个请求的网址如下:

https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1626354057701&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=Python&pageIndex=1&pageSize=10&language=zh-cn&area=cn

网址太长,经测试,可以去除一些参数,简化后的网址如下:

https://careers.tencent.com/tencentcareer/api/post/Query?keyword=Python&pageIndex=1&pageSize=10&language=zh-cn&area=cn

URL参数的Python字典:

params = {"keyword": "Python", "pageIndex": 1,       # 页数"pageSize": 10,       # 每页记录数"language": "zh-cn","area": "cn",
}

再看这个URL的响应内容:
响应
红框所圈起的是我们需要的数据。

2. 获取json数据

代码:

import requests
import json
from fake_useragent import UserAgentjson_data = []# 获取30页
for i in range(1, 31):params = {"keyword": "Python", "pageIndex": i,"pageSize": 10,"language": "zh-cn","area": "cn",}headers = {"User-Agent": UserAgent().random}url = "https://careers.tencent.com/tencentcareer/api/post/Query"json_data += requests.get(url, params=params, headers=headers).json()['Data']['Posts']with open("data.json", "w", encoding="UTF-8") as f:json.dump(json_data, f)

3. 转换为Excel

import json
from pandas import DataFramef = open("data.json")
data = json.load(f)
f.close()excel_dict = {"工作岗位名": [],"招聘国家": [],"招聘城市名": [],"工作责任": [],"最后更新时间": [],"详细页网址": []
}for i in data:excel_dict["工作岗位名"].append(i['RecruitPostName'])excel_dict["招聘国家"].append(i['CountryName'])excel_dict["招聘城市名"].append(i['LocationName'])excel_dict["工作责任"].append(i['Responsibility'])excel_dict["最后更新时间"].append(i['LastUpdateTime'])excel_dict["详细页网址"].append(i['PostURL'])df = DataFrame(data=excel_dict)
df.to_excel("data.xlsx")

data.xlsx文件内容:

4. 招聘城市信息可视化

工作的城市地点有多少个?各个城市占比是多少?可以用下面的可视化程序解决这些问题:

from pyecharts.charts import Pie
import pyecharts.options as opts
import json
from collections import Counterf = open("data.json")
data = json.load(f)
f.close()# 获取所有城市
cities = [i['LocationName'] for i in data]# 统计城市数量
city_num = list(Counter(cities).items())pie = (Pie(init_opts=opts.InitOpts(width='720px', height='720px')).add(series_name='招聘城市占比', data_pair=city_num))pie.render("city_pie.html")

运行代码,打开city_pie.html
可视化
可以看到,工作地点在深圳的占比较大,其次是北京,上海。


好了,今天的课程就到这里,我是wangzirui32,喜欢的可以点个收藏和关注,我们下次再见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18113.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度解读智能时代下,微软如何开启数字化转型新纪元?

作者 | 伍杏玲 出品 | CSDN 今年以来,微软频频放大招,以 Microsoft Build 大会为例,接连重磅更新引发 IT圈热议。微软正在创造未来,将最前沿的智能技术贯穿各业务线,有效提高生产研发效率、办公协同效率,助…

独立开发变现周刊(第96期):一个课程学习网站,月收入2.6万美元

分享独立开发、产品变现相关内容,每周五发布。 目录 1、TTime: 一款开源简洁截图、划词翻译软件2、Memberstack: 轻松在你的网站上集成会员服务3、web-check: 一站式全面了解分析网站4、ShortGPT: 一款开源强大的视频创建框架5、一个后端课程学习网站,月…

微软收购暴雪计划遭拒/ Edge被曝泄露浏览记录/ 微信小程序可用数字人民币...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好,今天是4月27日星期四,是这个月倒数第二天上班了~ 在假期可以翘首以待的日子里,还是来和日报君看看今天的科技圈资讯吧~ 微信支持数字人民币 昨日,微信官方在其公众号“微信派”中…

GPT-4被要求禁止商业化/ 百度打假冒牌文心一言/ Meta仍坚信元宇宙是未来…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大噶好,今天是3月31日星期五,一周又过去啦~ 最近科技圈都有哪些新鲜事,一起来康康吧。 百度:应用商店中含“文心一言”的APP均为仿冒 假冒文心一言的APP开始在苹果、安卓应用…

只需一段话,「一键生成」短视频的工具来了

巨头们还不敢放出这种非常早期的试验性应用,但创业公司敢。 作者 | 宛辰编辑 | 靖宇 抖音和快手火了之后,短视频成为人们「杀时间」最高效的工具。但直到微信视频号推出后,人们才认真思考,短视频可能不仅是网红和「土味」大片的舞…

这两年大家都在吃瘪,结果微软他闷声发大财了?!

ChatGPT 轰轰烈烈的来了,留下风波不断。 美版 “ 今日头条 ” BuzzFeed 宣布用 ChatGPT 生成文章,不知道哪天会抢了我的饭碗。 美国前两天一个调查显示,现在美国学生有 80% 都用过 ChatGPT 替自己写作业。。。 谷歌和百度赶紧推出类似的产品…

ChatGPT,又爆了...

这马斯克,Bengio等千位AI科技人士签署暂停巨型 AI 实验公开信,在这封信里马斯克等人呼吁所有人工智能实验室立即暂停训练比 GPT-4 更强大的人工智能系统(包括目前正在训练的 GPT-5)至少 6 个月,同时利用这段时间共同开…

ChatGPT,GPT-4会让大家失业么? OpenAI自己的报告来了。

本文主要基于OpenAI前一段时间发布的报告:GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models https://arxiv.org/abs/2303.10130 ChatGPT及后续的GPT-4一个比一个牛,作为一个程序员,在测试Chat…

为什么计算机无法访问u盘,U盘插入电脑提示无法访问?别怕,我找到解决办法了...

原标题:U盘插入电脑提示无法访问?别怕,我找到解决办法了 U盘是一种使用USB接口来连接电脑的储存工具,使用方法快捷有效,携带也很方便。但是最近有一位小伙伴反馈说U盘插入电脑后发现无法访问U盘,这是怎么回…

Android Study 之聊聊权限那点事儿~别怕,就是干~!!!

LZ-Says: 江湖上流传着这样一首诗: 床前明月光,我会写代码;千山鸟飞绝,我会写代码; 松下问童子,我会写代码;春眠不觉晓,我会写代码; 白日依山尽&#xff0c…

线上出bug了?别怕,这么定位!

小编推荐: Fundebug提供JS、微信小程序、微信小游戏,Node.js和Java错误监控。真的是一个很好用的错误监控服务,众多大佬公司都在使用。 摘要: Source Map还是很神奇的。 原文:线上出bug了?别怕&#xff0…

手机进水开机android,手机进水?别怕,一个软件就能自救!

原标题:手机进水?别怕,一个软件就能自救! 号称防水的手机,越来越多了。但无论哪种级别,都不可能绝对保证手机的安全。 毕竟,有句话怎么说来着:「防水贱不防手贱」。 当你在泳池旁边玩…

别怕,卷积其实很简单

原文地址:https://blog.csdn.net/qq_39521554/article/details/79083864 相信很多时候,当我们在看到“卷积”时,总是处于一脸懵逼的状态,不但因为它的本义概念比较难理解,还因为它在不同的应用中发挥出的变幻莫测的作…

不会写用户帮助文档怎么办?别怕,Baklib有招

产品售后服务难,客服人员压力大,客户不满意。相信这是很多企业都面临的问题,产品是卖出去了,但是做不完的售后,回答不完的重复问题,电话、微信响个不停,售后服务一直都是企业的一个痛点&#xf…

MySQL数据库root密码忘记了别怕,看这里

忘记的话我们需要重置root密码,然后进行重设root密码,下面我来讲一下流程 1,打开任务管理器先将MySQL服务停掉 2,找到c盘下面的my.in文件,并使用管理员权限打开,找到[mysqld],在下面添加skip-g…

计算机CPU高温,电脑cpu温度高怎么办?别怕,三招搞定

cpu温度多少才算正常呢? 一般来说CPU温度控制在正负30度范围内是比较正常的,我们这里只说正的,比如现在室温是25度,那么升温30度就是55度,也就是说在室温25度时将CPU温度控制在55度之内是最理想的状况。 当然实际生活中我们使用电脑时CPU温度会经常超过这个温度,特别是在…

别怕看源码,一张图搞定Mybatis的Mapper原理

目录 简单使用 引出主题 看图 提到看源码,很多同学内心的恐惧的,其实这个从人性的角度来说是非常正常的,因为人们对未知的事物,都是非常恐惧的,其次,你内心可能始终觉得,好像不会原理也还是能工作啊,你的潜意识里没有强烈的欲望.从阅读源码的经历来说,Java三大框架SSM中,Myb…

别怕,“卷积”其实很简单

以前的文章没法用推荐卡,这是我2017年写的,所以重新发表一次,大家温习温习~ 前言 相信很多时候,当我们在看到“卷积”时,总是处于一脸懵逼的状态,不但因为它的本身概念比较难理解,还因为它在不…

赵小楼《天道》《遥远的救世主》深度解析(124)遇事别怕,出事别躲

关注赵小楼,与10000人一起重读天道,学习强势文化思维! 本文是按《遥远的救世主》小说情节深度解析的第124集,按小说解读完后会按《天道》电视剧不同于小说的情节解读,按情节全部解读完,会出专题解读系列【总…

年终总结没有思路?别怕,这里有一个万能写法

一晃又到了年底,年终总结又要开始准备了~ 最近很多小伙伴在后台留言,希望我们出一篇「如何做好年终总结」的文章。 害,谁让我不忍拒绝你们呢,安排! 年终总结其实并不难写,很多人感觉难写的原因一般有两个…