本项目主要利用python技术爬取BOSS直聘网站上的岗位信息,进行对比分析UI设计师与产品经理两个职位的趋势。爬取字段:工作地点,薪资范围,学历要求,工作经验,公司性质等。 模拟登陆BOSS直聘网站,爬取相关信息下载网页源码,采用beautifulsoup来提取数据,存储到数据库,以柱状图或饼状图形式对数据进行可视化分析得出结论。
1、利用request第三方工具包实现网页下载;
2、利用Beautiful Soup库过滤HTML标签,提取数据,并将数据存储到MySQL数据库中;
3、对抓取的数据进行数据清洗,主要除去空数据,让数据格式更规范;
4、利用Pandas对数据进行分析,以及使用Matlpotlib对分析后的数据进行可视化