利用八爪鱼爬链家网上广州市租房房源数据,网址为https://gz.lianjia.com/zufang/,爬取字段为价格、租赁方式、房型、楼层、面积、朝向、地铁、小区、位置、经度、纬度等,保存到E盘数据分析课程设计文件夹下,存为“gz_zufang.csv”文件,编码方式为utf-8,以下是爬取结果部分数据截图:
原始数据有2946条数据,11个字段,初步浏览数据,看一下各字段含义
价格:每个月的月租,单位为xxxx元/月
租赁方式:出租的方式,有整租/合租
房型:房屋的格局,x室x厅x卫
楼层:所在楼层,分为高中低三个层次,是根据后面的具体楼层来定义的
面积:出租的房屋的面积,单位为xx㎡
朝向:房屋的朝向
地铁:距离x号线xxm
小区:房屋所在的小区
位置:按xx(城市)xx(行政区)xxxx(小区)
经度:房屋所在的经度
纬度:房屋所在的纬度
缺失值处理
处理字段
(1)面积
(2)价格
异常值处理
可视化与EDA