目的:本篇给大家介绍一个数据分析的初级项目,目的是通过项目了解如何使用Python进行简单的数据分析。
数据源:博主通过爬虫采集的安X客上海二手房数据,由于能力问题,只获取了2160条数据。
数据初探
首先导入要使用的科学计算包numpy,pandas,可视化matplotlib,seaborn
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as mplimport matplotlib.pyplot as plt
%matplotlib inline
然后导入数据,并进行初步的观察,这些观察包括了解数据特征的缺失值,异常值,以及大概的描述性统计。
#coding:utf8
data=pd.read_csv('house_anjuke.csv',encoding='gbk')
data.head()
初步观察到一共有7个特征变量,价格在这里是我们的目标变量,然后我们继续深入观察一下。<