二手车交易价格预测——Task2

二手车交易价格预测——Task2

  • EDA-数据探索性分析
    • 一、目标
    • 二、载入相关库
    • 三、载入数据,并做相关分析
      • (一)特征集
      • (二)数据总览
      • (三)判断数据缺失和异常
      • (四)了解预测值的分布
    • 三、特征分类
      • (一)现将要分析的特征单独分离出来
      • (二)价格特征分为**数字特征**和**类型特征**
      • (三)再分别处理
        • 3.1查看unique分布
    • 四、 数字特征分析
        • (一) 相关性分析
        • (二) 查看几个特征的偏度和峰值
        • (三) 每个数字特征的分布可视化
    • 五、类型特征分析
        • (一) unique分布
        • (二)类别特征箱形图可视化
        • (三) 类别特征的小提琴图可视化
        • (四) 类别特征的柱形图可视化
        • (五) 类别特征的每个类别频数可视化(count_plot)
    • 六、生成数据报告

EDA-数据探索性分析

探索性数据分时是对调查、观测所得到的一些初步的杂乱无章的数据,在尽量少的先验假定下进行处理,通过作图、指标等形式和方程拟合、计算某些特征量等手段,探索数据的结构和规律的一种数据分析方法。

一、目标

1)查看数据分析分布结构和变量之间的关系;
2)用来评估和验证假设,基于这些假设得到未来推论;
3)在提出假说之前,EDA帮助我们先了解数据,提供试验的想法;
4)通过研究数据,确定哪些变量具有最大的预测力,然后选择相应的统计工具,来建立我们的预测模型。

二、载入相关库

#coding:utf-8
#导入warnings包,利用过滤器来实现忽略警告语句
import warnings
warnings.filterwarnings('ignore')import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

三、载入数据,并做相关分析

path = './datacsv/'
Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', sep=' ')

(一)特征集

  • name - 汽车编码
  • regDate - 汽车注册时间
  • model - 车型编码
  • brand - 品牌
  • bodyType - 车身类型
  • fuelType - 燃油类型
  • gearbox - 变速箱
  • power - 汽车功率
  • kilometer - 汽车行驶公里
  • notRepairedDamage - 汽车有尚未修复的损坏
  • regionCode - 看车地区编码
  • seller - 销售方
  • offerType - 报价类型
  • creatDate - 广告发布时间
  • price - 汽车价格
  • v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’(根据汽车的评 论、标签等大量信息得到的embedding向量)【匿名特征】

(二)数据总览

Train_data.head().append(Train_data.tail())

在这里插入图片描述

Train_data.shape

(150000, 31)

Test_data.head().append(Test_data.tail())

在这里插入图片描述

Test_data.describe()

在这里插入图片描述

# 熟悉数据类型
Test_data.info()

在这里插入图片描述

(三)判断数据缺失和异常

1) 查看每列存在NAN的情况

Train_data.isnull().sum()# NAN可视化
missing = Train_data.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()

在这里插入图片描述

# 可视化看缺省值
msno.matrix(Train_data.sample(250))
msno.bar(Train_data.sample(1000))

在这里插入图片描述
在这里插入图片描述

# 对缺省值进行处理
Train_data['notRepairedDamage'].value_counts()
Train_data['notRepairedDamage'].replace('-', np.nan, inplace=True)
Train_data['notRepairedDamage'].value_counts()
Train_data.isnull().sum()# 每列数值缺失值的情况
Train_data.isnull().sum()

在这里插入图片描述

# 对该列[notRepairedDamage]的值进行计数并排序
Test_data['notRepairedDamage'].value_counts()
Test_data['notRepairedDamage'].replace('-', np.nan, inplace=True)Train_data["seller"].value_counts()
Train_data["offerType"].value_counts()
Train_data.head()

在这里插入图片描述

del Train_data["seller"] 
del Train_data["offerType"] 
del Test_data["seller"] 
del Test_data["offerType"]

(四)了解预测值的分布

Train_data['price']
Train_data['price'].value_counts()# 1) 总体分布概况(无界约翰逊分布等) 
import scipy.stats as st
y = Train_data['price'] 
plt.figure(1); plt.title('Johnson SU') 
sns.distplot(y, kde=False, fit=st.johnsonsu) 
plt.figure(2); plt.title('Normal') 
sns.distplot(y, kde=False, fit=st.norm) 
plt.figure(3); plt.title('Log Normal') 
sns.distplot(y, kde=False, fit=st.lognorm)
# 价格不服从正态分布,所以在进行回归之前,它必须进行转换。虽然对数变换做得很好,但佳拟合是无界约翰 逊分布

在这里插入图片描述

# 价格不服从正态分布,所以在进行回归之前,它必须进行转换。虽然对数变换做得很好,但佳拟合是无界约翰 逊分布
## 2) 查看skewness(偏度) and kurtosis(峰度)
sns.distplot(Train_data['price']); 
print("Skewness: %f" % Train_data['price'].skew()) 
print("Kurtosis: %f" % Train_data['price'].kurt())

在这里插入图片描述

三、特征分类

(一)现将要分析的特征单独分离出来

# 分离label即预测值 
Y_train = Train_data['price']

(二)价格特征分为数字特征类型特征

# 分离label即预测值 
# 数字特征 
# numeric_features = Train_data.select_dtypes(include=[np.number]) 
# numeric_features.columns 
# # 类型特征 
# categorical_features = Train_data.select_dtypes(include=[np.object]) 
# categorical_features.columns
#即
numeric_features=['power','kilometer','v_0','v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7','v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14']
categorical_features = ['name','model','brand','bodyType','fuelType','gearbox','power','kilometer','notRepairedDamage','regionCode']

(三)再分别处理

3.1查看unique分布

	# 特征nunique分布
for cat_fea in categorical_features:print(cat_fea + "的特征分布如下:")print("{}特征有个{}不同的值".format(cat_fea, Train_data[cat_fea].nunique()))print(Train_data[cat_fea].value_counts())

四、 数字特征分析

numeric_features.append('price')
Train_data.head()

(一) 相关性分析


price_numeric = Train_data[numeric_features] 
correlation = price_numeric.corr() 
print(correlation['price'].sort_values(ascending = False),'\n')

在这里插入图片描述
在这里插入图片描述

(二) 查看几个特征的偏度和峰值

del price_numeric['price']
for col in numeric_features:    print('{:15}'.format(col),           'Skewness: {:05.2f}'.format(Train_data[col].skew()) ,           '   ' ,          'Kurtosis: {:06.2f}'.format(Train_data[col].kurt())           )

在这里插入图片描述

(三) 每个数字特征的分布可视化

f = pd.melt(Train_data, value_vars=numeric_features)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, "value")
## 4) 数字特征相互之间的关系可视化 
sns.set() 
columns = ['price', 'v_12', 'v_8' , 'v_0', 'power', 'v_5',  'v_2', 'v_6', 'v_1', 'v_14'] 
sns.pairplot(Train_data[columns],size = 2 ,kind ='scatter',diag_kind='kde') 
plt.show()

在这里插入图片描述
在这里插入图片描述

五、类型特征分析

(一) unique分布

for fea in categorical_features:    print(Train_data[fea].nunique())

(二)类别特征箱形图可视化

# 因为 name和 regionCode的类别太稀疏了,这里我们把不稀疏的几类画一下
categorical_features = ['model','brand','bodyType','fuelType','gearbox','notRepairedDamage'] 
for c in categorical_features:    Train_data[c] = Train_data[c].astype('category')    if Train_data[c].isnull().any():        Train_data[c] = Train_data[c].cat.add_categories(['MISSING'])        Train_data[c] = Train_data[c].fillna('MISSING')def boxplot(x, y, **kwargs):    sns.boxplot(x=x, y=y)    x=plt.xticks(rotation=90)
f = pd.melt(Train_data, id_vars=['price'], value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(boxplot, "value", "price")

(三) 类别特征的小提琴图可视化

catg_list = categorical_features 
target = 'price' 
for catg in catg_list :    sns.violinplot(x=catg, y=target, data=Train_data)    	plt.show()

(四) 类别特征的柱形图可视化

def bar_plot(x, y, **kwargs):    sns.barplot(x=x, y=y)   x=plt.xticks(rotation=90)f = pd.melt(Train_data, id_vars=['price'], value_vars=categorical_features) 
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False, size=5) 
g = g.map(bar_plot, "value", "price")

(五) 类别特征的每个类别频数可视化(count_plot)

def count_plot(x,  **kwargs):    sns.countplot(x=x)    x=plt.xticks(rotation=90)
f = pd.melt(Train_data,  value_vars=categorical_features) 
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False, size=5) 
g = g.map(count_plot, "value")

六、生成数据报告

import pandas_profiling
pfr = pandas_profiling.ProfileReport(Train_data) 
pfr.to_file("./example.html")

在生成报告的时候时间可能比较长(大概是30分钟),可以去干自己的事情。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/71996.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

巴比特 | 元宇宙每日必读:发布即落后?百度推出大语言模型文心一言,李彦宏坦言对标ChatGPT、GPT-4的门槛非常高...

摘要:GPT-4发布一天之后,百度顶住压力交出了自己的答卷——文心一言。据「甲子光年」了解,文心一言对标的是OpenAI在去年11月底发布的ChatGPT(GPT-3.5版本),希望做出一个“能拿得出手”的产品。但在实力更强…

41.7%年化收益率 人工智能买股可以如此简单

学一门知识,充实自我 掌握一项工具,让生活更美好~今天flare老师教大家AI选股,轻松搭建一个年化收益40%的机器学习选股策略 —by flare zhao,转载请注明出处,原创不易,谢谢支持 话不多说,先看策略的最终表现…

人工智能帮你3分钟完成股票抄底

哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈…

2023年市场规模将超147亿美元,中国人工智能产业的“风口”来了吗?

2023年IDC中国ICT市场趋势论坛于5月10日召开,会议重点探讨了人工智能、工业互联网、网络安全、大数据、云计算等领域,并强调了智能终端、智慧城市和半导体等行业的前景。 IDC预计,中国人工智能市场规模在2023年将超过147亿美元,到…

泛娱乐行业需求升级,即构推出“泛娱乐社交玩法2.0方案”

泛娱乐社交领域激烈的市场环境,引发社交产品竞争激烈、玩法同质化、获客困难等一系列行业痛点问题,行业需要更新颖、更符合年轻一代的社交玩法来实现增长与营收的突破。 回看过去十几年娱乐社交的发展,从早期的BBS/论坛等社交网络形式&#x…

2020大学生就业报告:IT行业人才缺口巨大,好就业

据教育部公开数据,2020年应届高校毕业生比去年增长40万,达到874万。 毕业生数量攀升,而受疫情影响,大批企业放慢了招聘步伐,甚至裁员。2020年,不管你是应届毕业生还是打算转行的职场新人,都会面临着“僧多粥少”的困局。 2020就业难,难于上青天。那么,这次“就业大考…

大学生就业问题的统计研究

最近在写学年论文,哈哈,这个文章被导师修改,觉得有些不妥就基本算是胎死腹中了。但是毕竟是自己的blog,在这里写写感觉也无所谓的哈。但是秉承着对自己博客,对希望学习统计的大伙儿负责的态度。我可以保证研究过程中的…

PHP计算比较两段文字内容的重复率

一、介绍 用于比较两段文字内容的重复率二、运行结果 三、代码 <?php /*** 内容相似度计算*/ class GetSimilar{function __construct(){}function getSimilar($str1, $str2) {$len1 strlen($str1);$len2 strlen($str2);$len strlen($this->getLCS($str1, $str2, $…

抖音直播运营 | 疫情时代下如何用直播驱动品牌业务增长

自从提出「兴趣电商」概念后&#xff0c;抖音便开始逐步发力并推出三大扶持计划。大量商家入驻抖音电商&#xff0c;争相踏入品牌自播这一黄金赛道&#xff0c;在疫情时代下找到了效率更高、品牌价值链更短的新零售模式。 货架电商的特征是指数式增长、顾客货比三家&#xff0c…

抖音如何直播汉字找不同小游戏

在电脑下载电脑版微信、直播伴侣2款软件&#xff1b; 免费玩小程序可以在微信小程序搜索&#xff1a;火眼金睛汉字找不同、金金汉字找不同、范范汉字找不同、九九汉字找不同&#xff0c;这4个名字都可以&#xff0c;包含基本功能&#xff1b; 定制版VIP小程序联系微信号&…

如何用直播摄像机、编码器、电脑端OBS软件在抖音平台上做推流直播现实背景

现实背景 自2021年以来&#xff0c;抖音平台提高了电脑推流直播门槛&#xff0c;导致很多人无法通过电脑软件做推流直播&#xff0c;也无法通过第三方推流工具做直播&#xff0c;具体要求如下图所示&#xff1a; 抖音平台的新规则如下&#xff1a;硬性条件&#xff1a; 1. 需实…

利用OBS推流抖音直播电脑屏幕或PC游戏

抖音目前的火爆程度相信大家都有目共睹&#xff0c;抖音也为部分活跃用户提供直播功能&#xff0c;开通直播的方法有&#xff1a;①抖音粉丝达到10000粉丝&#xff0c;官方会自动邀请你开通直播权限。②加入和抖音官方合作的工会&#xff0c;无需粉丝&#xff0c;也可以开通直播…

抖音弹幕互动游戏直播怎么弄?

● 本质上是基于直播的一种实时互动玩法&#xff0c;用户可以通过直播间互动行为实现跟主播之间的实时互动&#xff1b; ● 主播开启玩法后进行投屏分享&#xff0c;用户通过发送评论/赠送礼物来影响主播侧的玩法内容&#xff1b; ● 特定礼物流水&#xff08;即魔法镜、能量电…

最常用的抖音直播话术大全,新手主播快收藏

1.高客单直播间主播话术怎样说? 第一 首先高客单价的女装播的时候一定要着重去讲你的做I、你的设计、你的款式、你的品牌、你 的独特性,要知道高客单消费人群需要的是价值,示范:各位姐妹们看一下主播身上的这款水雾蓝的 设计款连衣裙给大家做了一个内衬,领子立起来特别的好看,…

怎么把短视频做成gif图?短视频生成gif的步骤

在平时大家刷手机的时候&#xff0c;经常能够刷到一些短视频&#xff0c;我们经常可以看到很多由mp4视频转化成的精彩动图片段&#xff0c;那么应该怎么吧短视频做成gif图呢&#xff1f;其实视频转gif的方法非常简单&#xff0c;今天就来教大家一个在线视频转gif格式的方法&…

短视频程序源码,如何实现短视频的热门页面

之前做过一些短视频程序源码和直播项目&#xff0c;但是很多部分使用的是别的公司做好的SDK&#xff0c;由于不想像傻瓜一样不知道具体实现方式的调用来调用去&#xff0c;我决定自己做一个完全开源的&#xff0c;没有任何封装的SDK的短视频程序源码。 在实现短视频程序源码的…

短视频源码APP开发——短视频的功能

说到短视频&#xff0c;首先想到的就是抖音快手。毫无疑问&#xff0c;这两款短视频app是目前最受欢迎的&#xff0c;各大巨头都在布局短视频市场。短视频相比传统的文字、图片&#xff0c;在宣传和传播方面&#xff0c;短视频更有趣&#xff0c;传播范围广&#xff0c;短短几分…

什么是爆款视频生成器?怎么开发搭建

一、 什么是爆款视频生成器&#xff1f; 爆款视频生成器&#xff0c;是为创作者提供全方位创作灵感&#xff0c;创意脚本支持的短视频生成工具&#xff0c; 爆款文案热门话题创意标题&#xff0c;模板化视频制作加持&#xff0c;助力商家流量提升及团单转化的一种微信小程序。…

图文一键生成短视频工具

文字转视频好用的工具有哪些&#xff1f;文字图片一键自动朗读转视频文件解放双手&#xff0c;一刀工具箱提供在线文字转语音短视频制作必备工具。 代码片段 //2018.9.22 下载与打包生成视频static function buildMp4($id){if($id){$lists self::where("is_convert&qu…

短视频源码,成品短视频app源码搭建第一步

随着短视频平台的兴起&#xff0c;短视频app也成为了移动应用市场的一大风口。开发一款成品的短视频app需要大量的资源和时间&#xff0c;而使用现成的小视频app源码则可以快速地搭建出一个基础功能完备的短视频app。本文将介绍如何选择适合自己的小视频app源码&#xff0c;作为…