房价预测数据集 (KAGGLE)

文章目录

  • 引入
  • 1 库引入
  • 2 数据处理
  • 完整代码

引入

  KAGGLE房价预测数据集分为训练集和测试集。两个数据集都包括每栋房子的特征,如街道类型、建造年份、房价类型等特征。特征值连续的数字离散的标签缺失值 (na)等。
  训练集与测试集的区别在于:只有训练集包括了房子的价格,即标签。
  数据集的下载地址 (需要注册):
  https://www.kaggle.com/c/house-prices-advanced-regression-techniques
  原始数据以及处理好数据:
  https://gitee.com/inkiinki/data20201205/blob/master/Data20201205/kaggle_house_price.rar
  数据展示:
在这里插入图片描述

1 库引入

import numpy as np
import pandas as pd

2 数据处理

def load_data(para_train_path, para_test_path, is_save=False):"""Load datasets."""temp_train_data = pd.read_csv(para_train_path)temp_test_data = pd.read_csv(para_test_path)# 连接训练集和测试集的所有样本# 第一列是序号,训练集的最后一列是标签temp_all_features = pd.concat((temp_train_data.iloc[:, 1:-1], temp_test_data.iloc[:, 1:]))# 获取数值型数据的索引temp_numeric_features_idx = temp_all_features.dtypes[temp_all_features.dtypes != 'object'].index# 标准化数据temp_all_features[temp_numeric_features_idx] = temp_all_features[temp_numeric_features_idx].apply(lambda x: (x - x.mean()) / x.std())# 标准化后,可以使用0来代替缺失值temp_all_features = temp_all_features.fillna(0)# 离散值处理:# 例如某特征有两个不同的离散值,则该属性将被处理为二维:0 1 或者 1 0# 三中不同的离散值时,则对于 0 0 1、 0 1 0 以及 1 0 0,以此类推temp_all_features = pd.get_dummies(temp_all_features, dummy_na=True)# 数据划分temp_num_train = len(temp_train_data)ret_train_data = np.array(temp_all_features[:temp_num_train].values, dtype=np.float)ret_test_data = np.array(temp_all_features[temp_num_train:].values, dtype=np.float)ret_train_label = temp_train_data.values[:, -1]# 文件保存if is_save:temp_save_train_data = np.zeros((temp_num_train, len(ret_train_data[0]) + 1), dtype=float)temp_save_train_data[:, :-1] = ret_train_datatemp_save_train_data[:, -1] = np.mat(ret_train_label)pd.DataFrame.to_csv(pd.DataFrame(temp_save_train_data), default_path + 'house_price_train.csv',index=False, header=False, float_format='%.6f')pd.DataFrame.to_csv(pd.DataFrame(ret_test_data), default_path + 'house_price_test.csv',index=False, header=False, float_format='%.6f')return ret_train_data, ret_train_label, ret_test_dataif __name__ == '__main__':default_path = '../Data/'train_path = default_path + 'train.csv'test_path = default_path + 'test.csv'load_data(train_path, test_path, True)

完整代码

"""
@author: Inki
@contact: inki.yinji@qq.com
@version: Created in 2020 1209, last modified in 2020 1209.
"""import numpy as np
import pandas as pddef load_data(para_train_path, para_test_path, is_save=False):"""Load datasets."""temp_train_data = pd.read_csv(para_train_path)temp_test_data = pd.read_csv(para_test_path)# 连接训练集和测试集的所有样本# 第一列是序号,训练集的最后一列是标签temp_all_features = pd.concat((temp_train_data.iloc[:, 1:-1], temp_test_data.iloc[:, 1:]))# 获取数值型数据的索引temp_numeric_features_idx = temp_all_features.dtypes[temp_all_features.dtypes != 'object'].index# 标准化数据temp_all_features[temp_numeric_features_idx] = temp_all_features[temp_numeric_features_idx].apply(lambda x: (x - x.mean()) / x.std())# 标准化后,可以使用0来代替缺失值temp_all_features = temp_all_features.fillna(0)# 离散值处理:# 例如某特征有两个不同的离散值,则该属性将被处理为二维:0 1 或者 1 0# 三中不同的离散值时,则对于 0 0 1、 0 1 0 以及 1 0 0,以此类推temp_all_features = pd.get_dummies(temp_all_features, dummy_na=True)# 数据划分temp_num_train = len(temp_train_data)ret_train_data = np.array(temp_all_features[:temp_num_train].values, dtype=np.float)ret_test_data = np.array(temp_all_features[temp_num_train:].values, dtype=np.float)ret_train_label = temp_train_data.values[:, -1]# 文件保存if is_save:temp_save_train_data = np.zeros((temp_num_train, len(ret_train_data[0]) + 1), dtype=float)temp_save_train_data[:, :-1] = ret_train_datatemp_save_train_data[:, -1] = np.mat(ret_train_label)pd.DataFrame.to_csv(pd.DataFrame(temp_save_train_data), default_path + 'house_price_train.csv',index=False, header=False, float_format='%.6f')pd.DataFrame.to_csv(pd.DataFrame(ret_test_data), default_path + 'house_price_test.csv',index=False, header=False, float_format='%.6f')return ret_train_data, ret_train_label, ret_test_dataif __name__ == '__main__':default_path = '../Data/'train_path = default_path + 'train.csv'test_path = default_path + 'test.csv'load_data(train_path, test_path, True)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15823.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

案例:房价预测模型

案例目标:根据房子特征,预测某房房价,选出最优模型。 主要步骤: 1. 数据清洗。数据分类,缺失值和异常值处理。 2. 特征分析。统计量分析和相关性分析。 3. 特征工程。特征选择和特征融合。 4. 模型构建。特征标准…

房价预测模型

目录 1.模型目标 预测某一区域的房价中位数 2.选择框架 有监督学习任务:训练集中的每个实例都有标签(该区域的房价中位数)回归任务:因为你要对某个值进行预测。更具体地说,这是一个多重回归问题,因为系统要使用多个特征进行预…

房屋价格预测

机器学习——房屋价格预测 点击链接查看文档代码 一.项目概述及计划 项目背景 :影响房屋价格的因素众多,如房屋面积、房屋层数、配套设施等等。 项目要求 :利用竞赛提供的数据,通过分析影响房屋价格的诸多因素来对房…

数据分析项目——深圳二手房价分析及价格预测

目录 一、需求说明 1.1基本任务 1.2 任务目的 1.3测试数据 二、概要设计说明 三、详细设计 3.1 数据检测模块 3.2 因变量分析模块 3.3 自变量分析模块 3.4 可视化模块 3.5 建立预测模型模块 3.6预测模块 一、需求说明 深圳二手房数据分析及价格预测的总体目标&#xff1a…

波士顿房价预测(终版讲解)

代码段分四个部分:库的引入、加载数据(函数)、配置网络结构(类)、运行部分(获取数据,创建网络,启动训练,作图) 我的是基础版,库只用到了numpy和ma…

基于大数据的房价数据可视化分析预测系统

温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 1. 项目背景 房地产是促进我国经济持续增长的基础性、主导性产业,二手房市场是我国房地产市场不可或缺的组成部分。由于二手房的特殊性,目前市场上实时监测二手房市场房价涨幅的…

Kaggle房价预测详解

Kaggle房价预测详解 1.导入数据2.查看各项主要特征与房屋售价的关系查看中央空调与售价关系查看装修水平与房价关系查看建造日期与售价关系不同地段与房价关系查看地皮面积与房价关系查看地下室总面积与房价关系查看关联性 3.训练集数据预处理训练数据预处理创建机器学习模型得…

数据集:波士顿地区房价预测

数据集:波士顿地区房价预测 数据集下载地址 本文以线性回归模型预测为主 1. 数据集说明 变量名变量描述CRIM城镇人均犯罪率ZN住宅地超过25000平方英尺的比例INDUS城镇非零售商用土地的比例CHAS查理斯河空变量(如果边界是河流,则为1&#x…

AI for Science的上半场:人工智能如何重新定义科学研究新范式?

AI发展七十余年,每一技术性突破都将给人类未来开辟新一种可能性。而它与科学研究的深度融合,则会裂变出无数或无穷种可能性。 来源 :36氪 万众瞩目下,今年10月,有着诺贝尔奖“嫡传”之称的诺贝尔化学奖终于揭晓,授予了…

【分享NVIDIA GTC 23大会干货】加速生成式AI在生物学和医疗领域的应用

【分享NVIDIA GTC 23大会干货】加速生成式AI在生物学和医疗领域的应用 1. NVIDIA医疗领域AI计算平台——NVIDIA CLARA2. NVIDIA CLARA医学影像子平台——MONAI3. NVIDIA CLARA医疗设备子平台——Holoscan4. NVIDIA基因组学解决方案Parabricks5. NVIDIA药物研发解决方案6. 个人思…

GTC 2023 万字纪要 | Don‘t Miss This Defining Moment in AI

「Don’t Miss This Defining Moment in AI」 「切勿错过 AI 的决定性时刻」 北京时间 2023 年 3 月 21 日 23:00,「皮衣刀客」黄教主在 GTC 2023 发表主题如上的 Keynote 演讲,并称「这将是我们迄今为止最重要的一次 GTC」,NVIDIA官方 Twi…

「国际科技信息中心SCITIC论坛」细胞,基因和人工智能:探索医学研究的未来...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 随着科技的不断进步,我们现在拥有了许多前所未有的工具和技术,可以更深入地研究和了解人体内部的细胞和基因。人工智能技术的发展,也为医学研究带来了全新的机遇。例如&#…

明天10:00「国际科技信息中心SCITIC论坛」细胞,基因和人工智能:探索医学研究的未来...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 随着科技的不断进步,我们现在拥有了许多前所未有的工具和技术,可以更深入地研究和了解人体内部的细胞和基因。人工智能技术的发展,也为医学研究带来了全新的机遇。例如&#…

Nat. Biotechnol. | 生成式AI在生物科学领域发展迅速

在过去的一年中,人工智能迎来了突破性的技术,它们来自OpenAI的DALL-E2和ChatGPT。 Link: https://openai.com/dall-e-2 Link: https://openai.com/blog/chatgpt 或许你在网络上已经或多或少了解了一些,甚至已经在无意中使用过了这些技术所带来…

OpenAI新模型惊艳了!对话问答能力逆天

编|昕朋 Aeneas源|新智元 OpenAI新模型来了!全新对话模型ChatGPT,可以回答用户问题,还能挑出问题的错误之处。面对不懂的问题,还会承认错误并拒绝回答! 当人们翘首期待GPT-4时,OpenA…

买股不如买基?Python实现快速追踪基金的收益情况!谁还不是个买基高手?

​ 大家知道,近几年,不少同学都是经由基金进入到股市中的。去年就很流行“买股不如买基”的说话,至于股票和基金到底谁更好,这个仁者见仁智者见智,恐怕一时半会儿也说不清楚。 今天,阳哥给大家分享的主题是…

研报精选230505

目录 【行业230505国信证券】风电or电网产业链周评(4月第5周):海风开发资源集中释放,黑色类原材料价格持续下行 【行业230505天风证券】通信AI系列之:人工智能之火点燃算力需求,AI服务器迎投资机遇 【行业2…

你最关心的4个零代码问题,ChatGPT 帮你解答了!

作为人工智能(AI)新型聊天机器人模型 ChatGPT,刚上线5天就突破100万用户,两个多月全球用户量破亿,不愧为业界最炙热的当红炸子鸡。 ChatGPT 是一种语言生成模型,由 OpenAI 开发和训练。它是基于 Transform…

问ChatGPT:零基础如何学好.Net Core?

更多开源项目请查看:一个专注推荐.Net开源项目的榜单 ChatGPT横空出世,一下子让全球互联网企业都慌了,纷纷表示:马上跟进发布ChatGPT,媒体纷纷报道大有改变教培行业。 下面我们问问ChatGPT:零基础如何学好…

GPT-4刚发布就有手机APP接入,上传照片视频一键解读,还当起了美版知乎的问答bot...

萧箫 发自 凹非寺量子位 | 公众号 QbitAI GPT-4刚发布,就已经有手机应用接入了! 只需要上传图像,再用语音提出需求,GPT-4就能帮助视障人士“看清”眼前的世界。 随时随地,实时解读,就像聊天对话一样自然。 …