1.8.Kaggle房价预测

House Prices - Advanced Regression Techniques | Kaggle

在这里下载数据,然后使用pandas读。

课本:4.10. 实战Kaggle比赛:预测房价 — 动手学深度学习 2.0.0 documentation (d2l.ai)

在这里插入图片描述

一层线性层

def get_net():net = nn.Sequential(nn.Linear(in_features, 1))  # 输出房价return netk, num_epochs, lr, weight_decay, batch_size = 5, 100, 5, 0, 64

在这里插入图片描述

MLP

net = nn.Sequential(nn.Flatten(), nn.Linear(in_features, 128), nn.ReLU(), nn.Linear(128, 1))
k, num_epochs, lr, weight_decay, batch_size = 5, 300, 5, 6, 64

在这里插入图片描述

Xarvier初始化,MLP

def get_net():#net = nn.Sequential(nn.Linear(in_features, 1))  # 输出房价net = nn.Sequential(nn.Flatten(), nn.Linear(in_features, 128), nn.ReLU(), nn.Linear(128, 1))return netdef init_weights(m):if type(m) == nn.Linear:nn.init.xavier_normal_(m.weight)if m.bias is not None:nn.init.zeros_(m.bias)k, num_epochs, lr, weight_decay, batch_size = 5, 100, 0.1, 0.2, 128

完整代码

import numpy as np
import pandas as pd
import torch
from torch import nn
from d2l import torch as d2ltrain_data = pd.read_csv('D:/a-learn/summer_AI/kaggle/HousePrices/train.csv')
test_data = pd.read_csv('D:/a-learn/summer_AI/kaggle/HousePrices/test.csv')print(train_data.shape)
print(test_data.shape)print(train_data.iloc[0:4, [0, 1, 2, 3, -3, -2, -1]])
# 可以看到第一列特征是ID,对预测没有帮助,直接去掉
# train里面的最后一列是需要预测的值,这样train和test都是80行了
all_features = pd.concat((train_data.iloc[:, 1:-1], test_data.iloc[:, 1:]))'''数据预处理将所有缺失的值替换为相应特征的平均值,通过将特征重新缩放到零均值和单位方差来标准化数据下面先处理值为数字的特征,在处理值离散的特征
'''
numeric_features = all_features.dtypes[all_features.dtypes != 'object'].index  # 如果dtype不是object,就是数值特征
all_features[numeric_features] = all_features[numeric_features].apply(lambda x: (x - x.mean()) / (x.std())  # 归一化
)  # 将方差变为1
all_features[numeric_features] = all_features[numeric_features].fillna(0)  # 归一化后再将NaN填为0
# 处理离散值# dummy_na意为值为NaN意为没有特征,pandas会帮我们处理NaN的值,注意get_dummies自动赋的是布尔值,需要自己使用dtype来调整
all_features = pd.get_dummies(all_features, dummy_na=True, dtype=int)# 至此已经全部处理好了,最后通过values属性,可以从pandas格式中提取NumPy格式,并将其转换为张量表示用于训练
n_train = train_data.shape[0]  # 训练集数据的个数
# 将数据转换成为张量
train_features = torch.tensor(all_features[:n_train].values, dtype=torch.float32)
test_features = torch.tensor(all_features[n_train:].values, dtype=torch.float32)
# reshape(-1,1)将Numpy数组形状转换为一个二维数组,确保每个样本都有一个输出,即从形状(n,)转换为(n,1),n为样本数量
train_labels = torch.tensor(train_data.SalePrice.values.reshape(-1, 1), dtype=torch.float32)'''训练'''loss = nn.MSELoss()
in_features = train_features.shape[1]  # 输入的特征数def get_net():#net = nn.Sequential(nn.Linear(in_features, 1))  # 输出房价net = nn.Sequential(nn.Flatten(), nn.Linear(in_features, 128), nn.ReLU(), nn.Linear(128, 1))return netdef init_weights(m):if type(m) == nn.Linear:nn.init.xavier_normal_(m.weight)if m.bias is not None:nn.init.zeros_(m.bias)# 对于房价,我们更关心相对误差(y-y')/y.可以使用对数来衡量差异
'''对数均方根误差'''def log_rmse(net, features, labels):clipped_preds = torch.clamp(net(features), 1, float('inf'))  # 在取对数时,确保所有预测值至少为 1,以避免对数计算时出现负无穷或未定义的情况rmse = torch.sqrt(loss(torch.log(clipped_preds), torch.log(labels)))return rmse.item()  # 将张量转换为Python标量值def train(net, train_features, train_labels, test_features, test_labels,num_epochs, learning_rate, weight_decay, batch_size):train_ls, test_ls = [], []train_iter = d2l.load_array((train_features, train_labels), batch_size)# 这里使用的是Adam优化算法,对初始学习率不是很敏感optimizer = torch.optim.Adam(net.parameters(),lr=learning_rate,weight_decay=weight_decay)for epoch in range(num_epochs):for X, y in train_iter:optimizer.zero_grad()  # 梯度清0l = loss(net(X), y)l.backward()optimizer.step()train_ls.append(log_rmse(net, train_features, train_labels))if test_labels is not None:test_ls.append(log_rmse(net, test_features, test_labels))return train_ls, test_ls# K折交叉验证
# 得到第i折的数据
def get_k_fold_data(k, i, X, y):  # 分别是划分数,选取第几部分为验证集,输入,输出assert k > 1fold_size = X.shape[0] // kX_train, y_train = None, Nonefor j in range(k):idx = slice(j * fold_size, (j + 1) * fold_size)X_part, y_part = X[idx, :], y[idx]if j == i:  # 验证集X_valid, y_valid = X_part, y_partelif X_train is None:X_train, y_train = X_part, y_part  # 训练集为空则赋值else:X_train = torch.cat([X_train, X_part], 0)  # 不为空则连接,直接接在后面就行,dim=0y_train = torch.cat([y_train, y_part], 0)return X_train, y_train, X_valid, y_validdef k_fold(k, X_train, y_train, num_epochs, learning_rate, weight_decay,batch_size):train_l_sum, valid_l_sum = 0, 0for i in range(k):data = get_k_fold_data(k, i, X_train, y_train)net = get_net()net.apply(init_weights)# *data是对数据解码(取括号),得到get_k_fold_data返回的4个数据列表,依次传入train函数中train_ls, valid_ls = train(net, *data, num_epochs, learning_rate,weight_decay, batch_size)train_l_sum += train_ls[-1]  # 注意最后一列是对数均方根误差,没问题的valid_l_sum += valid_ls[-1]if i == 0:d2l.plot(list(range(1, num_epochs + 1)), [train_ls, valid_ls],xlabel='epoch', ylabel='rmse', xlim=[1, num_epochs],legend=['train', 'valid'], yscale='log')print(f'折{i + 1},训练log rmse{float(train_ls[-1]):f}, 'f'验证log rmse{float(valid_ls[-1]):f}')return train_l_sum / k, valid_l_sum / k# k, num_epochs, lr, weight_decay, batch_size = 5, 100, 0.1, 0.2, 128
# train_l, valid_l = k_fold(k, train_features, train_labels, num_epochs, lr,
#                           weight_decay, batch_size)
# print(f'{k}-折验证: 平均训练log rmse: {float(train_l):f}, '
#       f'平均验证log rmse: {float(valid_l):f}')
# d2l.plt.show()#调好参数后,使用所有的数据作为训练,然后预测
def train_and_pred(train_features, test_features, train_labels, test_data,num_epochs, lr, weight_decay, batch_size):net = get_net()net.apply(init_weights)train_ls, _ = train(net, train_features, train_labels, None, None,num_epochs, lr, weight_decay, batch_size)d2l.plot(np.arange(1, num_epochs + 1), [train_ls], xlabel='epoch',ylabel='log rmse', xlim=[1, num_epochs], yscale='log')print(f'训练log rmse:{float(train_ls[-1]):f}')d2l.plt.show()# 将网络应用于测试集。preds = net(test_features).detach().numpy()# 将其重新格式化以导出到Kaggletest_data['SalePrice'] = pd.Series(preds.reshape(1, -1)[0])submission = pd.concat([test_data['Id'], test_data['SalePrice']], axis=1)submission.to_csv('submission.csv', index=False)train_and_pred(train_features, test_features, train_labels, test_data,100, 0.1, 0.2, 128)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/379903.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DHCP中继实验

一、什么是DHCP中继? 1、使得一个DHCP服务器同时为多个网段服务称为DHCP中继技术。 2、配置DHCP中继的网络设备可以在不同网段上从DHCP总服务器获取IP地址分配给下面的各个主机。 3、路由器和交换机都可充当中继。DHCP中继在两个网段间代理客户端和服务器请求,中继服务器需要…

实现异步天气数据获取与Spring缓存集成

你好呀,我是小邹。 在Web应用中,实时天气数据的获取是一个常见的需求,特别是在需要频繁更新天气信息的场景下,如旅游网站、天气应用或任何需要展示地理位置相关天气的应用。然而,频繁的外部API调用不仅会增加服务器的…

Go网络编程-RPC程序设计

gRPC 通信 RPC 介绍 RPC, Remote Procedure Call,远程过程调用。与 HTTP 一致,也是应用层协议。该协议的目标是实现:调用远程过程(方法、函数)就如调用本地方法一致。 如图所示: 说明: Servi…

生活中生智慧

【 圣人多过 小人无过 】 觉得自己做得不够才能做得更好,互相成全;反求诸己是致良知的第一步;有苦难才能超越自己,开胸怀和智慧;不浪费任何一次困苦,危机中寻找智慧,成长自己。 把困苦当作当下…

WINUI或WPF灵活使用样式、控件模板、自定义控件、用户控件

在WINUI与WPF 中,控件模板(ControlTemplate)、样式(Style)、自定义控件(CustomControl)和用户控件(UserControl)都是构建复杂和灵活用户界面的重要工具,但它们…

SpringCloudAlibaba-Seata2.0.0与Nacos2.2.1

一、下载 ## 下载seata wget https://github.com/apache/incubator-seata/releases/download/v2.0.0/seata-server-2.0.0.tar.gz## 解压 tar zxvf seata-server-2.0.0.tar.gz二、执行sql文件 ## 取出sql文件执行 cd /seata/script/server/db/mysql ## 找个mysql数据库执行三、…

java文本比较解决方案

参考资料 VBA计算页码和行号https://learn.microsoft.com/zh-cn/office/vba/api/word.wdinformation 概述: 最近在做word文档对比的,总结了几种解决方案,记录一下 在java中,常用的文本对比方案有如下几种: 差异比较…

数据结构--二叉树收尾

目录 1.二叉树的销毁 2.层序遍历 2.1深度优先搜索 2.1.1满(完全)二叉树引入 2.1.2什么是广度优先搜索 2.2广度优先搜索 2.2.1基本思路 2.2.2代码解析 3.完全二叉树的判断 3.1思路分析 3.2原理剖析 3.3代码分析 4.逆推二叉树结构 1.二叉树的销…

惠海H5112A降压恒流芯片IC 60V72V80V100V转24V36V48V多路共阳输出景观LED点光源

H5112A是一款外围电路简单的多功能平均电流型LED恒流驱动器,适用于5-90V电压范围的非隔离式大功率恒流LED驱动领域。芯片采用了平均电流模式控制,输出电流精度在士3%;输出电流对输入输出电压以及电感不敏感;芯片内部集成了环路补偿,外围电路更…

网络编程-TCP 协议的三次握手和四次挥手做了什么

TCP 协议概述 1. TCP 协议简介 TCP(Transmission Control Protocol,传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议。 TCP 协议提供可靠的通信服务,通过校验和、序列号、确认应答、重传等机制保证数据传输…

自动化测试高级控件交互方法:TouchAction、触屏操作、点按,双击,滑动,手势解锁!

在自动化测试领域中,TouchAction 是一种非常强大的工具,它允许我们模拟用户在设备屏幕上的各种触摸事件。这种模拟不仅限于简单的点击操作,还包括滑动、长按、多点触控等复杂的手势。 点按与双击 点按和双击是触屏设备上最基本的操作之一。…

【AMD/Xilinx】FPGA远程烧录调试工具安装及使用

问题描述 在学习工作中,本人遇到了连接FPGA的服务器电脑没有Vivado或Vivado版本较低,导致没办法查看ila的情况。在这种情况下一方面重新安装Vivado需要占用大量存储空间,另一方面使用远程桌面软件连接服务器电脑的画质较为模糊,影…

走进数组的奇妙之旅

引言: 在前几篇文章中,我们深入探讨了函数的奥秘。在讲述函数知识的过程中,我们邂逅了一个新的概念,你或许还记得在演示 strcpy函数时,出现的这行代码:char1[20]{0};。当时,你是否感到好奇&…

PHP萌宠之家微信小程序系统源码

🐾萌宠之家微信小程序🐾 —— 铲屎官们的温馨小窝✨ 🏠【一键开启萌宠乐园】🏠 亲们,是不是每次刷手机都忍不住想看看那些软萌可爱的毛孩子?现在,有了“萌宠之家”微信小程序,你的…

通信流程:https【SSL/TLS】,git仓库【https/SSH】,蓝牙【面对面快传/AirDrop】

目录 HTTPS HTTP(80端口) SSL/TLS协议(传输层,443端口) 密文传输:SSL的后续版本TLS TLS1.2握手 1.摘要算法(散列函数 Hash Function):验证信息的完整性,不可逆 第三方认证 引…

数据结构之初始二叉树(2)

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏:数据结构(Java版) 二叉树的前置知识(概念、性质、、遍历) 通过上篇文章的学习,我们…

iOS——MRC与ARC以及自动释放池深入底层学习

MRC与ARC再回顾 在前面,我们简单学了MRC与ARC。MRC指手动内存管理,需要开发者使用retain、release等手动管理对象的引用计数,确保对象在必要时被释放。ARC指自动内存管理,由编译器自动管理对象的引用计数,开发者不需要…

如何用EXCEL自动解方程/方程组?利用 矩阵乘法X=A-*B,X=mmult(minverse(A), B)

目录 问题的由来 1 数据 → 模拟分析 → 单变量求解 1.1 找一个单元格填入公式 1.2 功能入口 1.3 选择单变量求解,分别填入内容 1.4 求解 1.5 这个感觉用处不大 2 重点介绍,用EXCEL进行矩阵运算解方程的操作 2.1 运用EXCEL进行矩阵运算&…

Sentinel-1 Level 1数据处理的详细算法定义(四)

《Sentinel-1 Level 1数据处理的详细算法定义》文档定义和描述了Sentinel-1实现的Level 1处理算法和方程,以便生成Level 1产品。这些算法适用于Sentinel-1的Stripmap、Interferometric Wide-swath (IW)、Extra-wide-swath (EW)和Wave模式。 今天介绍的内容如下: Sentinel-1 L…

操作系统内核源码杂谈篇:临界区

临界资源,是指同一时刻只能由一个线程(linux下为进程)访问的资源,而临界区就是为了确保临界资源访问是单一数据流。 临界区的代码执行,也就是进行原子操作,不会被打断。 先分析RTOS的运行架构&#xff0c…