【参考:【Kaggle:房价预测】全球AI比赛实战训练营资料_哔哩哔哩_bilibili】
视频讲解内容
看数据的类型、空值、大小
数据清洗方法
- 常识性规则:人的寿命几百岁
- 业务特定规则:这家店 每天都卖出去几万台手机
- 类别型转化为数字或者one-hot编码
数据处理
实战
思路:数据探索(查看数据之间的关系) => 数据清洗(比如空值填充)=> 数据预处理(比如归一化、标准化等)=> 模型构建 => 训练预测 => 保存提交
视频的代码有点混乱,学到几点就可以溜了
视频二 推荐
【参考:8_02 房屋价格预测【回归案例】_哔哩哔哩_bilibili】
train和test的特征工程操作要一致,因为模型训练使用的是train中的列,如果test中的列和train的列不一致就无法预测 (最好就是一起弄)
可以把缺失率很大的列直接删除 比如缺失率大于80%
https://gitee.com/myaijarvis/ai/blob/master/机器学习/Kaggle/房价预测/案例 房屋价格预测【回归问题】.ipynb
提交Kaggle Score: 0.13539 1329名