1.背景
有监督学习:有标签(连续变量(回归问题:时间序列等)、分类变量(分类))
无监督学习:没有标签(聚类、关联(相关性分析:哪些相关,看特征))
半监督学习:少量标签(分类标签(分类、聚类))
强化学习:(标签为分类变量(分类)或者没有标签(控制))
步骤:
过程:
机器训练过程:训练数据—>输入到程序算法中,根据输出得到的模型—>目标变量,通过调整程序,再到程序算法中
得到算法的实际精度:测试数据—>输入到程序算法中,输出—>目标变量与实际样本对比得到精度。
目标变量值为标签
监督学习(有标签)
无监督学习(没有标签)聚类分析
半监督学习(部分标签)有标签+无标签 经过训练得到模型,再检验所有数据
目标函数:
交叉验证:
划分数据集,在训练集上训练模型,在测试集上验证结果,根据验证结果调参数(但不科学)
Validation set 验证集 Test set 测试集
大部分实验只分了训练集和测试集没有去分验证集这个说法大家都是在训练集上去训练,测试集上去调参(公平对比)
总数据中的部分,分出来,进行验证看拟合效果,因为预测未知数据,无法判断预测效果的好
10折交叉验证\5折交叉
时间序列,划分多段
学习率Learning rate ,正则化参数 ,层数,维度, epoch迭代次数(防止过拟合)
目标变量和特征都是机器学习中的重要概念,它们在模型训练和预测中有着不同的作用。
目标变量(Target Variable)指的是我们希望预测或分类的变量。也可以称为因变量(Dependent Variable)。在监督学习中,我们需要根据一组已知的特征数据来预测目标变量的值,目标变量可以是连续的数值型变量,也可以是离散的分类型变量。
特征(Feature)则是指模型用来做出预测的输入变量。也可以称为自变量(Independent Variable)。在监督学习中,我们使用一组特征来预测目标变量的值。特征可以是连续的数值型变量,也可以是离散的分类型变量,还可以是其他类型的变量,例如文本、图像等。
可以这样理解:目标变量是我们预测的结果或输出,而特征是我们用来进行预测的输入。例如,我们想要根据房屋的大小、位置、卧室数量等特征来预测房价,那么房价就是目标变量,而房屋的大小、位置、卧室数量就是特征。
在机器学习模型训练中,我们通常会将目标变量和特征分别作为训练数据的输出和输入。我们使用已知的特征和目标变量来训练模型,然后使用该模型对新的特征数据进行预测,从而得到预测结果。