10生成器与python实现
如果是曲线规律的数据集,则需要把模型变复杂。如果是噪音较大,则需要做特征工程。
随机种子的知识点补充:
根据不同库中的随机过程,需要用对应的随机种子:
比如 l=list(range(5))
random.shuffle(l)(shuffle是打乱这个list的函数,如果需要保持每次打乱结果一样,则用random.seed(x),如果用numpy.random.seed(x)则没用。
创建一个特征数组和标签数组的函数:
11线性回归手动实现
为什么要用梯度下降:
XTXW=XTY不一定存在唯一解,因此不一定能用最小二乘法解决方法:
使用梯度下降/有些矩阵可以用广义逆矩阵/修改损失函数,使得它可以满足最小二乘法求解
本节最后补充了线性回归的决定系数
R-square=SSR/SSE
其中SSR是预测数据与标签均值的平方差,SST是实际值与均值的平方差,SSE=SSR+SST
这个指标越接近一越好