线性回归算法原理
线性关系在生活中有很多案例:
- 摄氏度和华氏度的转化: F = C ⋅ 9 5 + 32 F = C \cdot\frac{9}{5}+32 F=C⋅59+32
- 学科最终成绩的计算: 最终成绩 = 0.3 × \times × 平时成绩 + 0.7 × \times ×期末成绩
线性回归(Linear regression)就是利用回归函数对一个或多个自变量和因变量关系建立类似如上模型的一种分析方式
通用公式:
h ( w ) = w 1 x 1 + w 2 x 2 + . . . + b = w T x + b h(w)=w_1x_1+w_2x_2+...+b=w^Tx+b h(w)=w1x1+w2x2+...+b=wTx+b
其中 w 1 , w 2 , . . . w_1,w_2,... w1,w2,...称为系数
x 1 , x 2 , . . . x_1,x_2,... x1,x2,...是自变量
也可以使用矩阵的形式表示:
h ( w ) = ( b w 1 w 2 . . . ) ⋅ ( 1 x 1 x 2 . . . ) h(w) = \begin{pmatrix}b \\ w_1 \\ w_2 \\...\end{pmatrix} \cdot \begin{pmatrix} 1 \\ x_1 \\ x_2 \\ ...\end{pmatrix} h(w)= bw1w2... ⋅ 1x1x2...
根据自变量的数量, 可以将线性关系分为单变量线性关系, 多变量线性关系
- 单变量线性关系
- 多变量线性关系
当特征值超过两个时, 就无法使用绘图来进行可视化了, 但在数学上任然可以使用矩阵的方式表示
损失函数
损失函数可以告诉我们模型的运行情况, 以便我们更好的改进
如下图, 已知的数据集以红叉显示, 简单建立了一个线性回归模型 f w , b f_{w,b} fw,b
指定其中一点( x ( i ) , y ( i ) x^{(i)}, y^{(i)} x(i),y(i)), 该模型的预测值为 y ^ \hat{y} y^
那么该模型在该点的误差就是 y ^ − y ( i ) \hat{y} - y^{(i)} y^−y(i)
假设一个有 m m m个点, 每一个点的误差平方都相加再取平均, 就得到该模型的损失函数
J ( w , b ) = 1 2 m ∑ i = 1 m ( y ^ ( i ) − y ( i ) ) 2 J(w,b) = \frac{1}{2m}\sum^{m}_{i=1}(\hat{y}^{(i)}-y^{(i)})^2 J(w,b)=2m1i=1∑m(y^(i)−y(i))2
为了后面求导运算的简便, 取平均后再乘以 1 2 \frac{1}{2} 21
通常来说, 损失函数的值越小, 模型的效果是最好的, 那么我们建立线性回归模型, 就需要找到损失函数最小是什么时候, 从而找到对应的 w , b w,b w,b值.
那么如何找损失函数的最小值?
使用梯度下降的方法
梯度下降
梯度下降是最小化任何函数的方法, 不单单只是损失函数
下图是某个模型的损失函数, 假设你站在某一个高点处, 那应该如何找到该函数的最小值?
很简单, 环顾四周, 找到最陡峭的一点, 往那个方向走一小步
到达之后再环顾四周, 找到最陡峭的一点, 往那个方向走一小步
不断重复, 就能抵达某一个局部最低点
再回到你的起始位置, 随机往某个方向偏离一点, 重复上述步骤, 你可能会到达另一个局部最低点
具体数学步骤也并不困难
w = w − α ∂ ∂ w J ( w , b ) w = w - \alpha\frac{\partial}{\partial w}J(w,b) w=w−α∂w∂J(w,b)
b = b − α ∂ ∂ w J ( w , b ) b = b - \alpha\frac{\partial}{\partial w}J(w,b) b=b−α∂w∂J(w,b)
这里的 α \alpha α称为学习率, 又称步长
对损失函数 J ( w , b ) J(w,b) J(w,b)求偏导, 找到最陡峭的那一点, 根据学习率更新 w , b w, b w,b, 使得损失函数不断下降, 从而找到局部最小值
下图是梯度下降算法的具体应用, 右上图是 J ( w , b ) J(w,b) J(w,b)的等高线图
起始为蓝色, 根据上面的方法不断更新 w , b w,b w,b, 从而找到损失函数的最小值
注意, 学习率的取值不能太大, 也不能太小
如果取值过大, 就可能一步就超过最小值点, 损失函数反而会找不到最小值
如果取值过小, 找到最小值点的时间会很长, 算法效率很低
那么该如何选择好学习率?
作出迭代次数和损失函数 J ( w ⃗ , b ) J(\vec{w},b) J(w,b)的图像, 根据梯度下降的方法, 随着迭代次数的增加, 损失函数的值会不断减小最后趋近某一个值, 即达到最低点
因此, 选择不同的学习率 α \alpha α, 作出相关图像, 即可找到合理的学习率
在更多的情况下, 我们遇到的都是多元线性回归模型
多元和单元的区别, 其实就是因变量数量的不同, 因此需要更多的参数来表示
这就要使用到线性代数的知识了, 使用向量和矩阵来表示
J ( w ⃗ , b ) = 1 2 m ∑ i = 1 m ( f w ⃗ , b ( x ⃗ ( i ) ) − y ( i ) ) 2 J(\vec{w},b) = \frac{1}{2m}\sum^{m}_{i=1}(f_{\vec{w},b}(\vec{x}^{(i)})-y^{(i)})^2 J(w,b)=2m1i=1∑m(fw,b(x(i))−y(i))2
步骤更单元的一样
线性回归模型的简单应用
1.数据说明
diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况。
age:年龄
sex:性别
bmi(body mass index):身体质量指数,是衡量是否肥胖和标准体重的重要指标,理想BMI(18.5~23.9) = 体重(单位Kg) ÷ 身高的平方 (单位m)
bp(blood pressure):血压(平均血压)
s1,s2,s3,s4,s4,s6:六种血清的化验数据,是血液中各种疾病级数指针的6的属性值。
s1——tc,T细胞(一种白细胞)
s2——ldl,低密度脂蛋白
s3——hdl,高密度脂蛋白
s4——tch,促甲状腺激素
s5——ltg,拉莫三嗪
s6——glu,血糖水平
2.数据预处理
导入相关库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes
diabetes=load_diabetes()
data = diabetes['data']
target = diabetes['target']
feature_names = diabetes['feature_names']
df = pd.DataFrame(data,columns= feature_names)
df
3.模型训练
1.训练集和测试集的划分
2.实例化线性回归对象
3.传入数据训练模型
4.查看模型的系数(coef_)和截距(intercept_)
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(data,target, test_size=0.2, random_state=22)
estimator = LinearRegression()
estimator.fit(x_train,y_train)estimator.intercept_
estimator.coef_
4.模型评估
1.查看模型准确率:
y_pred = estimator.predict(x_test)
estimator.score(x_test,y_test)
2.均方误差mean_absolute_error
计算公式: n n n是样本总数, y ^ i \hat{y}_i y^i是预测值, y i y_i yi是实际值
M S E = 1 n ∑ i = 1 n ( y ^ i − y i ) 2 MSE = \frac{1}{n}\sum^{n}_{i=1}(\hat{y}_i-y_i)^2 MSE=n1i=1∑n(y^i−yi)2
# metrics 评估
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test,y_pred)