回归——数学公式推导全过程

文章目录

一、案例引入

二、如何求出正确参数

1. 最速下降法

1）多项式回归

2）多重回归

2. 随机梯度下降法

一、案例引入

以Web广告和点击量的关系为例来学习回归，假设投入的广告费和点击量呈现下图对应关系。

思考：如果花了200元的广告费，广告的点击量会是多少呢？

机器学习就是从给出的数据（训练数据）中进行学习，当你提供未知数据（200广告费）后，给出预测值（500左右点击量）。

实现原理：把图想象为函数，只要知道通过图中各点的函数的形式，就能根据广告费得知点击量。

定义一次函数的表达式： "西塔0，西塔1" 我们称之为参数，也就是一次函数的斜率和截距。

将训练数据中的广告费代入fθ(x)，把得到的点击量与训练数据中的点击量相比较，然后找出使二者的差最小的θ。

假设有n个训练数据，那么它们的误差之和可以用这样的表达式表示。这个表达式称为目标函数，E(θ)的E是误差的英语单词Error的首字母。

对每个训练数据的误差取平方之后，全部相加，然后乘以1/2。这么做是为了找到使E(θ)的值最小
的θ。这样的问题称为最优化问题。（取平方是为了让误差值都大于0，最后乘以1/2是为了让后面计算微分更方便而加上去的）

二、如何求出正确参数

1. 最速下降法

比如有一个表达式为的二次函数，它的最小值是g(x)=0，出现在 x =1时。

将g(x)展开后取微分：

增减表如下所示：

比如在x=3这一点，为了使g(x)的值变小，我们需要向左移动 x，也就是必须减小x

如果是在另一侧的x=−1这一点，为了使g(x)的值变小，我们需要向右移动x，也就是必须增加x

只要向与导数的符号相反的方向移动x，g(x)就会自然而然地沿着最小值的方向前进了

用表达式展示出来：这种方法称为最速下降法或梯度下降法

（A:=B这种写法，它的意思是通过B来定义A。）

η读作“伊塔”，称为学习率的正的常数。根据学习率的大小，到达最小值的更新次数也会发生变化。换种说法就是收敛速度会不同。

假设η=0.1，从x=3开始

x := 3−0.1×(2×3−2) =3 −0.4=2.6
x := 2.6−0.1×(2×2.6−2)=2.6−0.3=2.3
x := 2.3−0.1×(2×2.3−2)=2.3−0.2=2.1
x := 2.1−0.1×(2×2.1−2)=2.1−0.2=1.9

而当η较小时，移动量也变小，更新次数就会增加，值也会不断朝着收敛的方向而去。

回过头来看一下上面案例中的目标函数E(θ)

这个目标函数和刚才例子中的g(x)同样是开口向上的形状，所以刚才推导的过程也同样适用于它。不过这个目标函数中包含fθ(x)，从表达式（一次函数）中又可以看出，fθ(x)拥有θ0和 θ1两个参数。也就是说这个目标函数是拥有θ0和θ1的双变量函数，所以不能用普通的微分，而要用偏微分。如此一来，更新表达式就是这样的。