参考:https://www.bilibili.com/video/BV1mM411r7ko?p=1&vd_source=260d5bbbf395fd4a9b3e978c7abde437
唐宇迪:机器学习数学基础
文章目录
- 1.1 函数
- 1.1.1 函数分类
- 1.1.2 常见函数
- 指/对数函数
- 分段函数
- 原函数&反函数
- sigmod函数
- Relu函数(非负函数)
- 复合函数
- 1.1.3 性质
- 1.2 极限
- 1.2.1 数列极限
- 1.2.2 函数极限
- 极限定义
- 1.2.3 无穷大
- 1.2.4 无穷小
- 1.2.5 连续性
- 1.2.6 间断点
- 1.3 导数
- 1.3.1 运算律
- 1.3.2 导数的几何意义
- 1.3.3 可微
- 1.3.4 二元函数的导数
- 偏导(随一个变量变)
- 方向导(沿方向向量)
- 1.3.5 梯度 gradient
- 梯度下降法(方向导与极值)
高数(积分部分)
1.1 函数
表示量与量之间的关系: A = π r 2 A=\pi r^2 A=πr2
一组输入输出关系:一组输入唯一对应一组输出
y = f ( x ) { x : 自变量 y 0 = y ∣ x = x 0 = f ( x 0 ) y=f(x)\left\{ \begin{aligned} &x:自变量\\ &y_0=y\vert_{x=x_0}=f(x_0) \end{aligned} \right. y=f(x){x:自变量y0=y∣x=x0=f(x0)
1.1.1 函数分类
输入是否与时间有关
- 是:动态函数
- 否:静态函数
输入是否为标量
- 是:一元函数
- 否:多元函数
1.1.2 常见函数
指/对数函数
f ( x ) = e x f(x)=e^x f(x)=ex
f ( x ) = l o g ( x ) f(x)=log(x) f(x)=log(x)
分段函数
f ( x ) = { x , x ≥ 0 − x , x < 0 f(x)=\left\{ \begin{aligned} &\sqrt{x}&,x\ge0\\ &-\sqrt{x}&,x<0 \end{aligned} \right. f(x)={x−x,x≥0,x<0
原函数&反函数
原函数 h = h ( t ) h=h(t) h=h(t) : h = 1 2 g t 2 h=\frac{1}{2}gt^2 h=21gt2
反函数 t = t ( h ) t=t(h) t=t(h) : t = 2 h g / t = − 2 h g ( 需要附加条件,才能确定具体反函数 ) t=\sqrt{\frac{2h}{g}}\quad/\quad t=-\sqrt{\frac{2h}{g}}(需要附加条件,才能确定具体反函数) t=g2h/t=−g2h(需要附加条件,才能确定具体反函数)
sigmod函数
s ( x ) = 1 1 + e − x = e x e x + 1 , x ∈ ( − ∞ , + ∞ ) , y ∈ ( 0 , 1 ) s(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1},x\in (-\infty,+\infty),y\in (0,1) s(x)=1+e−x1=ex+1ex,x∈(−∞,+∞),y∈(0,1)
Relu函数(非负函数)
f ( x ) = x + = m a x { 0 , x } f(x)=x^+=max\{0,x\} f(x)=x+=max{0,x}
- 无梯度消失问题
复合函数
( g ∘ f ) ( x ) (g\circ f)(x) (g∘f)(x) 表示 g ( f ( x ) ) g(f(x)) g(f(x)) ——通道
向量到张量
a ⃗ = ( σ 1 σ 2 σ 3 ) , b ⃗ = ( σ 1 ′ , σ 2 ′ , σ 3 ′ ) \vec{a}=\left(\begin{aligned}\sigma_1\\\sigma_2\\\sigma_3\end{aligned}\right),\vec{b}=\left(\sigma_1',\sigma_2',\sigma_3'\right) a= σ1σ2σ3 ,b=(σ1′,σ2′,σ3′)
张量:
σ = a ⃗ ⊗ b ⃗ = ( σ 1 1 ′ σ 1 2 ′ σ 1 3 ′ σ 2 1 ′ σ 2 2 ′ σ 2 3 ′ σ 3 1 ′ σ 3 2 ′ σ 3 3 ′ ) \sigma=\vec{a}\otimes \vec{b}=\left( \begin{matrix} \sigma_{11'}&\sigma_{12'}&\sigma_{13'}\\ \sigma_{21'}&\sigma_{22'}&\sigma_{23'}\\ \sigma_{31'}&\sigma_{32'}&\sigma_{33'} \end{matrix} \right) σ=a⊗b= σ11′σ21′σ31′σ12′σ22′σ32′σ13′σ23′σ33′
1.1.3 性质
奇偶性
- 关于y轴对称, f ( x ) = f ( − x ) f(x)=f(-x) f(x)=f(−x) ,偶函数
- 关于原点对称, f ( − x ) = − f ( x ) f(-x)=-f(x) f(−x)=−f(x),奇函数
周期性
f ( x + T ) = f ( x ) f(x+T)=f(x) f(x+T)=f(x)
单调性
1.2 极限
1.2.1 数列极限
a n a_n an 同项
-
等差数列: a n = a 1 + ( n − 1 ) q a_n=a_1+(n-1)q an=a1+(n−1)q , S n = n a 1 + n ( n − 1 ) q 2 S_n=na_1+\frac{n(n-1)q}{2} Sn=na1+2n(n−1)q
-
等比数列: a n = a 1 q a_n=a_1q an=a1q , S n = a 1 − a n q 1 − q = a 1 ( 1 − q n ) 1 − q S_n=\frac{a_1-a_nq}{1-q}=\frac{a_1(1-q^n)}{1-q} Sn=1−qa1−anq=1−qa1(1−qn)
当
数列的收敛表示为:
lim n → ∞ a n = A 或 a n → A ( n → ∞ ) \lim_{n\rightarrow \infty} a_{n}=A 或 a_n \rightarrow A(n \rightarrow \infty) n→∞liman=A或an→A(n→∞)
eg:
lim n → ∞ 1 3 n = 0 \lim_{n\rightarrow \infty} \frac{1}{3^n}=0 limn→∞3n1=0 , lim n → ∞ = n n + 1 = 1 \lim_{n\rightarrow \infty}=\frac{n}{n+1}=1 limn→∞=n+1n=1
lim n → ∞ 2 n = ∞ \lim_{n\rightarrow \infty}2^n=\infty limn→∞2n=∞ 发散
1.2.2 函数极限
lim x → + ∞ e − x = 0 \lim_{x\rightarrow +\infty}e^{-x}=0 limx→+∞e−x=0
lim x → + ∞ 1 x = 0 \lim_{x\rightarrow +\infty}\frac{1}{x}=0 limx→+∞x1=0
lim x → + ∞ a r c t a n x = π 2 \lim_{x\rightarrow +\infty}arctanx=\frac{\pi}{2} limx→+∞arctanx=2π
极限定义
左右极限
函数在左半邻域 ( x 0 − σ , x 0 ) (x_0-\sigma,x_0) (x0−σ,x0),右半邻域 ( x 0 , x 0 + σ ) (x_0,x_0+\sigma) (x0,x0+σ) 有定义
左极限: lim x → x 0 − f ( x ) = A \lim_{x\rightarrow x_0^-}f(x)=A limx→x0−f(x)=A / f ( x ) → A ( x → x 0 − ) f(x)\rightarrow A(x\rightarrow x_0^-) f(x)→A(x→x0−) / f ( x − x 0 ) = A f(x-x_0)=A f(x−x0)=A
右极限: lim x → x 0 + f ( x ) = A \lim_{x\rightarrow x_0^+}f(x)=A limx→x0+f(x)=A / f ( x ) → A ( x → x 0 + ) f(x)\rightarrow A(x\rightarrow x_0^+) f(x)→A(x→x0+) / f ( x + x 0 ) = A f(x+x_0)=A f(x+x0)=A
极限
函数在 x 0 x_0 x0 的邻域内有定义,且左极限=右极限 lim x → x 0 f ( x ) = A \lim_{x\rightarrow x_0}f(x)=A limx→x0f(x)=A 或 f ( x ) → A ( x → x 0 ) f(x)\rightarrow A(x\rightarrow x_0) f(x)→A(x→x0)
充要条件: lim x → x 0 − f ( x ) = lim x → x 0 + f ( x ) = A \lim_{x\rightarrow x_0^-}f(x)=\lim_{x\rightarrow x_0^+}f(x)=A limx→x0−f(x)=limx→x0+f(x)=A
eg:
f ( x ) = { x − 1 , x < 0 0 , x = 0 x + 1 , x > 0 f(x)=\left\{ \begin{aligned} &x-1&,x<0\\ &0&,x=0\\ &x+1&,x>0 \end{aligned} \right. f(x)=⎩ ⎨ ⎧x−10x+1,x<0,x=0,x>0
由于 lim x → 0 − f ( x ) = − 1 ≠ lim x → 0 + f ( x ) = 1 \lim_{x\rightarrow 0^-}f(x)=-1\neq \lim_{x\rightarrow 0^+}f(x)=1 limx→0−f(x)=−1=limx→0+f(x)=1 ,故 lim x → 0 f ( x ) \lim_{x\rightarrow 0}f(x) limx→0f(x) 不存在
1.2.3 无穷大
表示无限增大,没有上界(收敛点)
无穷大与无穷小关系:在x的同一变换过程中, f ( x ) = ∞ ⇒ 1 f ( x ) = 0 f(x)=\infty\Rightarrow \frac{1}{f(x)}=0 f(x)=∞⇒f(x)1=0
1.2.4 无穷小
以零为极限( x → a x\rightarrow a x→a 时, lim x → a f ( x ) = 0 \lim_{x\rightarrow a}f(x)=0 limx→af(x)=0)
性质 :
-
有限个无穷小的和、积是无穷小
无穷小个无穷小未必是无穷小
- lim n → ∞ 1 n 2 + 2 n 2 + ⋯ + n n 2 = lim n → ∞ n ( n + 1 ) 2 n 2 = 1 2 \lim_{n\rightarrow \infty}\frac{1}{n^2}+\frac{2}{n^2}+\cdots+\frac{n}{n^2}=\lim_{n\rightarrow \infty}\frac{\frac{n(n+1)}{2}}{n^2}=\frac{1}{2} limn→∞n21+n22+⋯+n2n=limn→∞n22n(n+1)=21
-
有界变量x无穷小 ⟺ \iff ⟺ 无穷小
-
无穷小的商未必无穷小
lim x → 0 x 2 x = 1 2 \lim_{x\rightarrow 0}\frac{x}{2x}=\frac{1}{2} limx→02xx=21 , lim x → 0 2 x x 2 = ∞ \lim_{x\rightarrow 0}\frac{2x}{x^2}=\infty limx→0x22x=∞
-
极限有无穷小的充要条件: lim x → x 0 f ( x ) = A ⟺ A + α ( x ) \lim_{x\rightarrow x_0}f(x)=A\iff A+\alpha(x) limx→x0f(x)=A⟺A+α(x) , α ( x ) \alpha(x) α(x) 为 x → x 0 x\rightarrow x_0 x→x0 时的无穷小
无穷小比较
α ( x ) , β ( x ) \alpha(x),\beta(x) α(x),β(x) 为无穷小
- lim x → x 0 β ( x ) α ( x ) = 0 , β ( x ) 为 α ( x ) 的高阶无穷小 \lim_{x\rightarrow x_0}\frac{\beta(x)}{\alpha(x)}=0,\beta(x)为\alpha(x)的高阶无穷小 limx→x0α(x)β(x)=0,β(x)为α(x)的高阶无穷小
- lim x → x 0 β ( x ) α ( x ) = ∞ , β ( x ) 为 α ( x ) 的低阶无穷小 \lim_{x\rightarrow x_0}\frac{\beta(x)}{\alpha(x)}=\infty,\beta(x)为\alpha(x)的低阶无穷小 limx→x0α(x)β(x)=∞,β(x)为α(x)的低阶无穷小
- lim x → x 0 β ( x ) α ( x ) = C ≠ 0 , β ( x ) 与 α ( x ) 为同阶无穷小 \lim_{x\rightarrow x_0} \frac{\beta(x)}{\alpha(x)}=C\neq 0,\beta(x)与\alpha(x)为同阶无穷小 limx→x0α(x)β(x)=C=0,β(x)与α(x)为同阶无穷小
1.2.5 连续性
设 f ( x ) f(x) f(x) 在x的邻域内有定义,当 Δ x → 0 \Delta x\rightarrow0 Δx→0 ,有 Δ y → 0 \Delta y\rightarrow 0 Δy→0,则 f ( x ) f(x) f(x) 在 x 0 x_0 x0 处连续, lim Δ x → 0 Δ y = lim Δ x → 0 ( f ( x + Δ x ) − f ( x ) ) = 0 \lim_{\Delta x\rightarrow 0}\Delta y=\lim_{\Delta x\rightarrow0}(f(x+\Delta x)-f(x))=0 limΔx→0Δy=limΔx→0(f(x+Δx)−f(x))=0
函数 f ( x ) f(x) f(x) 在 x 0 x_0 x0 处连续,三个条件都满足 :
- 在 x 0 x_0 x0 处有定义
- lim x → x 0 f ( x ) \lim_{x\rightarrow x_0}f(x) limx→x0f(x) 存在
- lim x → x 0 f ( x ) = f ( x 0 ) \lim_{x\rightarrow x_0}f(x)=f(x_0) limx→x0f(x)=f(x0) 极限=函数值
1.2.6 间断点
f ( x ) f(x) f(x) 在 x = x 0 x=x_0 x=x0 处不连续,则 x 0 x_0 x0 处为 f ( x ) f(x) f(x) 的间断点,以下条件满足一个即为间断点
- f ( x ) f(x) f(x) 在 x 0 x_0 x0 处无定义
- lim x → x 0 f ( x ) \lim_{x\rightarrow x_0}f(x) limx→x0f(x) 不存在
- lim x → x 0 f ( x ) ≠ f ( x 0 ) \lim_{x\rightarrow x_0}f(x)\neq f(x_0) limx→x0f(x)=f(x0)
分类
第一类间断点: x → x 0 x\rightarrow x_0 x→x0 时, f ( x ) f(x) f(x) 左右极限都存在
- 跳跃间断点: f ( x 0 − 0 ) f(x_0-0) f(x0−0) 与 f ( x 0 + 0 ) f(x_0+0) f(x0+0) 都存在但不相同
- 可去间断点: lim x → x 0 f ( x ) \lim_{x\rightarrow x_0}f(x) limx→x0f(x) 存在但 ≠ f ( x 0 ) \neq f(x_0) =f(x0)
第二类间断点:至少一侧极限不存在
eg:
f ( x ) = x 2 − 1 x 2 − 3 x + 2 f(x)=\frac{x^2-1}{x^2-3x+2} f(x)=x2−3x+2x2−1 ,在 x = 1 , 2 x=1,2 x=1,2 处无定义,故不连续
lim x → 1 + f ( x ) = lim x → 1 + x + 1 x − 2 = − 2 \lim_{x\rightarrow 1^+}f(x)=\lim_{x\rightarrow 1^+}\frac{x+1}{x-2}=-2 limx→1+f(x)=limx→1+x−2x+1=−2 , lim x → 1 − f ( x ) = lim x → 1 − x + 1 x − 2 = − 2 \lim_{x\rightarrow 1^-}f(x)=\lim_{x\rightarrow 1^-}\frac{x+1}{x-2}=-2 limx→1−f(x)=limx→1−x−2x+1=−2 ,所以 x = 1 x=1 x=1 为可去间断点
lim x → 2 − f ( x ) = lim x → 2 − x + 1 x − 2 = − ∞ \lim_{x\rightarrow 2^-}f(x)=\lim_{x\rightarrow 2^-}\frac{x+1}{x-2}=-\infty limx→2−f(x)=limx→2−x−2x+1=−∞ , lim x → 2 + f ( x ) = lim x → 2 + x + 1 x − 2 = + ∞ \lim_{x\rightarrow 2^+}f(x)=\lim_{x\rightarrow 2^+}\frac{x+1}{x-2}=+\infty limx→2+f(x)=limx→2+x−2x+1=+∞ ,所以 x = 2 x=2 x=2 为第二类间断点
1.3 导数
表示平均变化率的极限 , lim Δ x → 0 Δ y Δ x = lim Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x \lim_{\Delta x\rightarrow 0}\frac{\Delta y}{\Delta x}=\lim_{\Delta x\rightarrow 0}\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x} limΔx→0ΔxΔy=limΔx→0Δxf(x0+Δx)−f(x0) ,记为 f ′ ( x ) f'(x) f′(x)
1.3.1 运算律
( u ± v ) ′ = u ′ ± v ′ (u\pm v)'=u'\pm v' (u±v)′=u′±v′
( u v ) ′ = u ′ v − u v ′ v 2 ( v ≠ 0 ) (\frac{u}{v})'=\frac{u'v-uv'}{v^2}(v\neq 0) (vu)′=v2u′v−uv′(v=0)
( u v ) ′ = u ′ v + u v ′ (uv)'=u'v+uv' (uv)′=u′v+uv′
( c u ) ′ = c u ′ (cu)'=cu' (cu)′=cu′
( c v ) ′ = − c v ′ v 2 (\frac{c}{v})'=-\frac{cv'}{v^2} (vc)′=−v2cv′
1.3.2 导数的几何意义
lim Δ x → 0 Δ y Δ x \lim_{\Delta x\rightarrow 0}\frac{\Delta y}{\Delta x} limΔx→0ΔxΔy
1.3.3 可微
y = f ( x ) y=f(x) y=f(x) 在 x 0 x_0 x0 的某邻域内有定义, x + Δ x ∈ ( x 0 − σ , x 0 + σ ) x+\Delta x\in (x_0-\sigma,x_0+\sigma) x+Δx∈(x0−σ,x0+σ) ,若 Δ y = f ( x 0 + Δ x ) − f ( x 0 ) \Delta y=f(x_0+\Delta x)-f(x_0) Δy=f(x0+Δx)−f(x0) 可表示为 Δ y = A Δ x + o ( x ) \Delta y=A\Delta x+o(x) Δy=AΔx+o(x) ,则称 y = f ( x ) y=f(x) y=f(x) 在 x 0 x_0 x0 处可微,记为 d y = A Δ x dy=A\Delta x dy=AΔx
几何意义:
- dy:切线上纵坐标的增量
若 y = f ( x ) y=f(x) y=f(x) 可微,则有 Δ y − d y = o ( Δ x ) \Delta y-dy=o(\Delta x) Δy−dy=o(Δx)
1.3.4 二元函数的导数
一元函数的导数: y = f ( x ) y=f(x) y=f(x) , y ′ ( x ) = f ′ ( x ) y'(x)=f'(x) y′(x)=f′(x) ,只随一个变量x变化
二元函数导数: z = f ( x , y ) z=f(x,y) z=f(x,y) , z = { 随 x 变 随 y 变 随 x , y 变 z=\left\{\begin{aligned}&随x变\\&随y变\\&随x,y变\end{aligned}\right. z=⎩ ⎨ ⎧随x变随y变随x,y变
偏导(随一个变量变)
z = f ( x , y ) z=f(x,y) z=f(x,y) 在 ( x 0 , y 0 ) (x_0,y_0) (x0,y0) 的某个邻域内有定义, y = y 0 y=y_0 y=y0 时, f ( x , y 0 ) f(x,y_0) f(x,y0) 在 x = x 0 x=x_0 x=x0 处可导,即 lim Δ x → x 0 f ( x 0 + Δ x , y 0 ) − f ( x 0 , y 0 ) Δ x = A \lim_{\Delta x\rightarrow x_0}\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}=A limΔx→x0Δxf(x0+Δx,y0)−f(x0,y0)=A ,则 z = f ( x , y ) z=f(x,y) z=f(x,y) 在 ( x 0 , y 0 ) (x_0,y_0) (x0,y0) 处关于 x x x 的偏导为 A A A 。记为 f x ( x 0 , y 0 ) f_x(x_0,y_0) fx(x0,y0) , ∂ z ∂ x ∣ y = y 0 , x = x 0 \frac{\partial z}{\partial x}\vert_{y=y_0,x=x_0} ∂x∂z∣y=y0,x=x0
∂ u ∂ x ∣ x = x 0 \frac{\partial u}{\partial x}\vert_{x=x_0} ∂x∂u∣x=x0几何意义
曲线 Γ : { z = f ( x , y ) x = x 0 \Gamma:\left\{\begin{aligned}&z=f(x,y)\\&x=x_0\end{aligned}\right. Γ:{z=f(x,y)x=x0 在 x = x 0 x=x_0 x=x0 处的切线:
- Γ \Gamma Γ :平面 Π \Pi Π( x = x 0 x=x_0 x=x0)与 z = f ( x , y ) z=f(x,y) z=f(x,y) 交线为 Γ \Gamma Γ
随 y y y 的不同取值,斜率有不同取值
eg
f ( x , y ) = x 2 + 3 x y + y 2 f(x,y)=x^2+3xy+y^2 f(x,y)=x2+3xy+y2 ,在 ( 1 , 2 ) (1,2) (1,2) 处偏导, f x = 2 x + 3 y f_x=2x+3y fx=2x+3y , f y = 3 x + 2 y f_y=3x+2y fy=3x+2y , f x ( 1 , 2 ) = 8 f_x(1,2)=8 fx(1,2)=8
y ( x ) ∣ y = 2 = f ( x , 2 ) = x 2 + 6 x + 2 , y ′ ( x ) = 2 x + 6 , y ′ ( 1 ) = 8 y(x)\vert_{y=2}=f(x,2)=x^2+6x+2,y'(x)=2x+6,y'(1)=8 y(x)∣y=2=f(x,2)=x2+6x+2,y′(x)=2x+6,y′(1)=8
方向导(沿方向向量)
方向
u = f ( x , y , z ) u=f(x,y,z) u=f(x,y,z) 在 D ∈ R 3 D\in R^3 D∈R3 内有定义, R 3 R^3 R3 内有一个确定点 P 0 ( x 0 , y 0 , z 0 ) P_0(x_0,y_0,z_0) P0(x0,y0,z0) 和一个动点 P ( x , y , z ) P(x,y,z) P(x,y,z) 确定方向向量 l ⃗ = ( a , b , c ) ⇒ 单位化 l 0 ⃗ = ( a a 2 + b 2 + c 2 , b a 2 + b 2 + c 2 , c a 2 + b 2 + c 2 ) = ( c o s α , c o s β , c o s γ ) \vec{l}=(a,b,c)\xRightarrow{单位化}\vec{l^0}=\left(\frac{a}{\sqrt{a^2+b^2+c^2}},\frac{b}{\sqrt{a^2+b^2+c^2}},\frac{c}{\sqrt{a^2+b^2+c^2}}\right)=(cos\alpha,cos\beta,cos\gamma) l=(a,b,c)单位化l0=(a2+b2+c2a,a2+b2+c2b,a2+b2+c2c)=(cosα,cosβ,cosγ)
方向向量 l ⃗ = P 0 P ⃗ = ( x − x 0 , y − y 0 , z − z 0 ) \vec{l}=\vec{P_0P}=(x-x_0,y-y_0,z-z_0) l=P0P=(x−x0,y−y0,z−z0) ,模长 ∣ l ⃗ ∣ = ∣ P 0 P ∣ = Δ x 2 , Δ y 2 , Δ z 2 = t \vert \vec{l}\vert=\vert P_0P\vert=\sqrt{\Delta x^2,\Delta y^2,\Delta z^2}=t ∣l∣=∣P0P∣=Δx2,Δy2,Δz2=t
方向余弦
{ c o s α = Δ x t = x − x 0 ( x − x 0 ) 2 + ( y − y 0 ) 2 + ( z − z 0 ) 2 c o s β = Δ y t = y − y 0 ( x − x 0 ) 2 + ( y − y 0 ) 2 + ( z − z 0 ) 2 c o s γ = Δ z t = z − z 0 ( x − x 0 ) 2 + ( y − y 0 ) 2 + ( z − z 0 ) 2 \left\{ \begin{aligned} &cos\alpha=\frac{\Delta x}{t}=\frac{x-x_0}{\sqrt{(x-x_0)^2+(y-y_0)^2+(z-z_0)^2}}\\ &cos\beta=\frac{\Delta y}{t}=\frac{y-y_0}{\sqrt{(x-x_0)^2+(y-y_0)^2+(z-z_0)^2}}\\ &cos\gamma=\frac{\Delta z}{t}=\frac{z-z_0}{\sqrt{(x-x_0)^2+(y-y_0)^2+(z-z_0)^2}} \end{aligned} \right. ⎩ ⎨ ⎧cosα=tΔx=(x−x0)2+(y−y0)2+(z−z0)2x−x0cosβ=tΔy=(x−x0)2+(y−y0)2+(z−z0)2y−y0cosγ=tΔz=(x−x0)2+(y−y0)2+(z−z0)2z−z0
方向导
lim Δ 自变量 → 0 = Δ 因变量 Δ 自变量 \lim_{\Delta 自变量\rightarrow 0}=\frac{\Delta 因变量}{\Delta 自变量} limΔ自变量→0=Δ自变量Δ因变量
若 lim Δ l → 0 f ( x 0 + Δ l c o s α , y 0 + Δ l c o s β , z 0 + Δ l c o s γ ) − f ( x 0 , y 0 , z 0 ) Δ l \lim_{\Delta l\rightarrow 0}\frac{f(x_0+\Delta lcos\alpha,y_0+\Delta lcos\beta,z_0+\Delta lcos\gamma)-f(x_0,y_0,z_0)}{\Delta l} limΔl→0Δlf(x0+Δlcosα,y0+Δlcosβ,z0+Δlcosγ)−f(x0,y0,z0) 存在,则称其为 u = f ( x , y , z ) u=f(x,y,z) u=f(x,y,z) 在 P ( x 0 , y 0 , z 0 ) P(x_0,y_0,z_0) P(x0,y0,z0) 沿 e l ⃗ \vec{e_l} el 方向的方向导数,记为 ∂ u ∂ l ∣ P 0 \frac{\partial u}{\partial l}\vert_{P_0} ∂l∂u∣P0 , ∂ f ∂ l ∣ P 0 \frac{\partial f}{\partial l}\vert_{P_0} ∂l∂f∣P0
方向导几何意义
曲线 Γ \Gamma Γ 在 P ( x 0 , y 0 ) P(x_0,y_0) P(x0,y0) 处切线
-
Γ \Gamma Γ :过方向向量 e l ⃗ = ( x − x 0 ( x − x 0 ) 2 + ( y − y 0 ) 2 , y − y 0 ( x − x 0 ) 2 + ( y − y 0 ) 2 ) \vec{e_l}=\left(\frac{x-x_0}{\sqrt{(x-x_0)^2+(y-y_0)^2}},\frac{y-y_0}{\sqrt{(x-x_0)^2+(y-y_0)^2}}\right) el=((x−x0)2+(y−y0)2x−x0,(x−x0)2+(y−y0)2y−y0) 做 x o y xoy xoy 面的垂面 Π \Pi Π 与 u = f ( x , y , z ) u=f(x,y,z) u=f(x,y,z) 有交线 Γ \Gamma Γ
P ( x , y ) P(x,y) P(x,y) 沿 e l ⃗ \vec{e_l} el 变化,对应不同的坐标点 P,方向导为 z = f ( x , y ) z=f(x,y) z=f(x,y) 在 P 0 P_0 P0 点切线
特殊方向导
沿 x x x 轴方向 e l ⃗ = ( 1 , 0 ) \vec{e_l}=(1,0) el=(1,0) , ∂ f ∂ l = lim Δ l → 0 f ( x 0 + Δ x , y 0 ) − f ( x 0 , y 0 ) Δ x 2 = f x ( x 0 , y 0 ) \frac{\partial f}{\partial l}=\lim_{\Delta l\rightarrow 0}\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\sqrt{\Delta x^2}}=f_x(x_0,y_0) ∂l∂f=limΔl→0Δx2f(x0+Δx,y0)−f(x0,y0)=fx(x0,y0)
沿 y y y 轴方向 e l ⃗ = ( 0 , 1 ) \vec{e_l}=(0,1) el=(0,1) , ∂ f ∂ l = lim Δ l → 0 f ( x 0 , y 0 + Δ y ) − f ( x 0 , y 0 ) Δ y 2 = f y ( x 0 , y 0 ) \frac{\partial f}{\partial l}=\lim_{\Delta l\rightarrow 0}\frac{f(x_0,y_0+\Delta y)-f(x_0,y_0)}{\sqrt{\Delta y^2}}=f_y(x_0,y_0) ∂l∂f=limΔl→0Δy2f(x0,y0+Δy)−f(x0,y0)=fy(x0,y0)
方向导计算
若 u = f ( x , y ) u=f(x,y) u=f(x,y) 在 P 0 ( x 0 , y 0 ) P_0(x_0,y_0) P0(x0,y0) 处可微,则 f f f 在 P 0 P_0 P0 处沿任一方向导都存在,且有
∂ f ∂ l = ∂ u ∂ x c o s α + ∂ u ∂ y c o s β = ( ∂ u ∂ x , ∂ u ∂ y ) ⋅ ( c o s α c o s β ) = ( g r a d u ) ⋅ e l ⃗ = ▽ f ⋅ e l ⃗ = ∣ ▽ f ∣ ⋅ ∣ e l ⃗ ∣ ⋅ c o s θ \begin{aligned} \frac{\partial f}{\partial l}&=\frac{\partial u}{\partial x}cos\alpha+\frac{\partial u}{\partial y}cos\beta\\ &=\left(\frac{\partial u}{\partial x},\frac{\partial u}{\partial y}\right)\cdot\left(\begin{aligned}cos\alpha\\cos\beta\end{aligned}\right)\\ &=(grad\quad u)\cdot\vec{e_l}=\bigtriangledown f\cdot\vec{e_l}=\vert \bigtriangledown f\vert\cdot\vert \vec{e_l}\vert\cdot cos\theta \end{aligned} ∂l∂f=∂x∂ucosα+∂y∂ucosβ=(∂x∂u,∂y∂u)⋅(cosαcosβ)=(gradu)⋅el=▽f⋅el=∣▽f∣⋅∣el∣⋅cosθ
eg:
求 z = x e 2 y z=xe^{2y} z=xe2y 在 P ( 1 , 0 ) P(1,0) P(1,0) 处沿 P ( 1 , 0 ) P(1,0) P(1,0) 到 Q ( 2 , − 1 ) Q(2,-1) Q(2,−1) 方向的方向导
l ⃗ = P Q → = ( 1 , − 1 ) \vec{l}=\overrightarrow{PQ}=(1,-1) l=PQ=(1,−1) ,方向向量 e l ⃗ = ( 2 2 , − 2 2 ) \vec{e_l}=\left(\frac{\sqrt{2}}{2},-\frac{\sqrt{2}}{2}\right) el=(22,−22) ,方向余弦 c o s α = 2 2 , c o s β = − 2 2 cos\alpha=\frac{\sqrt{2}}{2},cos\beta=-\frac{\sqrt{2}}{2} cosα=22,cosβ=−22
∂ z ∂ l = ∂ z ∂ x c o s α + ∂ z ∂ y c o s β = 2 2 ∂ z ∂ x − 2 2 ∂ z ∂ y = 2 2 e 2 y − 2 2 2 x e 2 y = 2 2 e 2 y ( 1 − 2 x ) \frac{\partial z}{\partial l}=\frac{\partial z}{\partial x}cos\alpha+\frac{\partial z}{\partial y}cos\beta=\frac{\sqrt{2}}{2}\frac{\partial z}{\partial x}-\frac{\sqrt{2}}{2}\frac{\partial z}{\partial y}=\frac{\sqrt{2}}{2}e^{2y}-\frac{\sqrt{2}}{2}2xe^{2y}=\frac{\sqrt{2}}{2}e^{2y}(1-2x) ∂l∂z=∂x∂zcosα+∂y∂zcosβ=22∂x∂z−22∂y∂z=22e2y−222xe2y=22e2y(1−2x)
在 P ( 1 , 0 ) P(1,0) P(1,0) 的方向导为 ∂ z ∂ l ∣ ( 1 , 0 ) = − 2 2 \frac{\partial z}{\partial l}\vert_{(1,0)}=-\frac{\sqrt{2}}{2} ∂l∂z∣(1,0)=−22
1.3.5 梯度 gradient
使方向导数最大的方向向量:
{ 方向: g r a d f ∣ P 0 = { f x ′ ( x 0 , y 0 ) , f y ′ ( x 0 , y 0 ) } = ▽ f ∣ P 0 大小: ∣ g r a d f ∣ P 0 ∣ = ∣ ▽ f ∣ P 0 ∣ = [ f x ′ ( x 0 , y 0 ) ] 2 + [ f y ′ ( x 0 , y 0 ) ] 2 \left\{ \begin{aligned} &方向:grad\quad f\vert_{P_0}=\{f_{x}'(x_0,y_0),f_y'(x_0,y_0)\}=\bigtriangledown f\vert_{P_0}\\ &大小:\vert grad\quad f\vert_{P_0}\vert=\vert \bigtriangledown f\vert_{P_0}\vert=\sqrt{[f_x'(x_0,y_0)]^2+[f_y'(x_0,y_0)]^2} \end{aligned} \right. ⎩ ⎨ ⎧方向:gradf∣P0={fx′(x0,y0),fy′(x0,y0)}=▽f∣P0大小:∣gradf∣P0∣=∣▽f∣P0∣=[fx′(x0,y0)]2+[fy′(x0,y0)]2
- z = f ( x , y ) z=f(x,y) z=f(x,y) 沿梯度方向递增(假设方向向量的起点为原点)
方向导:
∂ f ∂ l = ∂ u ∂ x c o s α + ∂ u ∂ y c o s β = ( ∂ u ∂ x , ∂ u ∂ y ) ( c o s α , c o s β ) = ( g r a d u ) e l ⃗ = ▽ f ⋅ e l ⃗ = ∣ ▽ f ∣ ⋅ ∣ e l ⃗ ∣ ⋅ c o s θ \begin{aligned} \frac{\partial f}{\partial l}&=\frac{\partial u}{\partial x}cos\alpha+\frac{\partial u}{\partial y}cos\beta\\ &=\left(\frac{\partial u}{\partial x},\frac{\partial u}{\partial y}\right)\left(cos\alpha,cos\beta\right)\\ &=(grad\quad u)\vec{e_l}=\bigtriangledown f\cdot\vec{e_l}=\vert \bigtriangledown f\vert\cdot\vert \vec{e_l}\vert\cdot cos\theta \end{aligned} ∂l∂f=∂x∂ucosα+∂y∂ucosβ=(∂x∂u,∂y∂u)(cosα,cosβ)=(gradu)el=▽f⋅el=∣▽f∣⋅∣el∣⋅cosθ
当 θ = 0 \theta=0 θ=0 时,有 ∂ z ∂ l ∣ m a x = ∣ ▽ f ∣ \frac{\partial z}{\partial l}\vert_{max}=\vert \bigtriangledown f\vert ∂l∂z∣max=∣▽f∣
-
某一方向上的方向到为 Γ \Gamma Γ 的切线
-
某一点沿着不同方向有不同的方向导,方向导最大的方向为梯度方向 ▽ f = Δ ( f x ′ , f y ′ ) \bigtriangledown f\overset{\Delta}{=}(f_x',f_y') ▽f=Δ(fx′,fy′) ,且为 ∣ ▽ f ∣ = ( f x ′ ) 2 + ( f y ′ ) 2 \vert \bigtriangledown f\vert=\sqrt{(f_x')^2+(f_y')^2} ∣▽f∣=(fx′)2+(fy′)2
-
梯度方向与 f f f 等值线垂直
如: z = x 2 + y 2 z=x^2+y^2 z=x2+y2
梯度下降法(方向导与极值)
找极小值:
-
方向: 梯度反方向 ( − ▽ f ) 梯度反方向(-\bigtriangledown f) 梯度反方向(−▽f)
-
大小
-
终止条件: ∣ ▽ f ∣ ≤ ϵ , 梯度随 z 下降,在最低点 ∣ ▽ f ∣ ≈ 0 \vert \bigtriangledown f\vert\le \epsilon,梯度随z下降,在最低点 \vert \bigtriangledown f\vert\approx 0 ∣▽f∣≤ϵ,梯度随z下降,在最低点∣▽f∣≈0
- z = f ( x , y ) z=f(x,y) z=f(x,y) 沿梯度方向递增,沿梯度反方向递减
已知导数为沿曲线 Γ \Gamma Γ 运动的点的切线
- 方向向量:运动方向
- 方向向量 e l ⃗ \vec{e_l} el 上的点: Γ \Gamma Γ 上的点
根据可微, − ▽ f = Δ f e l ⃗ ⟺ z 1 − z 0 e l ⃗ = − ▽ f ⇒ z 1 − z 0 = − ▽ f ⋅ e l ⃗ = − ▽ f ⇒ z 1 − z 0 = − ▽ f -\bigtriangledown f=\frac{\Delta f}{\vec{e_l}}\iff \frac{z_1-z_0}{\vec{e_l}}=-\bigtriangledown f\Rightarrow z_1-z_0=-\bigtriangledown f\cdot \vec{e_l}=-\bigtriangledown f\Rightarrow z_1-z_0=-\bigtriangledown f −▽f=elΔf⟺elz1−z0=−▽f⇒z1−z0=−▽f⋅el=−▽f⇒z1−z0=−▽f
eg:
假设 z = f ( x , y ) = x 2 + y 2 z=f(x,y)=x^2+y^2 z=f(x,y)=x2+y2 , z 0 = f ( 1 , 2 ) z_0=f(1,2) z0=f(1,2) 梯度 ▽ f = ( ∂ z ∂ x , ∂ z ∂ y ) = ( 2 x , 2 y ) \bigtriangledown f=\left(\frac{\partial z}{\partial x},\frac{\partial z}{\partial y}\right)=(2x,2y) ▽f=(∂x∂z,∂y∂z)=(2x,2y)
z 1 = z 0 − ▽ f ∣ ( 1 , 2 ) = f ( 1 , 2 ) − f ( 2 , 4 ) = f ( − 1 , − 2 ) z_1=z_0-\bigtriangledown f\vert_{(1,2)}=f(1,2)-f(2,4)=f(-1,-2) z1=z0−▽f∣(1,2)=f(1,2)−f(2,4)=f(−1,−2)
z 2 = z 1 − ▽ f ∣ ( − 1 , − 2 ) = f ( − 1 , − 2 ) − f ( − 2 , − 4 ) = f ( 1 , 2 ) z_2=z_1-\bigtriangledown f\vert_{(-1,-2)}=f(-1,-2)-f(-2,-4)=f(1,2) z2=z1−▽f∣(−1,−2)=f(−1,−2)−f(−2,−4)=f(1,2)
…
会进入循环,所以需要引入学习率 η \eta η 来控制步长,即 z = z ′ − η ▽ f z=z'-\eta \bigtriangledown f z=z′−η▽f
η > 1 \eta > 1 η>1 , z z z 上升
η = 1 \eta = 1 η=1 , z z z 振荡
η < 1 \eta < 1 η<1 , z z z 下降。且 η \eta η 越大,下降速度越快
-
η = 0.02 \eta = 0.02 η=0.02
-
η = 0.2 \eta = 0.2 η=0.2
eg:
有 u = f ( x , y ) = x 2 + 2 y 2 u=f(x,y)=x^2+2y^2 u=f(x,y)=x2+2y2 , ( x 0 , y 0 ) = ( − 3.5 , − 3.5 ) , η = 0.1 (x_0,y_0)=(-3.5,-3.5),\eta=0.1 (x0,y0)=(−3.5,−3.5),η=0.1
▽ f = ( 2 x , 4 y ) , z 0 = f ( x 0 , y 0 ) = f ( − 3.5 , − 3.5 ) z 1 = f ( x 1 , y 1 ) = z 0 − η ▽ f = f ( − 3.5 − 3.5 ) − 0.1 f ( − 7 − 14 ) = ( − 2.8 − 2.1 ) z 2 = f ( x 2 , y 2 ) = z 1 − η ▽ f = f ( − 2.8 − 2.1 ) − 0.1 f ( − 5.6 − 8.4 ) = f ( − 2.24 − 1.26 ) ⋮ z k + 1 = f ( x k + 1 , y k + 1 ) = z k − η ▽ f ( x k , y k ) \begin{aligned} &\bigtriangledown f=(2x,4y),z_0=f(x_0,y_0)=f(-3.5,-3.5)\\ &z_1=f(x_1,y_1)=z_0-\eta \bigtriangledown f=f\left(\begin{aligned}-3.5\\-3.5\end{aligned}\right)-0.1f\left(\begin{aligned}-7\\-14\end{aligned}\right)=\left(\begin{aligned}-2.8\\-2.1\end{aligned}\right)\\ &z_2=f(x_2,y_2)=z_1-\eta \bigtriangledown f=f\left(\begin{aligned}-2.8\\-2.1\end{aligned}\right)-0.1f\left(\begin{aligned}-5.6\\-8.4\end{aligned}\right)=f\left( \begin{aligned} -2.24\\ -1.26 \end{aligned} \right)\\ &\vdots\\ &z_{k+1}=f(x_{k+1},y_{k+1})=z_k-\eta \bigtriangledown f(x_k,y_k) \end{aligned} ▽f=(2x,4y),z0=f(x0,y0)=f(−3.5,−3.5)z1=f(x1,y1)=z0−η▽f=f(−3.5−3.5)−0.1f(−7−14)=(−2.8−2.1)z2=f(x2,y2)=z1−η▽f=f(−2.8−2.1)−0.1f(−5.6−8.4)=f(−2.24−1.26)⋮zk+1=f(xk+1,yk+1)=zk−η▽f(xk,yk)