梯度下降法、牛顿法(可见南瓜书) 梯度下降法 深度学习:梯度下降法数学表示式的详细推导 牛顿法 条件熵 在李航老师的书中,第六章最大熵模型这里有个条件熵的定义: 推导如下: 其他一些事实: 来自条件熵-维基百科