一个好的模型需要对输入数据的扰动鲁棒
丢弃法:在层之间加入噪音,等同于加入正则
h2和h5变成0了
dropout一般作用在全连接隐藏层的输出上
Q&A
dropout随机置零对求梯度和求反向传播的影响是什么?为0
dropout属于超参数
dropout固定随机种子,dropout n次的影响是一样的
丢弃法是训练中把神经元丢弃后训练,在预测时网络中的神经元没有丢弃
丢弃法是每个batch都丢弃一次
/(1-p)的目的是为了期望保持一致,推理的输出结果不会翻倍
dropout最后平均的做法类似于随机森林多决策投票