ResNet

Deep Residual Learning for Image Recognition

研究动机

如上图所示，单纯的堆叠卷积层有时候并不能取得更好的效果，比如上图中56层的卷积网络比20层的卷积网络在训练集和测试集上的error更多了。

因为梯度消失和梯度爆炸的原因，阻碍了网络的收敛，该问题通过加入了中间层的正则化有所缓解，但是随着网络的深入，导至网络不按照预期进行收敛。并且该问题不是因为网络的过拟合产生的，仅仅堆叠网络层数并不能解决。

作者提出了残差网络，来解决该问题。

网络模型

残差模块

假设网络学习的拟合目标是 $\mathcal{H}(x)$ 。我们改变非线性层转而去拟合一个新的函数： $\mathcal{F}(x) :=\mathcal{H}(x)-x$ 。
原始的映射 $\mathcal{H}(x):=\mathcal{F}(x)+x$ 。相比于原始的映射，这种新的映射更容易去学习。