Introduction당시 deep neural network는 학습시키기 무척이나 어려웠음why?- problem of vanishing/exploding gradients => normalized initialization과 intermediate normalization layers 으로 어느정도 해결되는 듯함 (이제는 10개가 넘는 layer에서도 SGD+back prop으로 수렴하기 시작)- degradation problem = network의 depth가 증가하다 어느순간 성능이 saturate되다가 다시 확 떨어지기 시작한다 => 기존에는 overfitting이라고 생각하지만!!layer 수를 늘렸는데 testing time 뿐 아니라 training time에서도 error rate가 ..