deep learningの歴史と定義

wikipediaの"deep learning"の記事をの最初の三項を読んだ

深層の人工ニューラルネットワークは、1980年のNeocognitronなど古くから存在した。

しかし、
1. vanishing gradient problem
2. 上記の理由やそもそものパラメータの多さによる学習の遅さ

などの問題点があり、下火になっていった。

vanishing gradient problemとは、
深層の人工ニューラルネットワークで、誤差逆伝播法で学習させていくとき、
パラメータ更新のための勾配情報が浅い層になるほど値が小さくなってしまう現象のこと。

vanishing gradient problemを克服するために、
誤差逆伝播法で教師あり学習をする前に、(fine-tuning)
少ない層の教師なし学習マシン(制限ボルツマンマシンやオートエンコーダなど)を何層も組み合わせてpre-trainingを行う手法が開発された。
これがdeep learning


以上の歴史を踏まえて、deep learningを定義すると
deep learningとは、
構造として、深層の人工ニューラルネットワークを用い、
学習手法として、教師なし学習のpre-trainingと教師あり学習のfine-tuningを組み合わせた手法をとる
機械学習のこと。


fine-tuningはネットワーク全体で行う場合と、ラべリングするための最終層のみで行う場合とがあり、
後者をとると、実質的にdeep learning教師なし学習となる。
google論文におけるdeep learningは後者をとっている。