深層学習、ディープラーニングとは、ディープニューラルネットワーク(DNN:Deep Neural Network)であるモノや͡コトを学習することを意味する。
DNNは一連のニューラルネットワーク(NN:Neural Network)から構成される。
ニューラルネットワークは生物の神経系の構造をヒントにモデル化した計算手法である。
DNNには目的に応じて4種類の方式がある。
その4種類というのは、
入力から出力方向のみに何層にも結合され汎用的に使われる、フィードフォワードニューラルネットワーク(Feedforward Neural Networks)、
ネオコグニトロンから発展した畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)、
構文解析に使われるリカーシブニューラルネットワーク(Recursive Neural Networks)、
時系列データを取り扱うリカレントニューラルネットワーク(Recurrent Neural Network)である。
歩行者認識に限らず、一般的に画像認識で使われるDNNは畳み込みニューラルネットワーク(CNN)である。
これは福島先生が提案されたネオコグニトロンを発展させたものである。
NNは入力層、中間層、出力層の3層で構成される。
この中間層を多層化したものがCNNであり、NNの認識性能を飛躍的に向上させた。
CNNの中間層は畳み込み層とプーリング(pooling)層が何回も繰り返される構造となる。
畳み込み層は、入力マップと重みフィルタの内積をとる処理を行い、一種のフィルターの作用をなす。
畳み込みで使用される重みフィルタの各重みは、ランダムな値で初期化され学習を通して調整される。
プーリング層では次元を削除し、位置と回転に不変性を付与する。
対象とする小ウィンドウ内の最大値を出力するマックスプーリングとウィンドウ内の平均値を出力するアベレージプーリングのどちらかを採用することが一般的である。
畳み込み層とプーリング層を繰り返した後、最後に全結合を行いバックプロパゲーションという収束手法を持ちいる。
Googleが開発したGoogLeNetは、畳み込み層が22もある深い層になっている。
GoogLeNetは2014年に開催された画像認識の世界大会で優勝し、利用者も多い。
もっと知るには・・・