orizuru

つながる.見える.わかる IoTソリュ-ション

Universal Approximation Theorem

約 2 分
Universal Approximation Theorem

はじめに

 ニューラルネットワークが任意の関数を任意の精度で表現できる理由を、簡単に説明する。

Universal Approximation Theorem:普遍性定理

 ネットワークを次式で定義する。

(1)    \begin{eqnarray*} \vec{h}&=&\sigma\left(W^{(1)}\vec{x}+\vec{b}^{\;(1)}\right) \\ \vec{y}&=&W^{(2)}\vec{h}+\vec{b}^{\;(2)} \end{eqnarray*}

ここで、W^{(1)}\in \mathbb{R}^{N_h\times N_x}W^{(2)}\in \mathbb{R}^{N_y\times N_h}\vec{b}^{(1)}\in \mathbb{R}^{N_h}\vec{b}^{(2)}\in \mathbb{R}^{N_y}\vec{x}\in \mathbb{R}^{N_x}とした。また、\sigma(x)はステップ関数

(2)    \begin{equation*} \sigma(x)= \left \{ \begin{array}{l} 0\;\;\;(x<0) \\ 1\;\;\;(x\ge 0) \end{array} \right. \end{equation*}

である。式(1)を成分で書くと

(3)    \begin{eqnarray*} h_i&=&\sum_{j=1}^{N_x}\sigma\left(w^{(1)}_{ij}x_j+b^{\;(1)}_i\right) \\ y_i&=&\sum_{j=1}^{N_h} w^{(2)}_{ij}h_j+b^{\;(2)}_i \end{eqnarray*}

となる。式(3)の第1式を第2式に代入して

(4)    \begin{equation*} y_i=\sum_{j=1}^{N_h} w^{(2)}_{ij} \sum_{k=1}^{N_x}\sigma\left(w^{(1)}_{jk}x_k+b^{\;(1)}_j\right) +b^{\;(2)}_i \end{equation*}

を得る。いま簡単のため、入出力\vec{x},\vec{y}をスカラー量x,yとすると

(5)    \begin{eqnarray*} y &=& \sum_{j=1}^{N_h} w^{(2)}_{j} \left[ \sigma\left(w^{(1)}_{j}x+b^{\;(1)}_j\right) \right] +b^{\;(2)}\\ &=& w^{(2)}_{1} \sigma\left(w^{(1)}_{1}x+b^{\;(1)}_1\right) + w^{(2)}_{2} \sigma\left(w^{(1)}_{2}x+b^{\;(1)}_2\right) +\cdots +w^{(2)}_{N_h} \sigma\left(w^{(1)}_{N_h}x+b^{\;(1)}_{N_h}\right) +b^{\;(2)} \end{eqnarray*}

となる。出力yはステップ関数をN_h個だけ重ね合わせて表現されることが分かる。パラメータw_i^{(1)},b_i^{(1)}を調節することで各ステップ関数はx軸に沿って左右に移動し、w^{(2)}_iを調節することで各ステップ関数の階段の高さが変化し、b^{(2)}を調節することでyを上下に動かすことができる。すなわち、中間層のユニット数N_hを大きくし、パラメータを適当に調節することで任意の1次元関数y=f(x)を任意の精度で近似できることになる。下図は、ステップ関数を増やすことにより、いくらでも精度を高めることができることを表すイメージ図である。

 上で述べた事実は、一般の入出力\vec{x},\vec{y}の場合に拡張することができる。すなわち、関数\vec{y}=\vec{f}(\vec{x})はニューラルネットワークを用いて近似できるのである。この事実をニューラルネットワークの普遍性定理と呼ぶ。

まとめ

 今回は、ニューラルネットワークの精度の良さを説明する普遍性定理を紹介した。この定理では、活性化関数としてステップ関数を仮定しており、実際に使われる活性化関数(微分可能な関数)とは異なる。しかし、ニューラルネットワークがなぜ強力なのかを直感的に説明している。
 ニューラルネットワークの表現力の高さは過剰適合(過学習)の原因でもあり、諸刃の剣であることに注意しなければならない。

参考文献

  • ディープラーニングと物理学:深層学習の理論的背景に詳しい良書である。
  • About The Author

    IoT/AIソリューション事業部(深層/機械学習・画像処理エンジニア)KumadaSeiya
    深層/機械学習と画像処理などを担当。物性理論で博士号を取得。
    https://seiya-kumada.blogspot.com/
    https://twitter.com/seiya_kumada
    https://github.com/seiya-kumada
    https://bitbucket.org/seiya_kumada/

    Leave A Reply

    *
    *
    * (公開されません)