Universal Approximation Theorem

はじめに

ニューラルネットワークが任意の関数を任意の精度で表現できる理由を、簡単に説明する。

Universal Approximation Theorem:普遍性定理

ネットワークを次式で定義する。

(1) $\begin{eqnarray*} \vec{h}&=&\sigma\left(W^{(1)}\vec{x}+\vec{b}^{\;(1)}\right) \\ \vec{y}&=&W^{(2)}\vec{h}+\vec{b}^{\;(2)} \end{eqnarray*}$

ここで、 $W^{(1)}\in \mathbb{R}^{N_h\times N_x}$ 、 $W^{(2)}\in \mathbb{R}^{N_y\times N_h}$ 、 $\vec{b}^{(1)}\in \mathbb{R}^{N_h}$ 、 $\vec{b}^{(2)}\in \mathbb{R}^{N_y}$ 、 $\vec{x}\in \mathbb{R}^{N_x}$ とした。また、 $\sigma(x)$ はステップ関数

(2) $\begin{equation*} \sigma(x)= \left \{ \begin{array}{l} 0\;\;\;(x<0) \\ 1\;\;\;(x\ge 0) \end{array} \right. \end{equation*}$

である。式(1)を成分で書くと

(3) $\begin{eqnarray*} h_i&=&\sum_{j=1}^{N_x}\sigma\left(w^{(1)}_{ij}x_j+b^{\;(1)}_i\right) \\ y_i&=&\sum_{j=1}^{N_h} w^{(2)}_{ij}h_j+b^{\;(2)}_i \end{eqnarray*}$

となる。式(3)の第1式を第2式に代入して

(4) $\begin{equation*} y_i=\sum_{j=1}^{N_h} w^{(2)}_{ij} \sum_{k=1}^{N_x}\sigma\left(w^{(1)}_{jk}x_k+b^{\;(1)}_j\right) +b^{\;(2)}_i \end{equation*}$

を得る。いま簡単のため、入出力 $\vec{x},\vec{y}$ をスカラー量 $x,y$ とすると

(5) $\begin{eqnarray*} y &=& \sum_{j=1}^{N_h} w^{(2)}_{j} \left[ \sigma\left(w^{(1)}_{j}x+b^{\;(1)}_j\right) \right] +b^{\;(2)}\\ &=& w^{(2)}_{1} \sigma\left(w^{(1)}_{1}x+b^{\;(1)}_1\right) + w^{(2)}_{2} \sigma\left(w^{(1)}_{2}x+b^{\;(1)}_2\right) +\cdots +w^{(2)}_{N_h} \sigma\left(w^{(1)}_{N_h}x+b^{\;(1)}_{N_h}\right) +b^{\;(2)} \end{eqnarray*}$

となる。出力 $y$ はステップ関数を $N_h$ 個だけ重ね合わせて表現されることが分かる。パラメータ $w_i^{(1)},b_i^{(1)}$ を調節することで各ステップ関数は $x$ 軸に沿って左右に移動し、 $w^{(2)}_i$ を調節することで各ステップ関数の階段の高さが変化し、 $b^{(2)}$ を調節することで $y$ を上下に動かすことができる。すなわち、中間層のユニット数 $N_h$ を大きくし、パラメータを適当に調節することで任意の1次元関数 $y=f(x)$ を任意の精度で近似できることになる。下図は、ステップ関数を増やすことにより、いくらでも精度を高めることができることを表すイメージ図である。

上で述べた事実は、一般の入出力 $\vec{x},\vec{y}$ の場合に拡張することができる。すなわち、関数 $\vec{y}=\vec{f}(\vec{x})$ はニューラルネットワークを用いて近似できるのである。この事実をニューラルネットワークの普遍性定理と呼ぶ。

まとめ

今回は、ニューラルネットワークの精度の良さを説明する普遍性定理を紹介した。この定理では、活性化関数としてステップ関数を仮定しており、実際に使われる活性化関数（微分可能な関数）とは異なる。しかし、ニューラルネットワークがなぜ強力なのかを直感的に説明している。
ニューラルネットワークの表現力の高さは過剰適合（過学習）の原因でもあり、諸刃の剣であることに注意しなければならない。

参考文献

ディープラーニングと物理学：深層学習の理論的背景に詳しい良書である。

Kumada Seiya

仕事であろうとなかろうと勉強し続ける、その結果”中身”を知ったエンジニアになれる

千里の道も一歩から　～埋もれた知見の見える化による業務改善

PyTorch C++の導入〜その1〜

Universal Approximation Theorem

はじめに

Universal Approximation Theorem:普遍性定理

まとめ

参考文献

Kumada Seiya

最近の記事

Nano Bananaの描画能力

LangExtract

LLMとMCPの連携

LLMの出力の構造化データへの変換

MCP Python SDKによるMCPサーバの構築

OpenAI Agents SDK

ガウス過程

Salient Object Detection

PyTorch C++の導入〜その1〜

PyTorch C++の導入〜その3〜

Conditional Variational Autoencoder

GANのminmax戦略

Google Vision APIでOCR

アーカイブ

カテゴリー