時系列解析-1（MA過程）

はじめに

　今回から3回に分けて時系列解析の基礎的な話をする。話す内容は以下の3つである。

1回目：MA過程

2回目：AR過程

3回目：ARMA過程

今回は、MA過程を紹介する。

定常性とホワイトノイズ

　本題に入る前に「定常性」という概念を説明する。いま時系列データが以下のように与えられているとする。

$\begin{align*}\ \{y_t\}_{t=1}^T=\{y_1,\dots,y_T\} \end{align*}\$

また、次式で期待値を定義する。

(1) $\begin{align*} {\rm E}[y_t]=\int dy_t\;y_t\;p(y_t)\equiv\mu_t \end{align*}$

ここで、 $p(y_t)$ は $y_t$ を実現する確率である。式(1)は、時刻 $t$ における $y_t$ を何度も測定できると仮定した場合の平均値である。当然ながらそのような値を実際に求めることはでない。期待値は数学上の定義であることに注意する。次に、時間差 $k$ の自己共分散を次式で定義する。

(2) $\begin{align*} {\rm Cov}[y_t,y_{t-k}]={\rm E}[(y_t-\mu_t)(y_{t-k}-\mu_{t-k})]\equiv\gamma_{t,k} \end{align*}$

式(1)の期待値が時刻に依存せず（ $\mu$ ）、式(2)の自己共分散が時間差 $k$ のみに依存するとき（ $\gamma_k$ ）、その時系列データは定常性を持つと言う。まとめると以下になる。

定常性の定義

$\begin{align*} &{\rm E}[y_t]=\mu\\ &{\rm Cov}[y_t,y_{t-k}]={\rm E}[(y_t-\mu)(y_{t-k}-\mu)]=\gamma_k \end{align*}$

ここで、 $\mu$ と $\gamma_k$ は時間に依存しない量である。

　次に、ホワイトノイズ（White Noise：W.N.）を定義する。

ホワイトノイズの定義

$\begin{align*} &\mu={\rm E}[\epsilon_t]=0\\ &\gamma_k={\rm E}[\epsilon_t\epsilon_{t-k}]= \left\{ \begin{array}{l} \sigma^2,\; k=0 \\ 0, \;\;\;k\neq 0 \end{array} \right. \end{align*}$

上が成り立つとき、時系列データ $\{\epsilon_t\}_{t=1}^T$ をホワイトノイズと呼ぶ。 $\sigma^2$ はホワイトノイズの分散である。ホワイトノイズの隣接時刻間（ $k\neq 0$ ）の自己共分散は0である。また、ホワイトノイズは定常性を持つことも分かる。

MA(1)過程

　我々が実世界で扱う時系列データは多くの場合、自己相関を持つ。ここで自己相関とは異なる時刻における値 $y_t$ と $y_{t-k}$ が何らかの関係を持つことである（厳密な定義は後述する）。この自己相関を表現できる最も簡単なモデルが1次のMA過程（MA(1)過程）である。名前にあるMAとはMoving Averageの略である（この名前の由来については後で触れる）。MA(1)過程は次式で定義される。

$\begin{align*} y_t=\mu+\epsilon_t+\theta_1\epsilon_{t-1}, \;\;\;\epsilon_t \sim {\rm W.N.}(\sigma^2) \end{align*}$

ここで、 $\epsilon_t$ は分散 $\sigma^2$ のホワイトノイズ、 $\mu$ と $\theta_1$ は任意の実数値を取る定数である。図1は $\theta_1$ の値を変化させたとき（それ以外の定数は固定）の時系列データの様子である（コードはここにある）。

図1

$y_{t-1}$

と $y_{t}$

の式を並べて書くと

$\begin{align*} y_{t-1}&=\mu+\epsilon_{t-1}+\theta_1\epsilon_{t-2}\\ y_{t}&=\mu+\epsilon_{t}+\theta_1\epsilon_{t-1} \end{align*}$

となり、両方に $\epsilon_{t-1}$ が含まれていることが分かる。従って、 $\theta_1$ が負の場合、 $y_{t-1}$ と $y_{t}$ の変位の向きが逆になる傾向が強くなり振動が激しくなる。このことは上のグラフで確認することができる。

　さて、MA(1)過程の期待値は次式となる。

$\begin{align*} {\rm E}[y_t] &={\rm E}[\mu]+{\rm E}[\epsilon_t]+\theta_1{\rm E}[\epsilon_{t-1}]\\ &=\mu \end{align*}$

ここで、ホワイトノイズの定義を用いた。さらに、MA(1)過程の自己共分散は次式となる。

$\begin{align*} \gamma_k &={\rm Cov}[y_t,y_{t-k}]\\ &={\rm E}[(y_t-\mu)(y_{t-k}-\mu)]\\ &={\rm E}[\epsilon_t\epsilon_{t-k}]+\theta_1{\rm E}[\epsilon_t\epsilon_{t-k-1}]+\theta_1{\rm E}[\epsilon_{t-1}\epsilon_{t-k}]+\theta_1^2{\rm E}[\epsilon_{t-1}\epsilon_{t-k-1}] \end{align*}$

ホワイトノイズの定義を使えば以下を得る。

$\begin{align*} \gamma_k= \left\{ \begin{array}{l} \sigma^2(1+\theta_1^2),\; k=0 \\ \sigma^2\theta_1,\;\;\;\;\;\;\;\;\;\;k=1\\ 0,\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;k\geq 2 \end{array} \right. \end{align*}$

1次のMA過程では $k\geq 2$ のとき常に $\gamma_k=0$ である。つまり、時刻の間が2以上離れると共分散は0になる。さらに、 $k$ 次の自己相関 $\rho_k$ が次式で定義される。

$\begin{align*} \rho_k=\frac{\gamma_k}{\gamma_0} \end{align*}$

従って、MA(1)の1次の自己相関は

$\begin{align*} \rho_1=\frac{\gamma_1}{\gamma_0}=\frac{\theta_1}{1+\theta_1^2} \end{align*}$

となる。下のグラフは $\rho_1$ を $\theta_1$ のグラフとして描いたものである。

図2

上のグラフから $\theta_1=-1,1$ でそれぞれ最小値(-1/2)と最大値(1/2)を持つことが分かる。見方を変えれば、MA(1)過程は大きさ1/2以上の相関を表すことができないモデルである。MA(1)過程の性質をまとめると以下になる。

MA(1)過程の性質

$\begin{align*} &{\rm E}[y_t]=\mu\\ &\gamma_0=\sigma^2(1+\theta_1^2)\\ &\gamma_k= \left\{ \begin{array}{l} \sigma^2\theta_1,\;\;\;\;\;\;\;\;\;\;k=1\\ 0,\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;k\geq 2 \end{array} \right.\\ &\rho_k= \left\{ \begin{array}{l} \frac{\theta_1}{1+\theta_1^2},\;\;\;\;\;\;\;\;\;\;k=1\\ 0,\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;k\geq 2 \end{array} \right. \end{align*}$

MA(q)過程

　上のMA(1)過程は容易にMA( $q$ )過程に拡張することができる。MA( $q$ )過程は次式で定義される。

$\begin{align*} y_t = \mu + \sum_{i=0}^{q}\theta_i\epsilon_{t-i}, \;\;\;\epsilon_t \sim {\rm W.N.}(\sigma^2) \end{align*}$

ただし、 $\theta_0=1$ とした。その性質は以下になる。

MA( $q$

)過程の性質

$\begin{align*} &{\rm E}[y_t]=\mu\\ &\gamma_0=\sigma^2\sum_{i=0}^q\theta_i^2\\ &\gamma_k= \left\{ \begin{array}{l} \sigma^2\sum_{i=0}^{q-k}\theta_{i}\theta_{k+i},\;\;\;1\leq k \leq q\\ 0,\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;k\geq q+1 \end{array} \right.\\ &\rho_k= \left\{ \begin{array}{l} \frac{\sum_{i=0}^{q-k}\theta_{i}\theta_{k+i}}{\sum_{i=0}^q\theta_i^2},\;\;\;\;\;\;\;\;\;\;1\leq k \leq q\\ 0,\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;k\geq q+1 \end{array} \right. \end{align*}$

ここで大切なことは、MA( $q$ )過程の相関 $\rho_k$ は $q+1$ 次以降で0になることである。言い換えれば $q$ 次の自己相関をモデル化するには $q$ 個のパラメータが必要となる。長時間に渡る相関をモデル化する際に多くのパラメータを必要とする点がMA( $q$ )過程の欠点である。

　さて、MA( $q$ )過程のMAはMoving Average（移動平均）の略であることを上で述べた。移動平均と呼ぶ理由を以下に述べる。MA( $q$ )過程は次式で与えられた。

(3) $\begin{align*} y_t = \mu + \sum_{i=0}^{q}\theta_i\epsilon_{t-i}, \;\;\;\epsilon_t \sim {\rm W.N.}(\sigma^2) \end{align*}$

ここで、右辺第2項はホワイトノイズに重み付けを行い和を取っていると解釈できる。すなわち $q$ の幅の窓の中で平均（厳密には平均ではないが）を計算しているとみなすことができる。これが移動平均と言う名前が付いた理由である。

MA過程の長所と短所

　MA過程の長所と短所を以下にまとめる。

長所

式(3)から分かる通り、MA( $q$

)過程では過去の $q$

個のホワイトノイズにしか依存しない。従って、たとえ外れ値が存在してもその発生から $q$

だけの時間が経過すればその外れ値の影響は消失する。

パラメータ $\theta_i$

の数を増やせば複雑なモデルを表現することができる。

短所

モデルがホワイトノイズの線形和なので解釈するのが難しい。

過去のデータ（ $y_{t-k}$

）に基づく予測ができない。

長距離に及ぶ相関を表現するには多くのパラメータ $\theta_i$

を必要とする。 $q$

次の自己相関を表現するには $q$

個の $\theta_i$

が必要である。

パラメータの数が多くなると計算コストが高くなる。

まとめ

　今回は、時系列データを表現する最も簡単な過程であるMA過程を紹介した。これはホワイトノイズの線形和として定義されるものである。 MA( $q$ )過程では $q$ 次までの自己相関をモデル化でき、必要とされるパラメータの数も $q$ 個となることを見た。自己相関が長時間になるほど多くのパラメータを扱わなければならないことがこの過程の欠点である。次回は別の手法で自己相関を表現する方法を紹介する。

参考文献

計量時系列分析

時系列分析と状態空間モデルの基礎

Kumada Seiya

仕事であろうとなかろうと勉強し続ける、その結果”中身”を知ったエンジニアになれる

ChatGPTがもたらす哲学の再構築

時系列解析-2（AR過程）

時系列解析-1（MA過程）

はじめに

定常性とホワイトノイズ

MA(1)過程

MA(q)過程

MA過程の長所と短所

まとめ

参考文献

Kumada Seiya

最近の記事

AppleのSHARP

NotebookLMを用いたスライドの自動生成

日本語手書き文字のOCRの精度比較

Nano Bananaの描画能力

LangExtract

LLMとMCPの連携

CatBoostのランク学習（Learning to rank）をためそう

次元の呪い

主成分分析とは何なのか、とにかく全力でわかりやすく解説する

Attention

最小二乗法とその周辺

Bayes推定

Google Vision APIでOCR

アーカイブ

カテゴリー