2021.11.18
数学

ラグランジュの未定乗数法の一般化

はじめに

　以前の投稿でラグランジュの未定乗数法を扱った。今回はそれを一般化し、KKT条件と呼ばれる一連の条件式を導く。

問題設定

　最初に以前の結果を再掲する。 $x\in\mathbb{R}^n,u\in\mathbb{R}$ とする。束縛条件が

(1) $\begin{equation*} g(x)=0 \end{equation*}$

で与えられるとき、 $f(x)$ の極値を求めるには、関数

(2) $\begin{equation*} L(x,u)=f(x)+ug(x) \end{equation*}$

を考え、 $L(x,u)$ の $x$ と $u$ についての極値を計算すればよい。ここで、関数 $L(x,u)$ をラグランジュ関数と呼ぶのであった。今回は、束縛条件を不等号に拡張する。

(3) $\begin{equation*} g(x)\leq0 \end{equation*}$

さらに、 $f(x)$ の極値ではなく最小値（条件を満たす領域における最小値）を考える。まとめると、今回の問題設定は以下のようになる。

束縛条件が

(4) $\begin{equation*} g(x)\leq0 \end{equation*}$

で与えられるとき

(5) $\begin{equation*} f(x) \end{equation*}$

の最小値を求めよ。

ラグランジュの未定乗数法

　見通しをよくするため、先の記事の例題で用いた関数 $f(x)=x^2+y^2$ を考える。下図の緑色の放物曲面が $f(x)$ である。ここに、 $g(x)\leq0$ の領域 $S_g$ （赤色の円柱内部）を重ねてみる。

(A)は $g(x)=(x-1)^2+(y-1)^2$ のとき、(B)は $g(x)=x^2+y^2$ のときである。(A)の場合、 $S_g$ の縁で最小（ $\beta$ ）となり、(B)の場合、 $f(x)$ の最小値がそのまま解（ $\beta$ ）となる。この観察を定式化する。

　まず最初に(A)を考える。最小値 $\beta$ は領域 $S_g$ の縁上にあるから $g(\beta)=0$ が成り立つ。いま、点 $\beta$ を微小量 $d$ だけ $S_g$ からはみ出さない方向に動かす。このとき次式が成り立つ。

(6) $\begin{equation*} g(\beta+d)\simeq g(\beta)+\nabla g(\beta)^T d\leq0 \end{equation*}$

$g(\beta)=0$ であるから

(7) $\begin{equation*} \nabla g(\beta)^T d\leq0 \end{equation*}$

が成り立つ。点 $\beta$ における $z=f(x)$ の等高線と $g(x)=0$ は点 $\beta$ で接するから、 $\nabla f(x)$ と $\nabla g(x)$ は同じ向きを持つか、真逆の向きを持つ。同じ向きを持つ場合、 $\lambda\geq0$ として

(8) $\begin{equation*} \nabla f(\beta)=\lambda\nabla g(\beta) \end{equation*}$

と書くことができる。このとき

(9) $\begin{equation*} \nabla f(\beta)^T d=\lambda g(\beta)^T d\leq0 \end{equation*}$

となる。ここで $\beta+d$ における $f(x)$ の値を評価すると

(10) $\begin{equation*} f(\beta+d)\simeq f(\beta)+\nabla f(\beta)^Td \end{equation*}$

いま、 $\nabla f(\beta)^Td\leq0$ であったから $f(\beta+d)<f(\beta)$ となる。これは $f(\beta)$ が最小値であることと矛盾する。したがって、 $\nabla f(\beta)$ と $\nabla g(\beta)$ は反平行でなければならない。

(11) $\begin{equation*} \nabla f(\beta)=-\lambda\nabla g(\beta),\;\;\lambda\geq0 \end{equation*}$

ここでラグランジュ関数 $L(x,\lambda)$

(12) $\begin{equation*} L(x,\lambda)=f(x)+\lambda g(x) \end{equation*}$

を導入すれば、(A)の場合の最小値は次式を解けばよいことが分かる。

(13) $\begin{eqnarray*} \dfrac{\partial L(x,\lambda)}{\partial x}&=&0\\ g(x)&\leq&0\\ \lambda&\geq&0\\ g(x)&=&0 \end{eqnarray*}$

式(13)の4つ目の式 $g(x)=0$ は最小値が $S_g$ の縁にあることを表している。

　次に(B)の場合を考える。このときは領域 $S_g$ が $f(x)$ の最小値を含むから束縛条件なしで $f(x)$ の最小値を求めればよい。これはラグランジュ関数において $\lambda=0$ と置くことを意味する。

　(A)と(B)の2つの結果を融合すると解くべき式は以下となる。

(14) $\begin{eqnarray*} \dfrac{\partial L(x,\lambda)}{\partial x}&=&0\\ g(x)&\leq&0\\ \lambda&\geq&0\\ \lambda g(x)&=&0 \end{eqnarray*}$

式(14)の4つ目の条件 $\lambda g(x)=0$ は、(A)の場合は $g(x)=0$ を、(B)の場合は $\lambda=0$ を意味する。式(14)の4つの式のセットを、カルーシュ・キューン・タッカー条件（Karush-Kuhn-Tucker condition）あるいはKKT条件と呼ぶ。

まとめ

　今回は、以前紹介したラグランジュの未定乗数法を一般化し、KKT条件と呼ばれる式のセットを導出した。これは最適化問題における主問題と双対問題の間を橋渡しするものであり、SVMなどの最適化問題を解く際には必ず現れる重要な条件である。主問題と双対問題の説明は機会を改めたい。

参考文献

異常検知と変化検知（書籍）

しっかり学ぶ数理最適化（書籍）

Kumada Seiya

仕事であろうとなかろうと勉強し続ける、その結果”中身”を知ったエンジニアになれる

C#のnull許容参照型を使う

システム障害発生時の心がけ

ラグランジュの未定乗数法の一般化

はじめに

問題設定

ラグランジュの未定乗数法

まとめ

参考文献

Kumada Seiya

最近の記事

Nano Bananaの描画能力

LangExtract

LLMとMCPの連携

LLMの出力の構造化データへの変換

MCP Python SDKによるMCPサーバの構築

OpenAI Agents SDK

ホッケースティック恒等式

クォータニオンと回転行列の関係

標本分散と不偏分散

モンティ・ホール問題

三角比を用いたピタゴラスの定理の証明

正多面体が5種類しかないことの証明

Google Vision APIでOCR

アーカイブ

カテゴリー