Label Smoothing

はじめに

今回も前回に引き続き、深層学習で使われる要素技術をひとつ紹介する。今回紹介するのは「Label Smoothing」と呼ばれる手法である。

交差エントロピー

いま、 $K$ 分類の問題を考える。このときの処理を以下に示す。

何らかのDNNで処理したあと最終層においてSoftmax関数を適用するのが一般的である。ここでは、入力値を $x$ 、Softmax関数への入力値を $z$ とおいた。両者ともベクトルであり、特に $z\in \mathbb{R}^K$ である。Softmax関数の出力値は次式で定義される。

(1) $\begin{equation*} p(k|x)=\frac{\exp{z_k}}{\sum_{i=1}^K\exp{z_i}} \end{equation*}$

この式は入力値 $x$ がカテゴリ $k$ に属する確率である。Ground Truthとなる確率を $q(k|x)$ とおけば、次の交差エントロピーが損失関数となる。

(2) $\begin{equation*} H(q,p)=-\sum_{k=1}^{K}q(k|x)\ln{p(k|x)} \end{equation*}$

これを最小にするようにDNN内の重みが決定される。 $q(k|x)$ に対してはone-hotベクトルが与えられる。

過学習

$K=5$ を考え、入力値 $x$ に対する正解カテゴリが $k=2$ であるとする。このとき $q(k|x)=[0,1,0,0,0]$ と書くことができる。交差エントロピーを最小にするように学習を行うと、 $p(k=2|x)$ は1に、 $p(k\neq 2|x)$ は0に近づいていくことになる。すなわち

(3) $\begin{equation*} p(k=2|x)=\frac{\exp{z_2}}{\exp{z_1}+\exp{z_2}+\exp{z_3}+\exp{z_4}+\exp{z_5}} \end{equation*}$

が1に近づくとき、 $z_2$ は大きく、 $z_i(i\neq 2)$ は小さくなる。 $z_2$ と $z_i(i\neq 2)$ の間の距離が大ければ大きいほど、 $q(k|x)=[0,1,0,0,0]$ に近づいていく（参考のため指数関数の変化の様子を以下に示す）。

しかし、 $z_2$ と $z_i(i\neq 2)$ の間の距離を極端に大きくすると過学習となり、汎化能力を抑制してしまうことがある。

Label Smoothing

過学習を抑えるメカニズムはこれまで種々提案されているが、Label Smoothingもその中のひとつである。入力値 $x$ がカテゴリ $y$ に属する時、先に与えた $q(k|x)$ は次式で表現できる。

(4) $\begin{equation*} q(k|x)=\delta_{k,y} \end{equation*}$

ここで、 $\delta_{k,y}$ は、 $k=y$ のとき1、 $k\neq y$ のとき0となる関数である。この「極端」な値の割り当てを緩和し、過学習を抑えようというアイデアがLabel Smoothingである。すなわち、次式を考える。

(5) $\begin{equation*} q(k|x)=(1-\epsilon)\delta_{k,y}+\epsilon u(k) \end{equation*}$

ここで、 $u(k)$ は全ての $k$ について何らかの値を持つ関数である。重み $\epsilon$ でこの関数を追加することにより、 $k\neq y$ のときにも $q(k|x)$ は値を持つことができる。 $u(k)$ として、一様分布が使われることが多い。

(6) $\begin{equation*} q(k|x)=(1-\epsilon)\delta_{k,y}+\epsilon\frac{1}{K} \end{equation*}$

以下の簡単なコードで、重み $\epsilon$ が損失関数にもたらす効果を $K=5$ の場合に見てみる。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import numpy as np
import matplotlib.pyplot as plt 


# 擬似的に予測値を作成する。
def make_prediction(x, dim):
    d = x + dim - 1 
    a = np.array([1 / d] * dim)
    a[1] = x / d 
    return a


# 1番目だけ1の正解値。
def make_ground_truth(dim):
    a = np.zeros(dim)
    a[1] = 1 
    return a


# Label Smoothingを考慮した正解値。
def make_ground_truth_with_label_smoothing(dim, epsilon):
    a = make_ground_truth(dim)
    b = np.ones(dim) * (1 / dim)
    return (1 - epsilon) * a + epsilon * b 


# 交差エントロピーを計算する。
def calculate_cross_entropy(ps, gs):
    return -np.sum(np.log(ps) * gs) 


if __name__ == "__main__":

    # 正解値
    step = 0.05
    gts = [make_ground_truth_with_label_smoothing(dim=5, epsilon=step * i) for i in range(5)]

    losses = []
    n = 100 
    for gt in gts:
        tmp = []
        for x in range(1, n): 
            ps = make_prediction(x=x, dim=5)
            loss = calculate_cross_entropy(ps, gt) 
            tmp.append(loss)
        losses.append(tmp)

    plt.grid()
    for i, loss in enumerate(losses):
        plt.plot(np.arange(1, n), loss, label='epsilon={:.2f}'.format(i * step))
    plt.xlabel('x')
    plt.ylabel('Loss')
    plt.legend(loc='best')
    plt.savefig('./result.png')

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import numpy as np

import matplotlib.pyplot as plt

# 擬似的に予測値を作成する。

def make_prediction(x, dim):

d = x + dim - 1

a = np.array([1 / d] * dim)

a[1] = x / d

return a

# 1番目だけ1の正解値。

def make_ground_truth(dim):

a = np.zeros(dim)

a[1] = 1

return a

# Label Smoothingを考慮した正解値。

def make_ground_truth_with_label_smoothing(dim, epsilon):

a = make_ground_truth(dim)

b = np.ones(dim) * (1 / dim)

return (1 - epsilon) * a + epsilon * b

# 交差エントロピーを計算する。

def calculate_cross_entropy(ps, gs):

return -np.sum(np.log(ps) * gs)

if __name__ == "__main__":

# 正解値

step = 0.05

gts = [make_ground_truth_with_label_smoothing(dim=5, epsilon=step * i) for i in range(5)]

losses = []

n = 100

for gt in gts:

tmp = []

for x in range(1, n):

ps = make_prediction(x=x, dim=5)

loss = calculate_cross_entropy(ps, gt)

tmp.append(loss)

losses.append(tmp)

plt.grid()

for i, loss in enumerate(losses):

plt.plot(np.arange(1, n), loss, label='epsilon={:.2f}'.format(i * step))

plt.xlabel('x')

plt.ylabel('Loss')

plt.legend(loc='best')

plt.savefig('./result.png')

9-13行目：xを与えると擬似的な予測値ベクトルを生成する関数である。dim=5としたので5次元ベクトルである。xが大きくなると正解値[0,1,0,0,0]に近づいていく。
24-27行目：Label Smoothingを考慮した $q(k|x)$ を作成する関数である。dim=5。epsilonは $\epsilon$ に相当する。
31-32行目：損失（交差エントロピー）を計算する。

このコードを実行すると、次の図を得る。横軸xの値が大きくなると擬似的な予測値が[0,1,0,0,0]に近づいていくことに注意する。

$\epsilon$ が0のときはLabel Smoothingの効果はないので、通常の学習に見られる減衰曲線となる。 $\epsilon$ の値を増やしていくと損失の減衰が抑制され、途中から増大に転ずる様子を見ることができる。増加に転じる近傍で学習を止めることで、極端な最適化を抑えることができる。

まとめ

今回は、過学習を抑制するメカニズムのひとつであるLabel Smoothingを紹介した。Label Smoothing自体はとても簡単なロジックである。参考にした論文では、Label Smoothingにより、ILSVRC 2012のtop-1 errorとtop-5 errorの両方において、0.2%ほどの精度向上が見られたと報告されている。

参考文献

Rethinking the Inception Architecture for Computer Vision

Kumada Seiya

仕事であろうとなかろうと勉強し続ける、その結果”中身”を知ったエンジニアになれる

ディープラーニングをやらないPyTorch入門

Auto-Kerasで深層学習のモデルを自動で生成する

Label Smoothing

はじめに

交差エントロピー

過学習

Label Smoothing

まとめ

参考文献

Kumada Seiya

最近の記事

LLMの出力の構造化データへの変換

MCP Python SDKによるMCPサーバの構築

OpenAI Agents SDK

自動翻訳ライブラリdeep-translator

Salient Object Detection

オープンソースのLLM（ELYZA-japanese-Llama-2-7b-instruct）

ChatGPTがもたらす哲学の再構築

ガウス過程

GPyTorch入門

Adding Problem

JAX

PyTorch C++の導入〜その3〜

Google Vision APIでOCR

アーカイブ

カテゴリー