English
中文
日本語
本質の研究
バイアス-バリアンス分解

抽象

この記事では、回帰の平均二乗誤差のバイアス-バリアンス分解を導出します。

参考

バイアス-バリアンストレードオフ

回帰分解

回帰分析では、観測値を以下のように分解することが一般的です:

$$ y_x = f_x + \epsilon_{x} \quad \epsilon_{x} \sim \mathcal{N}(0,\,\sigma^{2}) \tag{0} $$

真の回帰 $f_x$ は $x$ が与えられたときに定数として考えられます。誤差(またはデータノイズ)$\epsilon_{x}$ は特定の $f_x$ と独立で、$\epsilon_{x}$ が平均0および分散 $\sigma^2$ のガウス分布に従うという仮定の下で成立しています。(0)はデータの説明に過ぎないことに注意してください。$f_x$ をその推定値 $\hat{f}_x$ で置き換えると、(0)はより実用的な形に変わります:

$$ y_x = \hat{f}_x + r_x \tag{1} $$

真の回帰\( \hat{f}_x \)の推定が$x$に対して非定数であると見なされ、残差\( r_x \)は$y_x$と\( \hat{f}_x \)の間のギャップを描写します。(0)と(1)に基づいて、以下の観察を行うことができます:

\begin{align} \mathrm{E} (f_x) &= f_x \tag{cが定数の場合, $\mathrm{E}(c) = c$} \\ \mathrm{E} (\epsilon_{x}) &= 0 \tag{ガウス仮定} \\ \mathrm{Var} (f_x) &= 0 \tag{定数は0の分散を持つ} \\ \mathrm{Var} (\epsilon_{x}) &= \sigma^2 \tag{ガウス仮定} \end{align}

\begin{align} \mathrm{E} (y_x) &= \mathrm{E} (f_x + \epsilon_{x}) \\ &= \mathrm{E} (f_x) + \mathrm{E} (\epsilon_{x}) \\ &= \mathrm{E} (f_x) \\ &= f_x \tag{2} \\ \end{align}

\begin{align} \mathrm{Var} (y_x) &= \mathrm{Var}(f_x + \epsilon_{x}) \\ &= \mathrm{Var}(f_x) + \mathrm{Var}(\epsilon_{x}) \tag{独立変数のための0共分散} \\ &= \mathrm{Var}(\epsilon_{x}) \\ &= \sigma^2 \tag{3} \\ \end{align}

バイアス-バリアンス分解

(2) および (3) を用いることで、回帰問題において平均二乗誤差を最小化することがなぜ有用であるかを示すことができます。導出には、期待値と分散に関連するいくつかの同一性が必要です。任意の二つの独立な確率変数 x, y と定数 c があるとき、次のようになります:

\begin{align} \mathrm{E}\big[x^2\big] &= \mathrm{Var}\big[x\big] + \mathrm{E}\big[x\big]^2 \tag{4} \\ \mathrm{E}\big[xy\big] &= \mathrm{E}\big[x\big] \mathrm{E}\big[y\big] \tag{5} \\ \mathrm{E}\big[cx\big] &= c \mathrm{E}\big[x\big] \tag{6} \\ \end{align}

平均二乗誤差の定義から始めましょう。それを期待値の形で書き直すことができます:

$$ \frac{1}{N}\sum_i^N (y_i - \hat{f}_i)^2 = \mathrm{E} \big[ (y_x - \hat{f}_x)^2 \big] \tag{平方平均誤差} $$

$(y_x - \hat{f}_x)^2$ を展開すると、以下のようになります

\begin{align} \mathrm{E} \big[ (y_x - \hat{f}_x)^2 \big] &= \mathrm{E} \big[ y_x^2 + \hat{f}_x^2 - 2 y_x \hat{f}_x \big] \\ &= \mathrm{E} \big[ y_x^2 \big] + \mathrm{E} \big[ \hat{f}_x^2 \big] - 2 \mathrm{E} \big[ y_x \hat{f}_x \big] \tag{使用 (6)}\\ &= \mathrm{E} \big[ y_x^2 \big] + \mathrm{E} \big[ \hat{f}_x^2 \big] - 2 \mathrm{E} \big[ (f_x + \epsilon_{x}) \hat{f}_x \big] \tag{から (0)}\\ &= \mathrm{E} \big[ y_x^2 \big] + \mathrm{E} \big[ \hat{f}_x^2 \big] - 2 \mathrm{E} \big[ f_x \hat{f}_x \big] - 2 \mathrm{E} \big[ \epsilon_{x} \hat{f}_x \big] \\ \end{align}

$\mathrm{E} \big[ \epsilon_{x} \hat{f}_x \big] = 2 \mathrm{E} \big[ \epsilon_{x} \big] \mathrm{E} \big[ \hat{f}_x \big] = 0$と記載されているのは、$\epsilon_{x}$が$\hat{f}_x$と独立であり、$\mathrm{E} \big[ \epsilon_{x} \big] = 0$だからです。

\begin{align} \mathrm{E} \big[ (y_x - \hat{f}_x)^2 \big] &= \mathrm{E} \big[ y_x^2 \big] + \mathrm{E} \big[ \hat{f}_x^2 \big] - 2 \mathrm{E} \big[ f_x \hat{f}_x \big] \\ &= \mathrm{Var} \big[ y_x \big] + \mathrm{E} \big[y_x \big]^2 + \mathrm{Var} \big[ \hat{f}_x \big] + \mathrm{E} \big[ \hat{f}_x \big]^2 - 2 f_x \mathrm{E} \big[ \hat{f}_x \big] \tag{(4)と(5)を使用}\\ &= \mathrm{Var} \big[ y_x \big] + f_x^2 + \mathrm{Var} \big[ \hat{f}_x \big] + \mathrm{E} \big[ \hat{f}_x \big]^2 - 2 \mathrm{E} \big[ \hat{f}_x \big] \mathrm{E} \big[ y_x \big] \tag{(2)を使用} \\ &= \mathrm{Var} \big[ y_x \big] + \mathrm{Var} \big[ \hat{f}_x \big] + (f_x^2 - 2 \mathrm{E} \big[ \hat{f}_x \big] \mathrm{E} \big[ y_x \big] + \mathrm{E} \big[ \hat{f}_x \big]^2) \tag{再配置}\\ &= \mathrm{Var} \big[ y_x \big] + \mathrm{Var} \big[ \hat{f}_x \big] + (f_x - \mathrm{E} \big[ \hat{f}_x \big])^2 \\ &= \sigma^2 + \mathrm{Var} \big[ \hat{f}_x \big] + (f_x - \mathrm{E} \big[ \hat{f}_x \big])^2 \tag{7} \end{align}

そして、データノイズ分散 $\sigma^2$、予測分散 $\mathrm{Var} \big[ \hat{f}_x \big]$、および二乗予測バイアス $(f_x - \mathrm{E} \big[ \hat{f}_x \big])^2$ の合計である最終的な形 (7) に到達します。この結果はバイアス-バリアンス分解です。

回帰における分散の重要性

分散は回帰分析において重要な役割を果たします。分散が大きいと、モデルの予測精度が低下し、データノイズの影響を受けやすくなります。バイアス-バリアンス分解の観点から、分散を最小化することは、真の回帰をより正確に捉えるために必要です。期待値と残差の関係、または観測値の分布がガウス分布に従う場合には、平均二乗誤差が分散と密接に関連しています。適切なモデルを選択することで、独立な確率変数の影響を緩和し、誤差を低減させることが可能です。

予測バイアスを低下させることは、モデルがトレーニングデータセットでより高い精度を得ることには確かに寄与します。しかし、トレーニングデータセット外で同様の性能を得るためには、モデルがトレーニングデータセットに対して過剰適合しないようにする必要があります。真の回帰がゼロの分散を持つことを考えると、ロバストなモデルは予測の分散を可能な限り小さくするべきであり、これは平均二乗誤差の目的と一致しています。

本質の研究
Dongqi Su, 苏东琪
そのウェブサイト
使用 sudoki.SiteMaker を作成