VMLS 12.2 最小二乗法その二

前回→VMLS 12.1
テキスト→Introduction to Applied Linear Algebra – Vectors, Matrices, and Least Squares

12.2 Solution

　この章では、データ行列 $A$ についての

$A$ の各行は線形独立である。 $\quad(12.2)$ という前提のもとで、最小二乗法 (12.1) の解のいくつかの表現を導く。

計算による解法

　このセクションでは基本的な計算による最小二乗法の解法を学ぶ (証明には計算を用いない他の手法もある。そちらは次のセクションに記す)。関数 $f(x)=||Ax-b||^2$ を最小化する $\hat{x}$ は

$\frac{\partial f}{\partial x_i}(\hat{x})=0,\quad i=1,...,n,$ を満たす必要があり、これはベクトル表記で
$\nabla f(\hat{x})=0$ と表される。 $\nabla f(\hat{x})=0$ は $\hat{x}$ における $f$ の勾配である。勾配は行列表示で次のように表すことができる。
$\nabla f(\hat{x})=2A^T(Ax-b).\quad (12.3)$ この公式は184ページ*1のチェインルールから導くことができ、二次関数の和の勾配は ${\S}C.1$ *2 で与えられる。念のため、公式 (12.3) の導出方法を示す。最小二乗法の目的関数を和の形で書くと、
$f(x)=||Ax-b||^2=\sum_{i=1}^{m}(\sum_{j=1}^{n}A_{ij}x_j -b_i)^2$ となる。
$\nabla f(x)_k$ を求めるために $x_k$ に対して偏微分する。和を項別微分すると、
$\begin{eqnarray} \nabla f(x)_k &=& \frac{\partial f}{\partial x_i}(x)\\ &=& \sum_{i=1}^{m} 2 (\sum_{j=1}^{n} A_{ij}x_j -b_i)(A_{ik})\\ &=& \sum_{i=1}^{m} 2(A^T)_{ki} (Ax-b)_i\\ &=& (2A^T (Ax-b))_k. \end{eqnarray}$ これは公式 (12.3) を要素の項別に書き出したものである。
　最小二乗法の解法の導出を続ける。 $||Ax-b||^2$ を最小化するどのような $\hat{x}$ も次式を満足する。
$\nabla f(\hat{x}) =2A^T(A\hat{x}-b) =0.$ これは次のように表すこともできる。
$A^T A\hat{x}=A^T b.\quad(12.4)$ これらの方程式は正規方程式 (normal equations) と呼ばれる。係数行列 $A^TA$ は $A$ に関するグラム行列 (要素が各行の内積である行列) である。
　 $A$ の各列が線形独立であるという我々の仮定 (12.2) は、グラム行列 $A^TA$ が正則であることを示唆している (214ページ、 ${\S}11.5$ *3 )。これは
$\hat{x}=(A^T A)^{-1}A^T b\quad (12.5)$ が正規方程式 (12.4) の唯一の解法であることを意味する。すなわち、これは最小二乗法 (12.1) の唯一の解法である。
　我々は (12.5) で現れる行列 $(A^TA)^{-1}A^T$ をすでに学習している。(11.5) で与えられる行列 $A$ の疑似逆行列である。したがって我々は最小二乗法の解法をシンプルな形で
$\hat{x}=A^{\dagger}b \quad (12.6)$ と書ける。
　 ${\S}11.5$ で見たように、 $A^{\dagger}$ は $A$ の左側逆行列であり、この over-determined な連立方程式 $Ax=b$ が解を持つとき、 $\hat{x}=A^{\dagger}b$ はこれを解くことができる。しかしいま、我々は最小二乗解、つまり $f(x)=||Ax-b||^2$ を最小化する $\hat{x}=A^{\dagger}b$ に着目している (そしてもし $Ax=b$ に解が存在するとき、 $\hat{x}=A^{\dagger}b$ こそが解である)。
　方程式 (12.6) は $A$ が正則行列であるとき、連立一次方程式 $Ax=b$ の公式、すなわち、 $x=A^{-1}b$ に酷似している。最小二乗解である公式 (12.6) と、解が一意に定まる連立一次方程式の公式 $x=A^{-1}b$ との違いを理解することは非常に重要である。連立一次方程式と逆行列の場合は、 $x=A^{-1}b$ は厳密に $Ax=b$ を満足する。最小二乗解の場合は、 $\hat{x}=A^{\dagger}b$ は一般的に $A\hat{x}=b$ を満足しない。
　公式 (12.6) は最小二乗解 $\hat{x}$ は $b$ の一次関数であることを示している。これより、一般に、一意な解を持つ連立一次方程式はその右辺の一次関数である。

最小二乗解の直接的な証明

このセクションでは、 $\hat{x}=(A^T A)^{-1}A^T b$ が最小二乗法 (12.1) の解であることを、計算を用いずに直接証明する。任意の $x \neq \hat{x}$ に対して、 $\hat{x}$ が $||Ax-b||^2$ を最小化するとき

$||A\hat{x}-b||^2<||Ax-b||^2$ が成り立つことを示す。
　まず
$\begin{eqnarray} ||Ax-b||^2 &=& ||(Ax-A\hat{x})+(A\hat{x}-b)||^2\\ &=& ||Ax-A\hat{x}||^2+||A\hat{x}-b||^2+2(Ax-A\hat{x})^T(A\hat{x}-b) \quad (12.7) \end{eqnarray}$ から始める。ここで、つぎの恒等式を利用した。
$||u+v||^2=(u+v)^T(u+v)=||u||^2+||v||^2+2u^T v.$ (12.7) の第三項はゼロである。
$\begin{eqnarray} (Ax-A\hat{x})^T(A\hat{x}-b) &=& (x-\hat{x})^T A^T(A\hat{x}-b)\\ &=& (x-\hat{x})^T (A^TA\hat{x}-A^T b)\\ &=& (x-\hat{x})^T 0\\ &=& 0 \end{eqnarray}$ 三行目で我々は正規方程式 $(A^T A)\hat{x}=A^T b$ を用いた。これにより、(12.7) は次のように簡単化される。
$||Ax-b||^2=||A(x-\hat{x})||^2+||A\hat{x}-b||^2.$ 右辺第一項は非負であるため
$||Ax-b||^2 \geq ||A\hat{x}-b||^2.$ これは $\hat{x}$ が $||Ax-b||^2$ を最小化することを表している。上の等式が成立するとすると、 $||Ax-b||^2 = ||A\hat{x}-b||^2$ であるので、 $||A(x-\hat{x})||^2=0$ 、すなわち $A(x-\hat{x})=0$ を得る。 $A$ は線形独立な列を持つので、我々は $x-\hat{x}=0,\quad i.e.,\quad x=\hat{x}$ を得る。したがって、 $||Ax-b||^2=||A\hat{x}-b||^2$ を満たす $x$ は $x=\hat{x}$ のみであり、すべての $x\neq \hat{x}$ に対して $||Ax-b||^2>||A\hat{x}-b||^2$ が成り立つ。

行形式

最小二乗解の公式は行列 $A$ の行 $x=\tilde{a}_i^T$ に関する便利な表記がある。

$\hat{x}=(A^T A)^{-1}A^T b=(\sum_{i=1}^m \tilde{a}_i\tilde{a}_i^T )^{-1}(\sum_{i=1}^m b_i \tilde{a}_i).\quad(12.8)$ この公式で、我々は $n\times n$ 型グラム行列 $A^T A$ を外積の和として、 $n$ 次ベクトル $A^T b$ を $m$ 個の $n$ 次ベクトルとして表している。
f:id:gorgonzolax:20210424222744p:plain

Introduction to Applied Linear Algebra – Vectors, Matrices, and Least Squares

直交性原理

点 $A\hat{x}$ は $b$ に最も近い $A$ の各列の線形結合である。最適化された残差は $\hat{r}=A\hat{x}-b$ である。最適化された残差は直交性原理と呼ばれる性質を満足する。それらは $A$ の各列に直交し、また、 $A$ の各列の任意の線形結合に直交する。すなわち、任意の $n$ 次ベクトル $z$ に対して、

$(Az)\perp \hat{r}$ を得る。我々は直交性原理を $A^T (A\hat{x}-b) =0$ で表される正規方程式から導くことができる。任意の $n$ 次ベクトル $z$ に対して、
$(Az)^T \hat{r}=(Az)^T (A\hat{x}-b)=z^T A^T (A\hat{x}-b)=0$ が得られる。
　 $m=3$ 、 $n=2$ の最小二乗法について、直交性原理は図12.2のように示される。影のついた平面は $A$ の二つの列 $a_1$ と $a_2$ のすべての線形結合の組 $z_1 a_1+z_2 a_2$ を表す。点 $A\hat{x}$ は平面上で最も $b$ に近い点である。最適化された残差は点 $\hat{r}$ は $b$ から $A\hat{x}$ へのベクトルとして表される。このベクトルは平面上のどの点とも直交している。

次回→VMLS 12.3

*1:すみません。まだ勉強できていないのでテキストをご参照ください。

*2:こちらもテキストをご参照ください。

*3:テキストを(略