VMLS 14.1 分類 - Golgo's Mind Palace

Chapter 14 Least squares classification

　この章では、あるモデルを (13章で扱った数値とは対照的に) 結果が真または偽のような値をとるデータにフィッティングする問題を考える。最小二乗法はこのような問題にも用いることができる。

14.1 Classification

　13章のデータフィッティング問題の目的は、 $n$ 次元ベクトル $x$ をもとに (スカラーの) 数値 $y$ を再現することであった。分類問題 (classification problem) では、結果や従属変数 $y$ は変数のうち限定された値のみをとり、この理由から $y$ はラベル、または統計学では categorical と呼ばれる。最も単純な場合、 $y$ は真か偽か、もしくはスパムかスパムでないかというような二値のみをとる。これは二項分類 (two-way classification) 問題や二値分類 (binary classification) 問題、ブーリアン分類 (boolean classification) 問題と呼ばれる。我々はまず二項分類から始めることにする。
　 $y$ は、真を $y = +1$ 、偽を $y=-1$ のような実数に符号化することができる ( $y=+1$ と $y=0$ や、任意の異なる二値のペアを用いて $y$ を符号化できる)。実数値データフィッティングでは、おおよその関係 $y\approx f(x),\quad f:\mathbf{R}^n\rightarrow (-1,+1)$ が成り立つと仮定する(この表記は $f$ が変数として $n$ 次元ベクトルをとり、出力として $+1$ か $-1$ を返すことを示す)。我々のモデルは $\hat{y}=\hat{f}(x)$ の形をもち、 $\hat{f}:\mathbf{R}^n\rightarrow (-1,+1)$ である。モデル $\hat{f}$ は $n$ 次元ベクトルを $\hat{f}(x)=+1$ と $\hat{f}(x)=-1$ に分類するため分類器と呼ばれる。実数値データフィッティングでは、いくつかの観測値を用いて分類器 $\hat{f}$ を構成できる。

Examples.

　二項分類は幅広く応用されている。

電子メールのスパム検出

　ベクトル $x$ は電子メールのメッセージの特徴を格納している。電子メールの文面の単語数や感嘆符の数、大文字の単語や送信者に関連した特徴などである。メッセージがスパムである場合、出力は $+1$ 、そうでなければ $-1$ となる。分類器を作るために用いられるデータはいくつかのメッセージをはっきりとゴミ箱に移動したユーザーからもたらされる。

詐欺の検出

　ベクトル $x$ はクレジットカードの利用者の特徴、例えば月平均の利用額や一週間の支払額の中央値、商品の種類別の利用回数、平均の預金残高等を与える。同様に、特定の取引に関する特徴も与える。出力 $y$ は取引が詐欺の場合は $+1$ 、そうでなければ $-1$ となる。分類器を作るために用いられるデータは後に詐欺だと判明した取引と公正な取引の過去のデータである。

ブール型文書分類

　ベクトル $x$ は文書の単語カウント (またはヒストグラム) ベクトルであり、出力 $y$ は文書がいくつかの特定の話題を含む場合 (政治等) に $+1$ となり、そうでなければ $-1$ となる。分類器を作るために用いられるデータは話題のラベルがついた文書のコーパスが用いられる。

疾病検出

　例は患者に対応しており、 $y=+1$ は患者に特定の疾病があることを意味し、 $y=-1$ はそうではないことを意味する。ベクトル $x$ は患者と関連する医学的特徴、年齢や性別、検査結果、症状等を格納する。分類器を作るために用いられるデータは病院の記録や医学的研究によりもたらされる。つまり、出力は医師によって診断された結果 (疾病の有無) に関連している。

ディジタル受信機

　現代の電子通信システムでは、 $y$ は送信機から受信機へ送信される (伝統的に0と1で表される) 1ビットを表す。ベクトル $x$ は受信信号の $n$ 個の観測結果を表す。予測器 $\hat{y}=\hat{f}(x)$ は復調ビットと呼ばれる。通信工学では、分類器 $\hat{f}$ は復号器または検出器と呼ばれる。復号器を作るために用いられるデータは受信機側で既知の送信されたビット列である訓練信号からもたらされる。

予測誤差

　与えられたデータ点 $x, y$ と予測結果 $\hat{y}=\hat{f}(x)$ に対し、以下に示す可能性のみが存在する。

真かつ陽性。 $y=+1$ かつ $\hat{y}=+1$ 。
真かつ陰性。 $y=-1$ かつ $\hat{y}=-1$ 。
偽かつ陽性。 $y=-1$ かつ $\hat{y}=+1$ 。
偽かつ陰性。 $y=+1$ かつ $\hat{y}=-1$ 。

はじめの二つの場合では予測したラベルはただしく、後の二つの場合では予測したラベルは誤りである。三番目の偽かつ陽性 またはタイプ I のエラー の場合と、四番目の偽かつ陰性 またはタイプ II のエラー の場合に注目する。これら二つのタイプのエラーを平等に扱うことができる応用範囲もあれば、どちらかのタイプのエラーを他方より重視する応用範囲もある。

誤り率と混同行列

　与えられたデータセット

$x^{(1)},...,x^{(N)},\quad y^{(1)},...,y^{(N)}$ とモデル $\hat{f}$ に対して、データセットにおいて上記のそれぞれが起こる確率を計算でき、 $\hat{y}^{(i)}$ に対応した列と $y^{(i)}$ に対応した行をもつ $2\times 2$ の分割表や混同行列で表すことができる (これは機械学習における慣例であり、統計学では列と行が入れ替わることがある)。表14.1のように、要素は示したの4つのケースの総数を与える。対角成分は正しい推測に対応し、左上の数値は真かつ陽性の数、右下は真かつ陰性の数である。非対角成分はエラーに対応し、右上は偽かつ陰性、左下は偽かつ陽性である。4つの数の合計はデータセットのサンプル数 $N$ である。表14.1のように行の合計と列の合計が示されることもある。

f:id:gorgonzolax:20210518215133j:plain

　様々なパフォーマンスの指標は混同行列の数値として表される。

誤り率は (二種類の) エラーの合計をサンプル数で割ったもの、つまり $(N_{fp})+N_{fn})/N$ である。
真かつ陽性の確率 (感度 (sensitivity) または再現率 (recall rate) ) は $N_{tp}/N_p$ 。これは $\hat{y}=+1$ と正しく推定されたデータ点 $y=+1$ を与える。
偽かつ陽性の確率 (偽陽性率 (false alarm rate) ) は $N_{fp}/N_p$ 。偽陽性率は $\hat{y}=+1$ と間違って推定されたデータ点 $y=-1$ を与える。
特異度 (specificity) または真かつ陰性の確率は1から偽陽性率を引いたものに等しい。つまり、 $N_{tn}/N_n$ である。特異度は $\hat{y}=-1$ と正しく推定されたデータ点 $y=-1$ を与える。
適合率 (precision) は $N_{tp}/(N_{tp}+N_{fp})$ であり、真と予測されたもののうち正しかったデータを指す。

良い分類器は小さな (ゼロに近い) 誤り率と偽陽性率をもち、高い (1に近い) 感度と特異度、適合率をもつ。これらの指標うちのいずれかは特定の応用先によってはより重要になる。
　サンプル数 $N=1266$ のうち、 $y=+1$ となるスパムが $127$ 件含まれ、残りの $1139$ 件がスパムではなく $y=-1$ となるEメールのデータセットに関するスパム検出器の混同行列の例を14.2に示す。このデータセットに対し、この分類器は真かつ陽性が $95$ 件、真かつ陰性が $1120$ 件、偽かつ陽性が $19$ 件、偽かつ陰性が $32$ 件である。誤り率は $(19+32)/1266=4.03\%$ である。感度は $95/127=74.8\%$ (データ内のスパムのうちおよそ75%を検出することを意味する) であり、偽陽性率は $19/1139=1.67\%$ (スパムでないメールのうちおよそ1.7%が誤ってスパムとラベリングされることを意味する) である。

f:id:gorgonzolax:20210521000226j:plain

分類問題の検証

　分類問題において我々は誤り率、感度、偽陽性率に関心がある。そのため out-of-sample validation と cross-validation はパフォーマンスの指標や我々が知りたい指標、すなわち、誤り率や感度と偽陰性率の組などを提供する。このうちのいずれかの指標がその他の指標よりも重要視される場合もある。

次回→VMLS 14.2