2024年09月29日
本記事では、多クラス分類の評価指標であるQuadric Weighted Kappa(QWK)を紹介します。
kappa($\kappa$)は次の式で計算できます。
ここで、は観測値の混同行列、は期待値の混同行列です。
分類問題に対して、混同行列は次のように作れます。はラベル、はモデルの予測です。
j = 1 | j = 2 | j = 3 | 合計 | |
i = 1 | 10 | 5 | 5 | 20 |
i = 2 | 5 | 35 | 0 | 40 |
i = 3 | 15 | 0 | 25 | 40 |
合計 | 30 | 40 | 30 | 100 |
観測値の混同行列より、ラベルとモデルの出力の分布がわかります(合計の欄)。この分布に基づく期待値の行列を期待値の混同行列と呼びます。上の観測値の混同行列を元に作ると、次のようになります。
j = 1 | j = 2 | j = 3 | 合計 | |
i = 1 | 6 | 8 | 6 | 20 |
i = 2 | 12 | 16 | 12 | 40 |
i = 3 | 12 | 16 | 12 | 40 |
合計 | 30 | 40 | 30 | 100 |
kappaだけでは有用な指標にならないので、重みを導入します。重み行列
を用いてQWKは次のように計算されます。
重み行列の要素は、ラベルラベルの関係を示す値です。二つのラベルが意味的に近いほど小さく、遠いほど大きく設定するのが理想的です。
参考にしているノートブックのkaggleの問題[1]は、6段階のレーティング問題であるため、次の式で重みを決定しています。
はラベルの数(ここでは6)です。 この式で重みを計算すると、実際に二つのラベルが同じ時に最小値0を取り、 ラベルの値の差が大きくなるにつれ重みも増加することがわかります。
は、ラベルとモデルの予測の分布の期待値に基づいて計算しているため、 いわば当てずっぽうモデルによる混同行列であると言えます。 つまり、QWKは当てずっぽうモデルと比べてどれだけ良い出力を得られているかを測る指標と言えます。
また、モデルの予測の分布はラベルの分布と等しくなることが理想です。 QWKの最大値は1ですが、これは二つの分布が等しい時にしか得られず、 QWKの最大値は二つの分布が離れるほど減少します[3]。 そのため、QWKは分類の正解数だけでなくモデルの予測の分布も評価できると言えます。
・QWKは混同行列の要素を重みづけで足した値で評価する。
・ラベル同士に順序関係などがある場合に有用である。
最後までお読みいただきありがとうございます!