MLのお砂場(6) Classifier comparison例題をしげしげと眺めるの巻

Joseph Halfmoon

冒頭に掲げましたClassifier comparison例題の図、多くの分類器の結果が比較できるようにならんでいて壮観。印象深いものがあります。しかし「分類してるんでしょ」ということは分かるんですが、細かいことはサッパリ。まあ実際に動かして、ソースコードを読んで、説明ページも読むと。読んだら分かるようになりますかね？

※「MLのお砂場」投稿順 index はこちら

まず Scikit-Learnの例題ページへのリンクが以下です。

Classifier comparison

上記から、PythonのソースまたはJupyter-notebook形式(.ipynb)のファイルをダウンロードすることができます。こちらでは .ipynb 形式ファイルをダウンロードして、VScodeで開きました。勿論、Pythonの実行環境、Jupyter-notebook用のプラグインなどはインストール済です。VScodeの環境では、Python環境が複数あれば勝手に探し出し、venv等も処理してくれるので楽です。

ダウンロードしたファイルをVScode内で実行したところが以下に

だいたい、グラフの見方が分からない

実行すれば、ほとんど時間を置かず３行１１列の小グラフから構成される出力プロットが得られます。以下のような疑問があります。

1. 小プロットの行は何を意味しているの？
2. 小プロットの列は何なの？
3. プロットの中に色違いの丸があるけれど何なの？
4. プロットの中の等高線みたいのは何？
5. 小プロットの右下にある数字は何？

こんなとこですかね。これらを順次調べていきたいと思います。なお、VScode内にデフォルトで表示されているプロット群、老眼の目には苦しい大きさなので、別途拡大プロットで拝見することにいたしました。そのため大きなプロットを３分割。

一番左の３行４列部分

以下に大きなプロットの左端部分を切り取りました。

最左端の１列は入力データでした。しかし、入力に使っているデータセットは何なんでしょうか。そこに置かれていたデータは「生成された」データセットでした。データセットの生成については以下に説明があります。

7.3 Generated datasets

ことなる３種類の方法で生成したサンプル用のデータセットであったわけです。３種類のデータセットをプログラムの中で生成しています。その３種類が各行に対応していて、この列に生データが表示されておるというわけです。３種類の内訳というか生成関数を上から列挙すると以下のようでした。

1. make_moons
2. make_circles
3. make_classification

いずれも２次元の点(X)に対して、２値の分類(y)が当てはまるようなテストデータを生成してます。１からは渦巻き状？のもの。２からは同心円上のもの、３からは１直線で分類できそうなものが生成されているようです。なお、揺らぎというか、ノイズというかも重ね合わされており、特に３などは上記の関数で生成したものを２次加工しているような感じでした。

ここで大事なのが、赤の点と青の点があるけれど、濃い色と薄い色の２種類あるってことです。拡大してみてようやく気付きました。

- 識別器のトレーニングに使った点が濃い色（単色）
- テストに使った点が薄い色（半透明、alpha=0.6)

ということです。この生成されたデータをトレーニング用とテスト用のセットに分割する作業は、以下の関数が担っています。

train_test_split()

今後ともお世話になるんですかね？知らんけど。

この３行のデータセットに対して、列方向に異なるClassifierを適用し、その結果を並べていくわけです。上記プロットに含まれる最初の３識別器は

1. Nearest Neighbors
2. Linear SVM
3. RBF SVM

です。１は、k-nearest neighbors vote、日本語で言えばk最近傍法ということで良いのかな、です。前回はクラスタリングですが「似た方法」でした。２と３は同じSupport Vector machinesの関数使っているのですが、kenelが違うんだそうです。２はlinear kernel、３はRBF kernelです。

各小プロットの右下隅には、各識別器.score() で呼び出されている「テストデータのアキュラシーを求める関数」の値が記されています。たとえば2のLinear SVMは、線形に識別してくれるみたいなので、真ん中の行の同心円状のデータにはダメダメな結果になっているみたい。

真ん中の３行４列部分

真ん中の部分に登場する４種の識別器は以下です。

1. Gaussian Process
2. Decision Tree
3. Random Forest
4. Neural Net

１は、略称でGPC(Gaussian process classification)などと呼ばれたりもするみたいです。知らんけど。２，３は聞いたことありますが、４は「Neural Netといってもいろいろあるやんけ！」と心の中で突っ込んだら、 Multi-layer Perceptron classifier(MLPC)と呼ばれるものみたいです。素人には知らないお言葉ばかり登場で圧倒（煙にまかれる）されます。

右側の３行３列部分

最後の３列の識別器は以下の皆さんです。

1. AdaBoost
2. Naive Bayes
3. QDA

１のAdaBoostは聞いたことがありますな。２はGaussian Naive Bayes (GaussianNB)と呼ぶべきもののようです。３はQuadratic Discriminant Analysisの略。

何も分かっちゃいないのですが、ソースを読み、やっている操作が何となく分かると親しみも持てる、と。ホントか？先は長そうだが。。。

MLのお砂場(5) irisデータセットでClustering、K-means例題を読む　へ戻る

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30