MLのお砂場(5) irisデータセットでClustering、K-means例題を読む

Joseph Halfmoon

少し間が空いた期間に方針変更いたしました。最初はよそ様の書かれた立派なコードを読むに限ると。いくらTOYデータセットと言えども、いろいろな処理が可能なわけで知識の無い私があがくより、まずはお手本を読もうと。データセットはIrisのままですが、処理はClassificationではなくClusteringです。

今回のお手本

今回お手本にさせていただいたのが以下のページです。K-means法でIrisデータセットをクラスタリングしてみるもの。知識不足の私でも K-means法はホンワカ分かります。平均点から近いものをまとめていくのだよね。

K-means Clustering

まずは、サンプルプログラムをそのまま実行し、そのコード中で「キモ」な部分を読んで行く、という目論見であります。

方針変更のついでに実行環境も、素のJupyter-Labから、VScode上のJupyter-notebookに変更しました。こちらの方がサンプルの実行が楽。ついでに呼び出しているPythonモジュールなど、アチコチ飛び回って読むのも楽。

上記サイトからダウンロードしたサンプルプログラムを起動したところが以下に。

エディタ環境なので、コンテキストメニューから「定義に移動」など選択すれば、即座に該当のファイルへ飛べます。KMeansのクラスをインスタンス化しているコードにカーソルを合わせて「跳べば」（F12キー一発）、今回、肝心のKMeansクラスの定義へと飛び込むことも簡単。

サンプルプログラム

サンプルプログラムを動かすと、３次元プロットが４枚生成されるようになっていました。内訳は以下のとおり。

８クラスタ
３クラスタ
３クラスタの初期値がBAD
Ground Truth (実データと言ったら良いですかね？）

K-Means法は、何個のClusterに分けるのかは外から与えると。ここではデータセットは既知であります。３種類のIris（アヤメの花）についてのデータです。事前知識からするとIrisを８個のクラスタに分けるのは意味なしな感じですが、知らなければ何個にするのかで結果が異なって見える筈。最初の例はそこを確かめているのだと思われます。

２番目の３クラスタがデータセット上、一番座りが良い筈の指定でしょう。それに対して、「３クラスタの初期値がBAD」は、初期値（クラスタの中心点）の決め方に大きく依存するK-Means法なので、初期値の決め方を変えたらどうなるか見ているみたい。

最後のGround Truthは、実データを同形式の３次元プロットに落としたもの。クラスタリングの結果と比べるためのものと思われます。

さて、キモと思われる部分が以下です。

上の３つの条件にあわせて、KMeansのインスタンスをセットしているところ。上二つについては初期化の方法が書いてないです。省略時のデフォルトはKMeans++法で決める、ということだそうで。それに対してBAD言われてしまっている最後のケースでは random だと。それでBADなのね。成り行きということは、やる度に変わるかも知れんということですな。

８クラスタ

最初の結果は、テキトーにともかく８グループに小分けにしてみましたという感じっすね。

３クラスタと３クラスタBAD

３クラスタは、後に出てくる実データと見比べてもそれほど違いがない感じです。とくにBADとか言われている初期値ランダムに選んでいるものでもそれほど違いが無いのでないですか？素人目にはそう見えます。ただ、毎回結果が変わるかも知れんといわれるとね。

BADの時（の一例）が以下に。

実データ

Irisデータセットの中に花の種類データのフィールドが含まれているのでそれをそのままプロットしたものが以下ですな。前回見たとおりSetosaという種類は明らかに違うのだけれど、他の２種はどうやってみても被る部分があることはやってみて知っています。

さきほどの３クラスタの結果は完全一致でないですが、結構雰囲気でているんじゃ。評価の仕方など知らんけど。

さて、実データのプロットのところを眺めていて、ちょっと真似したいテクを発見。花の御名前のテキストラベルをプロットしているところです。花名のラベルでデータを検索して、X,Y,Zの値の平均値（Zだけ＋２して上にくるようにしている）からテキストの座標を決めているところ。スマートですな。KMeansでなくても平均値は使い道があるのね。

最後に疑問が

Irisデータセット、Sepal（がく片）とPetal（花弁）それぞれWidth,Lengthあるので合計４データで１組であることは前回見て来たとおりです。むむ、今回の処理ではSepal Width使ってないですな。３次元プロットで見せたかったので、１個除いただけのような気もしますが、何で Sepal Widthを除いたの？という疑問もあり。プログラムのソースに現れない「ヒューリスティックス」がある？

MLのお砂場(4) irisデータセットその２、Classification最初の一歩　へ戻る

MLのお砂場(6) Classifier comparison例題をしげしげと眺めるの巻　へ進む

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30