今回からはRのパッケージ「cluster」所蔵のサンプル・データ・セットを経めぐりたいと思います。パッケージのお名前通り「クラスタリング」用のサンプルデータ多数みたいです。初回の今回は、agricultureとな。どうも今をさること30年ほど前のEU域内の農業従事者の特性を国別にクラスタリングするためのもののようです。
※「データのお砂場」投稿順Indexはこちら
※使用させていただいている Rのversionは 4.3.1。RStudioは 2024.04.2+764 “Chocolate Cosmos” です。
European Union Agricultural Workforces
今回のサンプルデータセットの解説ページが以下に。
European Union Agricultural Workforces
1993年といえば、かの有名にしてEUの根幹をなすマーストリヒト条約発効の年であります。その年にEUの統計を支えているらしいEurostat (European Statistical Agency)様が集めたデータの一部みたいです。それ以前からECなどのお名前の元に活動していた組織が起源だと思うのですが、EUと看板を掲げなおしたその最初、加盟国は12か国だったみたいです(オリジナル12とかそういうことは言わんよな?)。そこでちょっと困ったのが、今回のデータセットの各レコードに振られている国を示す文字列です。1文字から最大でも3文字。いわゆる国際的に使われる3文字の国コードとはまったく異なります。なんだか欧州っぽいです。まあ、統計処理するだけならこの記号はどこの国と言わなくても成り立ちますが、元より野次馬、知らずにはいられませぬ。ここで参考にさせていただいたのが、EUの情報を日本人各位にお知らせいただける『EU MAG』様の以下のページです。
上記ページから1か所引用させていただくと、加盟国の順序は、
自国語による国名のアルファベット順が正式な順序
であるようです。自国語がミソっす。ここから E はスペインであることが分かりました。エスパーニャのEね。そしてドイツはGermanyのGではなく、DeutschlandなのでDです。ただね、Dはドイツ?で、DKはデンマーク?と思ったのですが、ドイツ語というとDKと綴ることあるよね。。。ここの部分、情報なく確定できないでいます。一応、当方の勝手な解釈では以下のとおり。
-
- B ベルギー
- DK デンマーク?
- D ドイツ?
- GR ギリシャ
- UK 英国
- E スペイン
- F フランス
- IRL アイルランド
- I イタリア
- L ルクセンブルク
- NL オランダ
- P ポルトガル
ご存じのとおり、UK様は今や抜けておられます。この時点ではそんなこと夢にも思わんかったろうなあ。
さてサンプルデータセット自体は、各国の1993年時点の「ひとりあたり」GNP(国民総生産、最近はGDPだったりGNIだったり別な指標が幅をきかせてますが30年前です。)と農業従事者の割合を列挙したデータです。
なお蛇足ですが、『Eurostat』様のEUの農業従事者に関する以下のページ(最近のデータ)を拝見し、日本と同じじゃ、という感想を持ちましたです。
農業従事者における高齢者の割合高いです。見事というしかない逆三角形のひっくり返ったピラミッド。若者はほぼほぼ皆無。
まずは生データ
ライブラリを開き、サンプルデータセットをロードしたところが以下に。
library(cluster) data("agriculture")
列Xが一人あたりのGNP(単位は?です。まだユーロは無かったハズ)で、列Yが農業従事者の「パーセンテージ」です。母数は全産業の従事者数なのかしら?
今回のパッケージはクラスタリング用です。前回のブートストラップ法のBootパッケージが、サンプルデータセットのごく一部にしかブートストラップ法の処理例が記されていなかったのに比べると、クラスタリング処理例多いように思われます。この agriculture用のクラスタリング処理例も多数。とても全部やりきれないので、今回は、以下に解説がある daisy と agnes だけやってみました。なんで、デイジーにアグネス?
daisy
デイジー様の解説ページは以下です。
Dissimilarity Matrix Calculation
「相違のレベル、距離的なもん」を表にして比べてくれるみたいです。アルゴリズムは知らんけど。結果はこんな感じ。ユークリッド距離ということで良いのかな。
agnes
アグネス様の解説ページが以下です。
Agglomerative Nesting (Hierarchical Clustering)
こちらを使うといかにもクラスタリングなプロット(他にもあるけど)を得ることができます。
右と左の2つのクラスタに大きく分かれるみたい。ちなみに右はIRL=アイルランド、E=スペイン、P=ポルトガル、GR=ギリシャ の4か国っす。農業国枠ってことかい?左のクラスタの中ではイタリアが一番右に近い感じがするのも分かる気がしないでもないデス。