
Rのサンプルデータベースを経めぐってます。知らんかった事柄が多数。でも知ったからといって何なの?という事柄も多し。それでも野次馬根性、知りたくはあり。さて今回はMASSパッケージの caith です。ケイスネス? 何それ、と思ったら、地名でした、スコットランドの。荒涼とした北の大地が目に浮かびます。行ったことないケド。
※「データのお砂場」投稿順Indexはこちら
Colours of Eyes and Hair of People in Caithness
今回のサンプル・データ・セットについての解説ページが以下に。
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/caith.html
Caithnessというのは、スコットランドでもハイランド地方にある地名(郡)みたいです。地図を見やればグレートブリテン島の東北端。その先は海ね。まあ島はあるけど。日本でいったら下北半島的な?
先っぽといいつつ、海を越えればノルウェーはすぐそこ? 古来より、ゲール人(ケルト系の人々)、北欧系、そしてアングロサクソン系といろいろな人々が行きかう地域であったみたい。まあ日本の小さめの県くらいの面積、たいらな土地、に数万人くらいの居住者みたいなので日本的な感覚からするとかなりスケスケでないかと。
そういうことで「いろいろな系統」の人々が混在する場所の人々の瞳と髪の色の分類データ(それほど規模は大きくない)が今回のサンプルデータセットみたいです。日本じゃ流行りそうにない分類だけれども。データセットは4行5列の集計表で、
-
- 行:瞳の色(青、明るい、中間、暗い)
- 列:髪の色(明るい、赤、中間、暗い、黒)
をとって、それぞれの人数を記してあるみたい。
コレスポンデンス分析(Correspondence Analysis、対応分析)
今回、瞳の色と髪の色という2つの質的変数のクロス集計表を分析するにあたって、
コレスポンデンス分析
をせよ、という思し召しみたいです。
「行と列のカテゴリー間の関連性を視覚化」
するということらしいです。マーケッティング資料などでよく目にするアレみたい。MASSパッケージには、
corresp
というまさにピッタシな関数が収蔵されているのでこれを使えと。上記の解説ページに処理のサンプル例が載っていたので後でやってみます。
先ずは生データ
今回のデータセットはフツーのデータフレーム形式ですが、素のまま表示すれば4行5列のテーブルに見えるので、それがいちばん良い感じです。
corresp適用
さて、解説ページに指示どおり corresp関数を適用した結果が以下に。
最初の数値、Canonical Correlationは正準相関というものみたい。縦横の軸の間の相関ということ良いのかな。知らんけど。また、行、列毎に「スコア」がならんでいると。しかし、数字でみてもイマイチ。
処理例ではplotしてくれているので、処理例通りにプロットしたものが以下に。
3枚のプロットが出力されました。しかし、老眼の目では見難いのう。そこで以下のようにして、上のプロットの一番左相当のプロットを大きく描いてもらいましたぜ。手順は以下に。
res <- corresp(caith, nf=2) biplot(res)
黄色と緑色の四角はお惚け老人が「関連性が高い」んでないのと思ったグループを勝手に囲ったもの。「ブラックな髪とダークな瞳」「明るい髪色とブルーや明るい瞳」は関連しているんでないの?という感じ。まあ、予想通りか。真ん中辺はムツカシーです。なお、
行同士や列同士の距離は意味を持つが、行と列の点の間隔をユークリッド距離だと思うなよ
ということみたいっす。

