
現在R言語の「MASS」パッケージのサンプル・データ・セットを巡回中。今回のデータセットはオランダでのデータです。北海に面したテルスヘリング島という島の牧草地というか草地の管理について、MCA(多重対応分析)を行うものみたいです。例によって素人老人にはサッパリっす。でも生成AI様はオランダの島のこともよーく御存じ。
※「データのお砂場」投稿順Indexはこちら
Ecological Factors in Farm Management
今回のMASSパッケージのサンプル・データ・セットは、 farms です。解説ページが以下に。
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/farms.html
オランダの地図を眺めていると、北海に面したあたりに点々と島々が連なってます。今回のデータセットの「舞台」テルスヘリング島という島はその中の真ん中付近の存在感のある島みたいっす。調べてみると「観光地」でもあるみたい。といって、人々が大挙して押し寄せるような場所ではなく、静かに自然と歴史を噛みしめるタイプの場所みたいです。行ったことないし。そして古来、難破船(やその積み荷)が打ち寄せられる場所でもあるみたい。今でも荷崩れで落ちたコンテナが流れつくとか着かないとか。ホントか? 知らんけど。
先ずは生データ
生データをロードして、広げて眺めることは素人老人でも容易。こんな感じっす。
4変数ありますが、全てFactor(カテゴリカルな変数ね。)そのココロは以下のごとし。
-
- Mois、土壌水分、 5レベル。ただしレベル3は不在なので実質4レベル。
- Manag、草地管理タイプ、4タイプ(SF=標準、 BF=生物的、HF=趣味農業、 NM=自然保護)。その意味するところは後で生成AI様に教えてもらうっと。
- Use、草地利用タイプ、3タイプ(U1=乾草生産、U2=中間、U3=放牧)。
- Manure、肥料の使用レベル、クラスC0からC4まで5レベル。C0が一番少なくて、C4が多いってことだと思う。
解説ページに掲載の処理
どうもこのデータは、多重対応分析(Multiple Correspondence Analysis, MCA)を勉強するときに、「知らないとモグリ」な典型的なデータ・セットであるようです。MCAは、生成AI様に教えてもらったところ、
「アンケート結果などのカテゴリーデータ(名義尺度)を、主成分分析(PCA)のように図示して関係性を可視化する手法」
だそうです。さてサンプル処理ではMCA関数を使ってMCAを実施した後、eqscplot関数を使ってプロットを行ってます。こんな感じ。
farms.mca <- mca(farms, abbrev = TRUE) eqscplot(farms.mca$cs, type = "n") text(farms.mca$rs, cex = 0.7) text(farms.mca$cs, labels = dimnames(farms.mca$cs)[[1]], cex = 0.7)
eqscplotを使うのは、MCA解析では「画面上での距離」が問題となるので(距離の近さは関係性の近さ、ホントか?)縦横合わせたいからみたい。
まずは、グラフの縦軸、横軸が気になるんだが、生成AI様によると
そんなもんかい。
生成AI(Gemini様)の御教示
素人老人が、オランダの島の草地利用の方法について云々言っても分からんので、なんでもよくご存じのGemini様に御伺いをたてました。
Manag(紫)と、Manure(緑)に着目してグラフを色分け(人手じゃ)してみるとこんな感じ。赤線の交点が「平均」ってことで。

お惚け老人には、ざっくり「3極」に分かれているように見えるんだが。右上、左上、真下と。
上記のように生成AI様は上の左右の両極にのみ言及して、下のHFとかBFとかは「踏みつぶしている」感じがするんだが。そんなもんなのか。


