今回のサンプル・データ・セットのタイトルは、Subset of C-horizon of Kola Data です。素人老人は、”C-horizon”って何? “Kola Data”って何?という世界です。解説ページには僅かな手がかりのみ。なんのこっちゃ?インターネットのお陰で出所は判明。それだけで嬉しい。しかしそれでどうするの?
※「データのお砂場」投稿順Indexはこちら
※使用させていただいている Rのversionは 4.3.1。RStudioは 2024.04.2+764 “Chocolate Cosmos” です。
Subset of C-horizon of Kola Data
今回のサンプルデータセットの解説ページが以下に。
https://stat.ethz.ch/R-manual/R-patched/library/cluster/html/chorSub.html
まず、上記の解説ページを参照するに、このデータは別パッケージ mvoutlier(outlier=ハズレ値)内のchorizonというデータの一部だけを取り出して加工を施したサブセットデータみたいです。そのデータの取り出し方法などは具体的な記述はあるものの、データセットの素性については説明がありません。chorizonのリンクをたどろうとしたら切れてました。トホホ。
まず C-horizonというのが謎です。水平線にCとかAとかあるのか?調べてみたらありました。『国立研究開発法人 森林研究・整備機構』様の以下のページ
「森林土壌博物館」森林土壌の調べ方 3.層位の区分と観察ポイント、記載方法
を拝見すると、soil horizons(土壌層位)を記述するのに、A、B、Cといった文字が使われるようです。他にもO、Eもあり、Rは最下層の岩盤みたいっす。その中でC-horizonというのは、通常は下の方にある「氷河堆積物、湖底堆積物などの母材」の層みたいです。土壌学素人のお惚け老人には新たな地平が開けましたぞ。庭に穴ぼこ掘って断面確かめるか?(「新興」住宅地なのでブルドーザでひっくり返した跡がでるだけだろうが。)
どうも土壌の組成は、水平方向にちょっと離れただけでも結構違うし、また垂直方向にも変化するようです。物理的な浸食や人為的な掘り起こしもあれば、水の影響などで成分の移動も起こる「ダイナミック」な存在らしいです。知らんけど。
さらに謎なのが、そのソース「Kola project」です。ざっくり検索すると「Kola」の名をいただくプロジェクトは結構いっぱいある、という結論に達しました。その中をほじくって判明したのは以下です。3か国の共同研究(地質学)プロジェクトみたいです。
Kola Project (1993-1998)
-
- Finland (GTK)
- Norway (NGU)
- Central Kola Expedition (CKE), Russia
Kolaは「コラ半島」のコラですね。当時は北極海に面する3か国で共同研究などもやっていたのね。
そして今回のサンプル・データ・セットは、そのプロジェクトで取得された各種のデータのうちのそのまたサブセットだという理解です。
先ずは生データ
上記のように、61行x10列のテーブルです。各行はデータを取得した点(それぞれ穴ぼこを掘って土壌を掘り起こしたのだろうね)で、各列は成分元素の「量」らしいです。多分、成分元素の絶対量は元素によって大きく異なると思われるので、何等かの方法で「正規化」した数字みたいです。0を中心にプラスマイナス両方向にバラつくようになっているみたい。
pairsとってagnes
処理例では、pairs関数(行列のスキャッタ・プロット)を使うことになっていたのでやってみました。こんな感じ。
pairs(chorSub, gap= .1)
上記から外れ値などを見つけよ、ということみたいです。P(リン)などみると右端の1点あるがために、他の点がぐしゃっと左に寄っていたりするし、こういうのが外れ値なのかね~。知らんけど。
ざっくりした傾向を見てしまうと、Al、Ca、Fe、K、Mg、Mn、Tiといった「金属」どもは相互に正の相関あるような感じ。一方、Na、P、Siなどとは相関が無いか、負の相関?かも。土壌のことは分からんが。
せっかくの clusterパッケージのサンプルデータセットなので、外れ値などものともせず、クラスタリングしてみました。お願するのはアグネス様です。こんな感じ。
plot(agnes(chorSub), ask = TRUE)
描いてもらっただけ。後は野となれ山となれ。いや北の森林地帯か?