前回は炭鉱事故でしたが、今回はチャールズ・ダーウイン先生の御登場です。ダーウインというと発作的に「種の起源」と唱えてしまう頭の固い年寄デス。しかし先生の偉大な業績についてはほとんど何も知らず。今回は先生指導の下行われたらしい「自家受粉と他家受粉」を比較するための実験結果のデータです。古いデータだよ、19世紀。
※「データのお砂場」投稿順Indexはこちら
このところ、R言語のパッケージbootに含まれているサンプルデータセットを abc 順にみています。今回のデータセットは darwin、勿論ダーウイン先生のお名前を冠したデータです。
自家受粉と他家受粉
今回のデータセットは、自家受粉と他家受粉の「比較」をするために計画された実験のデータらしいです。ダーウイン先生の御計画によるものらしいっす。知らんけど。
今回「自家受粉と他家受粉」で検索してみたれば、
中学受験の解説ページ、多数ヒット
であります。中学のお受験には必須の知識みたいです。ということは当然小学校で教えるカリキュラムに入っている?19世紀の「先端科学」は21世紀にいたりて小学校の課題になっているとな。ただ中学お受験のページには何やら「自家受粉と他家受粉」を暗記するための呪文のようなものが並んでおります。小学校で習ったことなどほぼ全て忘れている気がする年寄が言うのもなんですが。
ご参考のため『筑波大学 BotannyWEB』様の以下のページへのリンクを貼り付けさせていただきます。
自家受粉と他家受粉、確かに一長一短あり、また、他家受粉を優先する場合には自家受粉を防ぐ仕組みも必要。勉強のし甲斐がありそうなテーマであります(そう書いておいてやらんのかい?)
Darwin’s Plant Height Differences
さてサンプルデータセットの解説ページへのリンクは以下です。
Darwin’s Plant Height Differences
今回のデータセットをかいつまむと「同じ鉢に植えた自家受粉株と他家受粉株の8分の1インチ単位の高低差データ、全15件」であります。このデータセットの記述からは、何の植物だか分からない、発芽後どれだけの期間後のデータだか分からない、ものであります。その上データ件数15件(植木鉢が15個必要だったのね。。。)
同じ植木鉢だから「生育条件は似たようなもん」ということだろうけれども、15対のデータ少ない感じがします。まあ、Bootstrap法適用のサンプルデータなので、少ないデータをブートストラップ法でなんとかしろと。。。
先ずは生データ
まずは生データをロードしてみます(事前にbootパッケージのライブラリ・ロード必須)
シンプル(シンプル過ぎる)なデータフレーム。ただ数字が並んでいるのみ。8分の1インチ単位の整数値というところが19世紀英国風?
何かプロットしないではいられないので以下のようにヒストグラムをプロットしてみました。
hist(darwin$y, main="Darwin’s Plant Height Differences", xlab="Differences[1/8 inch]", breaks=11)
ブートストラップ法適用
訳もわからずブートストラップ法を適用してみてます。「求める」統計量は高低差の平均値としてみました。
diffMean <- function(d, i) mean(darwin$y[i])
まずサンプル数15(元のデータ点数と同じ)でブートストラップ法を適用してみたところが以下に。
平均値は21(mm単位で約67mm)くらいだけれどもバラツキはデカいっす。
R=1000で上記をやりなおした上で、95%信頼区間を求めた場合が以下に。
他家受粉の方が背が高くなる傾向ではあるみたいね。小学生でもわかる結果?