データのお砂場(112) R言語、darwin、自家受粉と他家受粉の高低差、{boot}

Joseph Halfmoon

前回は炭鉱事故でしたが、今回はチャールズ・ダーウイン先生の御登場です。ダーウインというと発作的に「種の起源」と唱えてしまう頭の固い年寄デス。しかし先生の偉大な業績についてはほとんど何も知らず。今回は先生指導の下行われたらしい「自家受粉と他家受粉」を比較するための実験結果のデータです。古いデータだよ、19世紀。

※「データのお砂場」投稿順Indexはこちら

このところ、R言語のパッケージbootに含まれているサンプルデータセットを abc 順にみています。今回のデータセットは darwin、勿論ダーウイン先生のお名前を冠したデータです。

自家受粉と他家受粉

今回のデータセットは、自家受粉と他家受粉の「比較」をするために計画された実験のデータらしいです。ダーウイン先生の御計画によるものらしいっす。知らんけど。

今回「自家受粉と他家受粉」で検索してみたれば、

中学受験の解説ページ、多数ヒット

であります。中学のお受験には必須の知識みたいです。ということは当然小学校で教えるカリキュラムに入っている?19世紀の「先端科学」は21世紀にいたりて小学校の課題になっているとな。ただ中学お受験のページには何やら「自家受粉と他家受粉」を暗記するための呪文のようなものが並んでおります。小学校で習ったことなどほぼ全て忘れている気がする年寄が言うのもなんですが。

ご参考のため『筑波大学 BotannyWEB』様の以下のページへのリンクを貼り付けさせていただきます。

自家受粉と他家受粉

自家受粉と他家受粉、確かに一長一短あり、また、他家受粉を優先する場合には自家受粉を防ぐ仕組みも必要。勉強のし甲斐がありそうなテーマであります(そう書いておいてやらんのかい?)

Darwin’s Plant Height Differences

さてサンプルデータセットの解説ページへのリンクは以下です。

Darwin’s Plant Height Differences

今回のデータセットをかいつまむと「同じ鉢に植えた自家受粉株と他家受粉株の8分の1インチ単位の高低差データ、全15件」であります。このデータセットの記述からは、何の植物だか分からない、発芽後どれだけの期間後のデータだか分からない、ものであります。その上データ件数15件(植木鉢が15個必要だったのね。。。)

同じ植木鉢だから「生育条件は似たようなもん」ということだろうけれども、15対のデータ少ない感じがします。まあ、Bootstrap法適用のサンプルデータなので、少ないデータをブートストラップ法でなんとかしろと。。。

先ずは生データ

まずは生データをロードしてみます(事前にbootパッケージのライブラリ・ロード必須)DarwinRawData

 

シンプル(シンプル過ぎる)なデータフレーム。ただ数字が並んでいるのみ。8分の1インチ単位の整数値というところが19世紀英国風?

何かプロットしないではいられないので以下のようにヒストグラムをプロットしてみました。

hist(darwin$y, main="Darwin’s Plant Height Differences", xlab="Differences[1/8 inch]", breaks=11)

プロット結果が以下に。DarwinHist

ブートストラップ法適用

訳もわからずブートストラップ法を適用してみてます。「求める」統計量は高低差の平均値としてみました。

diffMean <- function(d, i) mean(darwin$y[i])

まずサンプル数15(元のデータ点数と同じ)でブートストラップ法を適用してみたところが以下に。

bootR15a

 

この結果をプロットしてみたものが以下に。bootR15

平均値は21(mm単位で約67mm)くらいだけれどもバラツキはデカいっす。

R=1000で上記をやりなおした上で、95%信頼区間を求めた場合が以下に。bootR1000ci

他家受粉の方が背が高くなる傾向ではあるみたいね。小学生でもわかる結果?

データのお砂場(111) R言語、coal、約100年間の炭鉱事故の日付、{boot}に戻る

データのお砂場(113) R言語、dogs、家犬の心臓に関するデータ、{boot} へ進む