前回は1回だけPythonでの処理に行きましたが、今回はR言語でR言語所蔵のサンプルデータセットの処理に戻ります。今回のデータ自体は分かり易いと言えば分かり易いです。ビタミンCがモルモットの歯の成長に及ぼす影響についてのデータみたいです。でもねえ、このデータだけ見せられても、という感じ。処理はできるでしょうが。
※「データのお砂場」投稿順Indexはこちら
さて、今回のデータセットの解説ページは以下です。英語力ないので “Guinea Pigs” がモルモットであるとは知りませんでした。なんでなんだろ~
The Effect of Vitamin C on Tooth Growth in Guinea Pigs
60匹のモルモットに対して、2種類のサプリメントVCとOJを、ビタミンCとして3レベルのドーズ量で与えたときの歯の長さ(odontoblasts<象牙芽細胞>というもので測っているらしいです)のデータです。VCの方はアスコルビン酸として与えているみたいです。しかし、OJって何? そう思って良く読んだらば、
Orange Juice
でした。モルモットにオレンジジュースを飲ませてどうすると心の中でツッコミました。この実験データからすると、ビタミンCをオレンジジュースで飲ませるか、アスコルビン酸で飲ませるかで歯の伸びはどう違う?という実験のようです。なんだかな~。背景とか意図が書かれていないので、このデータだけをみるとどうでも良いじゃん、という感じもしないでもないデス。何か深い目論見があるのでしょうが理解できなくてすみません。
まずは生データ
何時ものように、まずは生データの確認から。ロードしてclass()を確かめれば、単純なデータフレームのようです。1匹1レコードでlenフィールドで歯の長さ(単位書いてないです。多分mm?)、suppフィールドでVCかオレンジジュースか、そしてdoseでビタミンCのドーズ量 (mg/day)が並んでいます。
とりあえず、ザックリした全貌を知るためにデータフレームを素のまま plot に渡してみました。こんな感じ。
plot(ToothGrowth)
すると、勝手に3つのデータから2つの組わせを選んでグラフを描いてくれます。supp2種類、dose量も3レベルなので、大したグラフにはなりませぬ。なんとなくドーズ量が増えると歯が伸びるような傾向があるように見えなくもないです。ただ、どちらの形態の「サプリ」の方が効くとか効かないとかはハッキリしないです。
ggplot2でグラフ化
これまた例によってで ggplot2 で、少し見栄えのするグラフに書き直してみます。こんな感じ。
library(ggplot2) g0 <- ggplot(data=ToothGrowth, aes(dose, len, color=supp))+geom_point() + labs(title="ToothGrowth") g0
オレンジジュースがオレンジっぽい色、アスコルビン酸が緑の点なので、なんとなく量が少ないとオレンジジュース、量が多いと効果が上下にバラツク、アスコルビン酸という感じ。でも、バラツキ多すぎるし、ここから何か統計処理して嬉しいことがあるのかな~。知らんけど。
上の両方のサプリメントを混ぜたプロットでは分かり難いので、suppでファセットを切ってグラフを描き直してみました。こんな感じ。
g1 <- g0 + facet_wrap(vars(supp)) g1
分離したグラフが以下に。
定番の処理としてはここに回帰曲線をフィットさせるのですが、どんなモデルが良いのか不明、このデータから考えるのも野暮なので、とりあえず線形直線回帰してみたものが以下に。
g2 <- g1 + stat_smooth(method="lm") g2
灰色のエリアは95%の信頼区間?らしいです。バラツキ大きすぎ。すくなくとも線形回帰するようなデータじゃない感じがアリアリ。
解説ページの処理例
気をとりなおして解説ページの処理例をやってみることに。ただ処理例は coplotコマンドが一つあるだけでした。以下です。
なんだかな~。私はこういう実験をした背景とか理由が知りたいデス。それが分からないと熱意もわかない。ホントか?熱意あったのか?