R言語所蔵のサンプルデータセットを、ABC順(大文字先)で端から眺めております。今回は chickwts です。でも以前にも眺めたような?デジャヴ? いえ、第5回、第6回とChickWeightというチキンの肥育データを扱っておりました。今回は小文字始まりのchickwtsです。やはりチキンの肥育。でも内容は違うと。
※「データのお砂場」投稿順Indexはこちら
以前のChickWeightは、トリさんの肥育データでしたが、時間とともに育つ成長曲線?のデータでした。今回の chickwts は、孵化後6週間目の体重(g)のデータです。ファクタはただ一つ。与えたエサの種類とな。データセットの解説ページが以下に。
エサの種類は解説ページには書かれておりませんが、データから列挙したものが以下に。
-
- casein ガゼイン(乳タンパクの主要成分)
- horsebean ソラマメ
- linseed アマニ(アマの種子)
- meatmeal 肉紛
- soybean 大豆
- sunflower ひまわり
ううむ、トウモロコシとか、麦とか米とか、今の日本で飼料として一般的そうなものが全然入ってないのね。。。それに肉紛って何。もしかして肉骨粉のことですかい?プリオン病で問題になったやつ?牛の肉骨粉を鶏に与える分には種も違うから大丈夫なのか?
このR言語所蔵のサンプル・データ、いつものとおり古いです。このデータは「比較的新しい」ですが、1948年に公開されたものみたい。当時の米国の農村とでは大分違うか。
まずは生データ
シンプルなデータフレームです。グラム単位の体重(weight)と、上記の餌の種別を示すfeedと2列しかありません。上記のようにsummaryを取れば、全データ通しでの体重の平均、最小、最大、そして餌の種類毎のデータ数などが分かります。
餌の種類毎の体重を比較するのが本題じゃないかと思うので、種類毎にグループわけして平均値を求めてみました。こんな感じ。
ガゼイン蛋白と、ひまわり(当然タネでしょう)が太りそう。ソラマメはダメなのね。。。残念だな。
処理例に従って処理してみる
今回の解説ページには、処理例の記載があります。最初にボックスプロットやってます。
処理例どおりにしているのだけれど、上記をみるとwarning 出てますな。実際に描かれた箱ひげ図が以下に。
「ノッチ」で中央値(メディアン)を強調しているのでしょうけれど、上みると確かにノッチは返って邪魔かもしれないっす。
折角の処理例のご指定ですが、勝手に notch=FALSEにしてみたものが以下に。
私としてはノッチを入れない方が好みデス。
処理例では箱ひげ図を描いた後、ANOVA(分散分析)をやってます。教科書的には、分散分析して「餌と体重は無関係」という帰無仮説を棄却しなければいられないっと。ホントか?
Prの欄をみるとー10乗の桁なので、棄却ってことでいいんですよね。そしてanovaの結果のグラフ化もしてます。
毎度見るけれど、踏み込めないし、踏み込みたくもないグラフよな。