R言語所蔵のサンプルデータをABC順に眺めてます。今回はlatticeパッケージのbarley、大麦の収量のデータです。かなり古い(戦前。第二次世界大戦前ってことね、念のため)データである上、ちょっといろいろケチがついてもいるデータらしいっす。でもま、処理例を適用してグラフを描くのには何の問題もないっと。
※「データのお砂場」投稿順Indexはこちら
※使用させていただいている Rのversionは 4.3.1。RStudioは 2024.04.2+764 “Chocolate Cosmos” です。
大麦の収量
さて今回のサンプルデータセットの解説ページは以下です。
Yield data from a Minnesota barley trial
戦前1930年代に得られた、米国ミネソタ州各地の大麦の収量データです。もしかするとミネソタで収穫された大麦は隣に運ばれミルウォーキーあたりでビールになるということなのやもしれませぬ。
米国なので収量(イールド)はブッシェル/エーカーです。1エーカーあたり何ブッシェルとれるかと言われても当方はピンときません。ザックリした感じだとブッシェル/エーカー表示を八十数倍すればリットル/ヘクタール表示になるかと。知らんけど。収量は「1932年と1931年」のそれぞれについて、ミネソタ州の各地(6か所みたい)で異なる品種(10品種)について測定されているようです。ただし収穫年については疑問が呈せられていて
Later authors have continued the confusion.
だそうです。さらに疑念はつづき、
Cleveland (1993) suggests that the data for the Morris site may have had the years switched.
だそうです。これは後で処理例通りにグラフ化したデータを拝見するとうなずけますが、証拠があるわけでもない?
なお現代的な大麦の収量データがないかいな、と探したところ『Washington Grain Commission』様の以下のデータを見つけました。
2022 spring barley trial results
なんだ、100年近く前とデータのとり方はほぼほぼ一緒じゃん。でも収量増加してないかい?農業技術の進歩なのか?
先ずは生データ
latticeパッケージ内のサンプルデータセットなので、latticeパッケージをライブラリ呼び出しした後にロードしてます。
aggregateしてみる
とりあえずの雰囲気をみるために、
-
- 収量と場所
- 収量と品種
- 収量と年
の3つについて aggregate してみました。コマンドはこんな感じ。
aggregate(yield ~ site, barley, mean) aggregate(yield ~ variety, barley, mean) aggregate(yield ~ year, barley, mean)
関係ないけどGrand Rapids、ミネソタにもあるのね。調べたら他にも何か所もGrand Rapidsという地名あり。ちなみにイールドは最下位。ガンバレ?
処理例どおりプロットしてみる
確かにMorrisだけ、年が入れ替わっているのではないかと疑われるのは分かりますな。