データのお砂場(163) R言語、barley、大麦の収量試験、{lattice}

Joseph Halfmoon

R言語所蔵のサンプルデータをABC順に眺めてます。今回はlatticeパッケージのbarley、大麦の収量のデータです。かなり古い(戦前。第二次世界大戦前ってことね、念のため)データである上、ちょっといろいろケチがついてもいるデータらしいっす。でもま、処理例を適用してグラフを描くのには何の問題もないっと。

※「データのお砂場」投稿順Indexはこちら

※使用させていただいている Rのversionは 4.3.1。RStudioは 2024.04.2+764 “Chocolate Cosmos” です。

大麦の収量

さて今回のサンプルデータセットの解説ページは以下です。

Yield data from a Minnesota barley trial

戦前1930年代に得られた、米国ミネソタ州各地の大麦の収量データです。もしかするとミネソタで収穫された大麦は隣に運ばれミルウォーキーあたりでビールになるということなのやもしれませぬ。

米国なので収量(イールド)はブッシェル/エーカーです。1エーカーあたり何ブッシェルとれるかと言われても当方はピンときません。ザックリした感じだとブッシェル/エーカー表示を八十数倍すればリットル/ヘクタール表示になるかと。知らんけど。収量は「1932年と1931年」のそれぞれについて、ミネソタ州の各地(6か所みたい)で異なる品種(10品種)について測定されているようです。ただし収穫年については疑問が呈せられていて

Later authors have continued the confusion.

だそうです。さらに疑念はつづき、

Cleveland (1993) suggests that the data for the Morris site may have had the years switched.

だそうです。これは後で処理例通りにグラフ化したデータを拝見するとうなずけますが、証拠があるわけでもない?

なお現代的な大麦の収量データがないかいな、と探したところ『Washington Grain Commission』様の以下のデータを見つけました。

2022 spring barley trial results

なんだ、100年近く前とデータのとり方はほぼほぼ一緒じゃん。でも収量増加してないかい?農業技術の進歩なのか?

先ずは生データ

latticeパッケージ内のサンプルデータセットなので、latticeパッケージをライブラリ呼び出しした後にロードしてます。barleyRawData

 

aggregateしてみる

とりあえずの雰囲気をみるために、

    1. 収量と場所
    2. 収量と品種
    3. 収量と年

の3つについて aggregate してみました。コマンドはこんな感じ。

aggregate(yield ~ site, barley, mean)
aggregate(yield ~ variety, barley, mean)
aggregate(yield ~ year, barley, mean)

まず場所別。barleySite

関係ないけどGrand Rapids、ミネソタにもあるのね。調べたら他にも何か所もGrand Rapidsという地名あり。ちなみにイールドは最下位。ガンバレ?

続いて品種別。barleyVariety

最後は問題の年別。barleyYear

処理例どおりプロットしてみる

処理例あり。dotplotです。処理はこんな感じでした。barleyDotplot

プロットが以下に。barleyPlotSample

確かにMorrisだけ、年が入れ替わっているのではないかと疑われるのは分かりますな。

データのお砂場(162) R言語、USMortality、米国における死亡率、{lattice}へ戻る

データのお砂場(164) R言語、environmental、NYの空気、{lattice} へ進む