R言語に所蔵されとりますサンプルデータをABC順(大文字先)で端から眺めております。処理方法をお勉強するためのデータなので、古かろうがどうだろうが関係ないのですが、今回のデータも1940年、年代もの。米国バージニア州の死亡率データらしいです。でもこれが3元の分散分析のよさげな例なんだとか。知らんけど。
※「データのお砂場」投稿順Indexはこちら
今回のサンプルデータセット VADeaths の説明ページが以下にあります。
Death Rates in Virginia (1940)
上記から1箇所引用させていただきます。
This provides a rather nice 3-way analysis of variance example.
ということで、このデータは3元の分散分析(analysis of variance)することになるようです。分散分析、以前に勉強した?もう忘れてます。以下のページを参照させていただいたような気がします。
それにしても1940年、昭和15年、風雲急を告げている時代です。既に第二次大戦は始まってます。英独はバトル・オブ・ブリテンだし、ソ連とフィンランドの間の冬戦争もあり。日米はまだ第二次大戦に未参戦とはいえ、日本は泥沼の日中戦争にどっぷり、アメリカもいつでも参戦できる感じの準備を進めておる、と。ヤバイ時代です。今の時代のきな臭さは「いつか来た道?」桑原桑原。
まずは生データ
生データを見てみると小さなものです。以下のように一覧できてしまいます。
「死亡率」データは、1000人*年あたりのオナクナリになられた人数ということのようです。如何にも戦前だなと思われるのが、5歳毎の年齢で「層別」されているグループが74歳までしかないことですな。現在の日本に当てはめると100歳以上というグループまで必要かと。
因子としては、RuralとUrban、MaleとFemaleの組み合わせですか。バージニア州には行ったことないですが、全部Ruralじゃないのみたいな気がするのは私の偏見ですかね。まあね、年齢とあわせて合計3つの因子についてその因子の影響を解析するのであるますかな。
処理例どおりに処理してみる
今回は、サンプルデータセットの説明ページに処理例がバッチリ書かれているので、つべこべ言わずにそのままコピペで実行してみました。こんな感じ(手抜きだな、いつものことか。)
coplotの結果は冒頭のアイキャッチ画像に掲げました。結果の分散表は上記の黒字部分にあります。各列は
-
- Df 自由度
- Sum Sq 変動
- Mean Sq 不偏分散
- F value 分散比
- Pr(>F) P値
です。右側に * の数で示されているのが、下の方に書かれている有意水準に対しての評価?みたいです。***(星三つです)ともなると有意水準0.001よりも小さい、バッチリ(何が)だと。age(年齢)、gender(性別)は星三つね。この辺はデータ見ないでも皆知ってます。site(UrbanかRuralか)は星2つ。それでも有意水準0.01で「UrbanとRuralで平均値が等しい」という仮説は棄却できるのだと。データ一見しただけでそんな感じじゃないかと直ぐ分かるのだけれど。。。
その後も解析結果の吟味は続き、プロットしてます。前回もこのプロットの意味をシミジミ勉強しないとと思ったのです(が、勉強してません。)計算しただけ、後はパス。
良く意味が分からないグラフが以下に。いつか勉強しよう。。。いつやるのか?今じゃない?
ホント例題そのまま。やっつけ。