R言語所蔵のサンプルデータをABC順に眺めてます。今回はlatticeパッケージのUSMortality、死亡率のデータです。目出度いデータとは言いずらいですが、過去回でも何度か遭遇してます。医療関係、あるいは保険関係など、統計が大活躍する分野の重要データです。過去回に比べると2010年代のデータなので新しいデス。
※「データのお砂場」投稿順Indexはこちら
※使用させていただいている Rのversionは 4.3.1。RStudioは 2024.04.2+764 “Chocolate Cosmos” です。
lattice
前回までggplot2パッケージでしたが、今回からlatticeパッケージ所蔵のデータセットを眺めていきます。ggplot2もlatticeも可視化のためのパッケージですが、latticeは結構高水準で一撃で何でもやってくれる関数が多数みたいです。不慣れなので処理例にしたがって練習してみる予定。
死亡統計?
以下の過去回で死亡率を扱ってます。
データのお砂場(36) R言語、VADeaths、戦前1940年の米バージニア州の死亡率とな
データのお砂場(100) R言語、breslow、喫煙医師の死亡統計? bootパッケージ
上記以外でも関連したデータを扱っているかもしれません。さて今回のサンプルデータセットは、
Mortality Rates in US by Cause and Gender
米国全年齢層死亡率を、地域、死因、性別、都市農村の変数について集計したデータです。2011年から2013年のデータです。古いものが多いRのサンプルデータセットの中では、新しいんでないかい。
データ自体は、Department of Health and Human Services様(HHS、日本の「旧」厚生省みたいなもん>)が出典みたいです。
死亡率は、人口10万人あたりの人数です。
サンプルデータセットは、全米をまとめた
USMortality
というものと、10のリージョン(地域)毎に集計した
USRegionalMortality
という2つあります。10のリージョンは、HHS様が管轄を10の地域に分けているようなのでその範囲です。気候風土などが近い数州をまとめてリージョンにしてある感じなのですが、9のサンフランシスコ・リージョンをみるとカリフォルニアやハワイにとどまらずグアム、マリアナ諸島など太平洋地域の島嶼など広大な地域が含まれているみたい。
先ずは生データ
latticeパッケージ内のサンプルデータセットなので、latticeパッケージをライブラリ呼び出しした後にロードしてます。まずは全米をまとめたUSMortalityデータセット。
死因の英単語がお惚け老人にはイマイチ怪しかったので、辞書引いて調べましたぞ。こんな感じ。
-
- Alzheimers アルツハイマー
- Cancer 癌
- Cerebrovascular diseases 脳血管疾患
- Diabetes 糖尿病
- Flu and pneumonia インフルエンサと肺炎
- Heart disease 心臓病
- Lower respiratory 下気道(感染症)、気管支炎
- Nephritis 腎炎
- Suicide 自殺
- Unintentional injuries 事故
お惚け老人には結構気になる死因が多いです。
どうも、USMortalityサンプルデータセットは上記の10の死因毎に、都市部か農村部か、男性か女性かという4通りの条件をつけて死亡率と標準誤差を求めたもののようです。よって10x4通りで40行。
一方HHSのリージョン毎集計のUSRegionalMortalityサンプルデータセットが以下に。
こちらは上記のデータを10のリージョン毎に分けて集計しているので400行とな。
処理例をグラフにしてみる
このデータセットについてはdotplotつかった処理例2つが存在してました。どちらも似た感じです。まずは最初の処理例。
つづいてUSRegionalMoralityの方をプロットする場合の処理例が以下に。
プロットはできた。よくみれば怖いデータだが。