今回のサンプルデータセットはBreslowです。生活習慣病の研究でビッグネームの米国の先生のお名前であることは今まで知りませんでした。「ブレスローの7つの健康習慣」というものを40年以上も前に提唱されていたみたいです。知らなかった自分がお間抜け。拝見すれば今では常識的なものばかり(だけれど守れていないケド。)
※「データのお砂場」投稿順Indexはこちら
R言語向けのパッケージ boot には、サンプルデータセット多数が含まれております。それを ABC順に「舐めて」ます。今回のサンプルデータセットはBreslowとな。
breslowサンプルデータセット
米国のBreslow先生の御研究で使われたデータセットであるのでBreslow先生のお名前を冠しているようです。しかし実際にはBreslow先生の御研究から20年をさかのぼる英国のデータです。タイトルは、
Smoking Deaths Among Doctors
勝手に、「喫煙医師の死亡統計」と訳しましたがそれでよかったのかどうか?実際には、英国のDoll先生、Hill先生が英国の医療従事者(お医者さんということで良いみたい)について調査した結果のデータみたいです。多分、医療従事者ご本人のデータであれば協力をお願いしやすかったのではないかしらん。まあそれでも回答率は70%くらいみたいですが。
データとしては喫煙習慣の有無と、10年毎にクラスわけした年齢、人数x年数とcoronary artery disease(冠動脈疾患)での死亡者数の統計です。タイムスパンとしては10年だそうです。
今じゃ考えられないですが、お医者でも喫煙率は非常に高いです。吸わない人より吸っている人が遥かに多い感じっす。なお、サンプルデータセットとは直接のかかわりは不明ですが、Doll先生、Hill先生の御研究がPDF化されているのを見つけました。それ見ると1950年代にはすでに喫煙習慣にメスをいれようとしていたのが分かります。BRITISH MEDICAL JOURNAL誌掲載の以下です。
THE MORTALITY OF DOCTORS IN RELATION TO THEIR SMOOKI1NG HABITS
なお、ブレスロー先生については、日本の厚生労働省傘下のページで紹介されてます。厚生労働省 生活習慣病予防のための健康情報サイト e-ヘルスネット[情報提供]の以下です。
もっともなことばかり。でも守れないんだ、これが。
先ずは生データ
処理を始めるに先立って、boot パッケージと ggplot2パッケージを使用できるようにしておきます。今回のデータはbootパッケージ内のものなので、bootパッケージが無には始まりません。また、グラフをちょい美麗に描きたいのでggplot2も使います。
まずは生データのロードから。形式は単純なdata.frameです。
個別データ多数で、プライヤーに掛けて「圧縮」しないとならないかと思ったら、既にカテゴリ毎に集計済のデータでした。全データをダンプしても以下のようです。
ageは10歳毎の年齢カテゴリの中央値みたいです。smokeが0なら禁煙、1なら喫煙。nは人数*年数の総和、yは志望者数です。nsというのは喫煙年数*年数みたいですが、smoke * n と一致です。
死亡率を計算してみる
死亡率は10万人に対する1年間の死亡者数ということらしいので、yをnで割ったものを10万倍した上で10で割ってます。上記の統計が10年スパンということからです。そういう計算で良いのかよくわからないです。手順が以下に。
mortality<- data.frame(breslow$y*10000/breslow$n) names(mortality) <- c("mortality") breslow.work <- cbind(breslow, mortality) breslow.work$smoke[breslow.work$smoke==1] <- "Smoke" breslow.work$smoke[breslow.work$smoke==0] <- "No"
結果をプロット
上で死亡率が計算できた?ということでグラフにしてみました。ggplotつかってこんな感じ。
g0 <- ggplot(breslow.work) + geom_point(mapping=aes(x=age, y=mortality, color=smoke), size=5) g1 <- g0 + ggtitle("Smoking Deaths Among Doctors") g1
まあ、喫煙者の率の方がほぼほぼ悪いデス。でも80台で逆転されているのは不思議。まあ、80台はサンプル数も少ないケド。