
MASSパッケージのサンプルデータセットを巡回中。大文字優先のABC順。今回は birthwt です。老人の朧げな記憶では、昔は「未熟児」と呼称していたような。今は「低出生体重児」と唱えるみたいです。変更理由は知らず。データそのものは1980年代の米国のデータです。「リスクファクタ」を推定するためのものみたい。
※「データのお砂場」投稿順Indexはこちら
Risk Factors Associated with Low Infant Birth Weight
今回のサンプル・データ・セットについての解説ページが以下に。
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/birthwt.html
このデータ・セット自体は1986年において、米マーサチューセッツ州の特定の病院で収集されたものみたいです。低出生体重児に関連する危険因子を調べるためのものだったみたい。含まれている変数は以下の如し。
-
- low 出生体重が2.5kg未満か否か
- age 母親の年齢
- lwt 最終月経時の母親の体重(ポンド単位)
- race 母親の人種(1=白人、2=黒人、 3=その他)
- smoke 妊娠中の喫煙状況
- ptl 過去の早産回数
- ht 高血圧の既往
- ui 子宮過敏症の有無
- ftv 妊娠初期における医師の診察回数
- bwt 出生体重(グラム単位)
出生体重が2.5kg未満か否かで線引きするのはWHOの基準みたいっす。お惚け老人には背景知識が無いのでWebを漁ってみたところ、『厚生労働省』様の以下のPDFファイルを見つけました。
どうも母親の年齢に関しては若すぎても年齢があがっても低出生体重児になる確率があがるみたいです。また、明らかに喫煙の影響があるみたい。まあ、日本では、母親の人種とかいう集計は無いみたいだけれど。
先ずは生データ
どうもfactor的な変数が多いみたいです。ただし factor 化はされておらず、皆intです。件数集計するときはお楽?
全体の中の低出生体重児
サンプルデータには、低出生体重児該当のお子様もそうでないお子様もいらっしゃるので、まずは出生時の体重の分布の全貌を眺めてみます。
hist(birthwt$bwt, xlab="birth weight[g]", main="Infant Birth Weight")
そのときのヒストグラムが以下に。赤色で書き添えたのは「低出生体重児」該当部分です。
お母さんの喫煙の影響?
厚生労働省様の資料を拝見しても、喫煙者のお母さまから低出生体重児がお生まれになる確率はあがるみたいなので、ざっくりした計算をやってみました。こんな感じ。
上の0.25ナンチャラは、非喫煙者から低出生体重児がお生まれになった割合、下の0.40ナンンチャラが、喫煙者から低出生体重児がお生まれになった割合っす。確かに結構違うね。
ただ数字だけだとイマイチなので、喫煙、禁煙別にヒストグラムを描いてみるのが以下に。
birthwt.smoke <- birthwt[birthwt$smoke==1,]$bwt birthwt.nonsmoke <- birthwt[birthwt$smoke==0,]$bwt layout(t(1:2)) hist(birthwt.smoke, xlab="birth weight[g]", main="Smoke", col = "salmon") hist(birthwt.nonsmoke, xlab="birth weight[g]", main="Non Smoke", col = "skyblue")
そのプロット結果が以下に。
解説ページに掲げられている処理例
MASSパッケージの解説には処理例記載されていなケースが多いです。しかし珍しく今回のサンプル・データセットには処理例の記載あり。glm(Generalized Linear Model:一般化線形モデル)を使って、binominal(ロジスティック回帰)に帰着させるものみたいです。
赤矢印より緑矢印の方がチイセーので、「まあ当てはまってる」感じなのかえ?素人老人にはサッパリなんだが。
普通はglmの結果をsummaryに食わせて整理してもらう見たいなので、やってみたものが以下に。
緑枠のところ、ptd(早産回数)やht(高血圧)については ** なので「統計的に有意」ってことですかい。黄枠の、お母さまの体重や黒人も * なので何気に結構有意っぽい。一方、喫煙のところはビミョー。本当に人種が関係するのか?何かあるのか?お惚け老人は知る能わず。


