
MASSパッケージのサンプルデータセットを巡回中。大文字優先のABC順。前回は拒食症でした。御病気のデータ続きます。今回は「インフルエンザ菌」デス。素人老人は「インフルエンザはウイルスだろ~」と思いましたが、調べてみたら「ウイルスのインフル」とは違う「菌のインフル」ありみたい。奥が深いよ。
※「データのお砂場」投稿順Indexはこちら
Presence of Bacteria after Drug Treatments
今回のサンプルデータセットは bacteria です。解説ページが以下に
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/bacteria.html
前世紀末のオーストラリアは北部準州の「中耳炎を患う小児におけるインフルエンザ菌の存在の検査」のデータらしいです。北部準州、ちょうど真ん中辺の北(赤道に近いから熱いのだろう)のあたりみたい。有名な観光地「ウルル」を含むと言えば、あんまり人は住んで無さそうな感じっす。
さて、このデータセットに登場するのが、
the bacteria H. influenzae
であります。訳したら「インフルエンザ菌」。でもインフルエンザってウイルスじゃなかったっけ。この年寄も先日、予防接種を受けたばかりですぞ。しかし、『東京都感染症情報センター』様の以下を参照させていただきました。
https://idsc.tmiph.metro.tokyo.lg.jp/diseases/haemophilus/
上記より1か所引用させていただきます。
インフルエンザ菌はヒトの上気道に常在する細菌で、呼吸器系をはじめとする各種感染症の原因菌です。毎年冬場に流行するインフルエンザの原因病原体とは異なります。
そうなのね、「菌」でもインフルエンザのお名前を冠している奴がいるということね。どうも「各種感染症」の中に「中耳炎」も含まれているみたい。そしてサンプル・データ・セットでは、そういうお子様たちに、
-
- プラセボ
- お薬
- お薬+
の3種類を処方して、それにより「インフルエンザ菌」がどうなったか時間経過とともに調べてみているみたいっす。
まずは生データ
yという変数が、インフルエンザ菌の在不在を示す変数みたいです。apは、お薬( active)かプラセボ(placebo)か、hiloは「+なお薬?」(Hi)かLoかを表す変数みたい、よくわからんのだけれども。でも結局、変数 trt に2つまとめてコーディングされているということで良いみたい。
weekによる菌の「在」をプロット
まあ、菌の在不在と週の経過を、treat毎にグラフにしたいということで、以下のような操作をしてみました。いかにも素人でスマートでない方法っす。
bacteria$yc <- as.numeric(bacteria$y) - 1 dat.placebo <- bacteria[bacteria$trt=="placebo",] dat.drug <- bacteria[bacteria$trt=="drug",] dat.drugp <- bacteria[bacteria$trt=="drug+",] sum.placebo <- aggregate(yc~week, dat.placebo, sum) sum.drug <- aggregate(yc~week, dat.drug, sum) sum.drugp <- aggregate(yc~week, dat.drugp, sum) labels <- c("placebo", "drug", "drug+") cols <- c("black", "green", "red") ltys <- c(1, 1, 1) plot(x=sum.placebo$week, y=sum.placebo$yc, type="b", col=cols[1], lty=ltys[1], xlim=c(0,12), ylim=c(0,20), main="presence of the bacteria", xlab="week", ylab="count") par(new=T) plot(x=sum.drug$week, y=sum.drug$yc, type="b", col=cols[2], lty=ltys[2], xlim=c(0,12), ylim=c(0,20), ann=F) par(new=T) plot(x=sum.drugp$week, y=sum.drugp$yc, type="b", col=cols[3], lty=ltys[3], xlim=c(0,12), ylim=c(0,20), ann=F) legend("topright", legend = labels, col = cols, lty = ltys)
上の処理によるグラフが以下に。
drugとdrug+だと、見た目の印象では drug でいいような気もするけど、どうよ?まあ、最終的な結果は一緒だけども。
Examplesがあったので一部実施してみる
このサンプルデータセットには、MASSパッケージにしては珍しく Examplesな処理例が掲載されてます。ただね、素人老人には「歯ごたえありすぎ」なExamplesです。最初の4行のみやってみました。
あらかじめcontrastsで「対比行列」(黄色枠)を設定した上で glm してみる(赤枠)例が以下に。ここでは「交互作用項を含め」てるみたいデス。
上記、緑枠みると、week経過により菌が居なくなる傾向は「*2つ」ということで意味がありありそうな感じっす。
一方、「主効果のみ」で「交互作用項をふくめない」解析結果が以下に。
上記をみると、素人老人は、こっちゃで言いような気がするのでありますが。
一方、trtの主効果と、weekを二値変数(week > 2で分割)に変換した新しい変数で解析した結果が以下に。
これ見ると、素人老人には、お薬は「2週間以上使えば十分」てな感じに見えますが、どうなのよ?