データのお砂場(207) R言語、bacteria、中耳炎とインフルエンザ菌 {MASS}

Joseph Halfmoon

MASSパッケージのサンプルデータセットを巡回中。大文字優先のABC順。前回は拒食症でした。御病気のデータ続きます。今回は「インフルエンザ菌」デス。素人老人は「インフルエンザはウイルスだろ~」と思いましたが、調べてみたら「ウイルスのインフル」とは違う「菌のインフル」ありみたい。奥が深いよ。

※「データのお砂場」投稿順Indexはこちら

Presence of Bacteria after Drug Treatments

今回のサンプルデータセットは bacteria です。解説ページが以下に

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/bacteria.html

前世紀末のオーストラリアは北部準州の「中耳炎を患う小児におけるインフルエンザ菌の存在の検査」のデータらしいです。北部準州、ちょうど真ん中辺の北(赤道に近いから熱いのだろう)のあたりみたい。有名な観光地「ウルル」を含むと言えば、あんまり人は住んで無さそうな感じっす。

さて、このデータセットに登場するのが、

the bacteria H. influenzae

であります。訳したら「インフルエンザ菌」。でもインフルエンザってウイルスじゃなかったっけ。この年寄も先日、予防接種を受けたばかりですぞ。しかし、『東京都感染症情報センター』様の以下を参照させていただきました。

https://idsc.tmiph.metro.tokyo.lg.jp/diseases/haemophilus/

上記より1か所引用させていただきます。

インフルエンザ菌はヒトの上気道に常在する細菌で、呼吸器系をはじめとする各種感染症の原因菌です。毎年冬場に流行するインフルエンザの原因病原体とは異なります。

そうなのね、「菌」でもインフルエンザのお名前を冠している奴がいるということね。どうも「各種感染症」の中に「中耳炎」も含まれているみたい。そしてサンプル・データ・セットでは、そういうお子様たちに、

    • プラセボ
    • お薬
    • お薬+

の3種類を処方して、それにより「インフルエンザ菌」がどうなったか時間経過とともに調べてみているみたいっす。

まずは生データ

生データをロードして、眺めたところが以下に。rawDataBacteria

yという変数が、インフルエンザ菌の在不在を示す変数みたいです。apは、お薬( active)かプラセボ(placebo)か、hiloは「+なお薬?」(Hi)かLoかを表す変数みたい、よくわからんのだけれども。でも結局、変数 trt に2つまとめてコーディングされているということで良いみたい。

単純なサマリをとってみたものが以下に。summaryBacteria

weekによる菌の「在」をプロット

まあ、菌の在不在と週の経過を、treat毎にグラフにしたいということで、以下のような操作をしてみました。いかにも素人でスマートでない方法っす。

bacteria$yc <- as.numeric(bacteria$y) - 1
dat.placebo <- bacteria[bacteria$trt=="placebo",]
dat.drug <- bacteria[bacteria$trt=="drug",]
dat.drugp <- bacteria[bacteria$trt=="drug+",]
sum.placebo <- aggregate(yc~week, dat.placebo, sum)
sum.drug <- aggregate(yc~week, dat.drug, sum)
sum.drugp <- aggregate(yc~week, dat.drugp, sum)
labels <- c("placebo", "drug", "drug+")
cols <- c("black", "green", "red")
ltys <- c(1, 1, 1)
plot(x=sum.placebo$week, y=sum.placebo$yc, type="b", col=cols[1], lty=ltys[1], xlim=c(0,12), ylim=c(0,20), main="presence of the bacteria", xlab="week", ylab="count")
par(new=T)
plot(x=sum.drug$week, y=sum.drug$yc, type="b", col=cols[2], lty=ltys[2], xlim=c(0,12), ylim=c(0,20), ann=F)
par(new=T)
plot(x=sum.drugp$week, y=sum.drugp$yc, type="b", col=cols[3], lty=ltys[3], xlim=c(0,12), ylim=c(0,20), ann=F)
legend("topright", legend = labels, col = cols, lty = ltys)

上の処理によるグラフが以下に。
plotBacteriadrugとdrug+だと、見た目の印象では drug でいいような気もするけど、どうよ?まあ、最終的な結果は一緒だけども。

Examplesがあったので一部実施してみる

このサンプルデータセットには、MASSパッケージにしては珍しく Examplesな処理例が掲載されてます。ただね、素人老人には「歯ごたえありすぎ」なExamplesです。最初の4行のみやってみました。

あらかじめcontrastsで「対比行列」(黄色枠)を設定した上で glm してみる(赤枠)例が以下に。ここでは「交互作用項を含め」てるみたいデス。
glm1上記、緑枠みると、week経過により菌が居なくなる傾向は「*2つ」ということで意味がありありそうな感じっす。

一方、「主効果のみ」で「交互作用項をふくめない」解析結果が以下に。

glm2上記をみると、素人老人は、こっちゃで言いような気がするのでありますが。

一方、trtの主効果と、weekを二値変数(week > 2で分割)に変換した新しい変数で解析した結果が以下に。

glm3

これ見ると、素人老人には、お薬は「2週間以上使えば十分」てな感じに見えますが、どうなのよ?

データのお砂場(206) R言語、anorexia、拒食症の体重変化データ {MASS} へ戻る

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です