今回はまた医療ネタのサンプルデータセットです。「細胞活性」と「がんの寛解」との関係。ただし「細胞活性」がどんな細胞のどのような指標なのか、あるいは「がん」がどんな種類のものなのか、一切言及ありません。医療ネタであるあるなクローズド感。関係ない事柄に気を散らさずにRで統計処理の勉強せよとの思し召しなのか、大人の事情か?
※「データのお砂場」投稿順Indexはこちら
remissionサンプルデータセット
サンプルデータセットの解説ページが以下に。1980年代のデータみたいです。
Cancer Remission and Cell Activity
今まで見てきた中でも素っ気なさで一、二を争う解説ページです。しかし、Cell Activity、細胞活性がどう「がんの寛解」と関係するのか? お惚け老人は遥かな昔、当時所属していた会社の社長様が社員全員に配った本を思い出しましたぞ(最近のことは直ぐに忘れてしまうけれども、昔のことは覚えているのです。)がんの免疫療法についての御本です。社長様はどこで知り合ったものか免疫療法を推しているお医者様と知り合って共鳴したらしく、その著書を購入の上、皆に下すったというわけです。
その御本の遥かな記憶のお陰で、このデータセットでは何の説明のない Cell Activity というのは「免疫細胞の活性」のことではないか?と思いいたったわけでございます。まあ何も書いてないのでお惚け老人の勘違いかもしれません。念のため、免疫療法について「一般向け」に解説されている『国立研究開発法人国立がん研究センター』様の以下ページへのURLを貼付しておきます。
上記ページから1か所引用させていただきます。
「効果が証明された免疫療法」は限られています
遥かな昔、ご本を読ませていただいたころは「効果が証明」まで至っていない感じでしたが流石に進歩したみたい。時々話題になる薬価が馬鹿高い薬のいくつかは「効果が証明された免疫療法」に関するものみたいです。効く相手には効くと。
片手落ちになるといけないので、もう1か所引用させていただきます。
「効果が証明されていない免疫療法」のうち、「自由診療として行われる免疫療法」は、治療効果・安全性・費用について慎重な確認が必要です
もって回った言い方ですが、大人の事情ね。。。
まずは生データ
形式はフツーのデータフレーム、内部には3列ありです。最初のLIというのが「細胞活性」を示す指標の数値みたいです。単位は不明、なんだかも不明。次のmという列は患者様の母数が入っているみたいですが、中身をみたところ全て1がつまっているみたいです。母数は全部1だと? そして最後のrが、寛解にいたった場合1、そうでない場合0の列みたいです。
層別して集計
例によって aggregateで層別集計してみます。処理はこんな感じ。
aggregate(remission$LI, by = list(r=remission$r), mean)
rの下が0の場合が寛解しなかった人、1の場合が寛解した人の行です。xの下は、それぞれのグループの中のLI(細胞活性)の値の平均です。確かに、寛解した人のグループの方が細胞活性の平均値は高い(けれども因果関係は不明じゃね、これだけでは。)
苦し紛れに箱ヒゲ図
ただ層別集計しただけではなんじゃらほいなので、プロットしてみました。ボックス・プロットね。
boxplot(LI~r, data=remission, main="Cancer Remission and Cell Activity", xlab="remission", ylab="cell activity")
細胞活性が高ければ寛解するってもんでもないみたいだけれども、活性高い方が寛解する感ありありだし。こういうくらいのことが1980年代に分かっておっても、「効果の証明」には長い年月がかかると。ホントか?