R言語付属のデータセットをアルファベット順(大文字優先)で経めぐっております。今回は infert という名のサンプルデータセットです。医療(婦人科)の「マッチドケースコントロール研究」のデータを「条件付きロジスティック回帰」せよと。しかしそれ以前に項目の意味がさっぱり分かりませぬ。ここで言う「パリティ」って何?
※「データのお砂場」投稿順Indexはこちら
今回のサンプルデータセット
サンプルデータセットの解説ページは以下にあります。
Infertility after Spontaneous and Induced Abortion
このデータセットは、ケースコントロール研究というものみたい。そういえば以前にもそういうデータセットをやった記憶が。ケース=症例、コントロール=病気じゃない例、みたいな理解でよかったんだっけ。専門家によるご説明は以下などご参照くだされ。
さらに言うと、ケースコントロール研究というやつの中でも「マッチド」なものみたいです。後で、生データを眺めてみるとこの意味が判明しますが、そういうことをする意義については、これまた以下などご参照くだされ。
さてね、データには学歴(何年教育受けたか)とか年齢(発症時の)とか、自然/人工流産の回数など、素人の当方でも理解可能な項目もならんでますが、わからない項目もありです。
パリティ
です。そうですマイコン屋はUARTで通信するときに7ビット、イーブン「パリティ」ね、みたいなパリティは身に染みついておりますが、この文脈ででてくるパリティはそうじゃないでしょう。
辞書をひけば、等価というような元の意味からいろいろ発生しているみたい。上記のようなコンピュータ関係のパリティは、多分、数学におけるパリティに源がありそうです。また、量子力学のパリティも元は数学かと。しかし、金融やら農産物やらにもパリティが大きな顔してのさばっていることに気づきましたです。無知だったです。
証券会社が言うパリティについては以下をごろうじろ。
また以下のページは米国の農産物のパリティ(価格の標準みたいっす)が米国の農業に果たしている重要な役割に思いを馳せるのに十分かと。知らんけど。
パリティ、実は世界を覆うこの世の不思議を具現化する概念?であったのであります。ごたくはおいておいて、このデータセットにおけるパリティの意味は、
出産歴、出産数
ということみたいです。どうも統計用語みたいっす。なんだかな~。急に言われてもわからんよな。
さて、パリティ調べているうちに、偉大なページを見つけてしまいました。まさに、本データセットについて解説してくださっている以下のページです。
上のようなページがあるので、今回素人は何も言いますまい。このデータセットの処理は上を読めばわかると。
生データの様子
データセットは、「普通の」データフレームです。8列含まれているデータのうち上から3列目がparityとな。でも今は意味が分かりましたな。
上の下から2番目の stratum が層別したときの番号(解説ページでは matched set number)です。これをみると matched の意味が端的にわかります。
以下はレコード番号1から4のデータです。stratumをみると1から4となっています。すべて case=1 なので「症例(つまり不妊症の)」データです。
対するは、case=0の以下のデータです。これは上記の症例と「マッチ」するデータで、stratumは1から4がふられています。上と下を比較すると、同じstratumであれば、
-
- education
- age
- parity
の3項目が一致していることがわかります。これらは症例に影響を与えそうな要素ではあるのだけれど、今回解析の関心はそこになく、inducedとspontaneousに注目しておるのよ、ということみたいっす。
さて、不妊症(case)であるか否かについて、glm(一般化線形モデル)を適用したものが以下に(解説ページの処理例です。)まずは、spontaneousとinducedのみを調べたもの。
上記をみると、spontaneousの方が影響強めでないかと。
年齢とかの要因は統計的に「有意」ではないけれども、例のparityは有意。そしてparityとcaseは逆方向?
計算結果の数字だけみても素人には分からんよな~。
処理例では、パッケージ survivalを読み出すけれども計算して結果を出したら、すぐにdetach()する「技」を繰り出してます。パッケージになにかよからぬ副作用があるのだろうな?今度まねしてみるか?つまらぬところだけ学ぶな。