データのお砂場(92) R言語、aids、英国におけるAIDS診断と報告1983-1992年

Joseph Halfmoon

映画『ボヘミアン・ラプソディ』、最初主演のラミ・マレック「似てねえ」と思ったのですが、見ているうちにフレディ・マーキュリーにしか見えなくなってました。さて今回のサンプルデータセットにはマーキュリーご本人が含まれている筈です。bootパッケージのaidsデータセット。マーキュリー没年(1991年)を含む10年間のデータ。

※「データのお砂場」投稿順Indexはこちら

bootパッケージ、aidsデータセット

さて、今回のデータセットは、bootパッケージのaidsデータセットです。bootパッケージに含まれているということは、bootパッケージの「ブートストラップ法」を適用するためのサンプルデータセットなのだと思います。が、しかし、bootパッケージまったく勉強してません。すみません。ということで今回はデータセットをなでてみるのみ(いつもだな。)

データセットには以下の立派なお名前がついてます。

Delay in AIDS Reporting in England and Wales

英国、といってもEnglandとWalesだけの「2か国」の統計データのようです。スコットランドと北アイルランドはどこ行った?とも思うのですが、かの国にはかの国の流儀があり、公衆衛生関係のお役所の縦割りが影響しているのかも。知らんけど。

時期としては1983年7月(第3クオータ、暦年)から1992年の第4クオータまでのデータのようです。

データとしては、診断から報告(しかるべきお役所への報告が義務ずけられていたようです)までの遅延時間のデータです。なかなか分かりにくいです。

合計6個のフィールドがあります。最初の2つは分かりやすいです。

    1. year
    2. quarter
    3. delay
    4. dud
    5. time
    6. y

yearは暦年、quarterは1月から3月をQ1とする暦年スタイルの4半期です。後ろの4つはかなり分かりにくいです。

まず、delayは診断から報告までの遅延値で、「月」単位です。診断した当月にそのまま報告すれば0が入るのは良いとして、遅延があった場合は月単位といいつつ、2、5、8、11という3か月単位の「スロット」に分類されているみたいです。1か月遅れも2、3か月遅れも2です。3か月単位ということで4半期が意識されているのだと思うのですが、同じ2に分類されていても7月に診断されて翌8月に報告なら同じ4半期の間に報告されたということでしょうし、9月に診断されたのであれば次の4半期に報告された、ということになります。取り扱いに困るフィールドです。なお最大遅延は41か月です。

dudは、上記のdelayにも絡んでくる一種の「フラグ」みたいです。該当のレコードにおいて、全ての情報がまだ得られていないことを示す指標みたいです。このdudが立っているレコードは、後日数字がプラスされる可能性があるので、記録されている数字は「当座の」下限とみるべきようです。遅延集計の最大が上記のように41か月であるためか、サンプルデータセットの後半、1989年以降に出現します。

最後のyは、報告件数です。症例数(=人数)とみてよいのかな?たぶんこのどこかにフレディも入っているのだと想像しますが、単なる数字の羅列です。

まずは生データ

まずは生データということでロードしてみました。こんな感じ。boot_aids_rawdata

上記で確認できるように、yearは1983年から1992年、quarterは1から4、delayは0から41、dudは0か1、timeは1から38、yは0から181までの全て数値のベクトルです。

これを渡されてどうしたら良いものだか途方にくれます。それ以上に集計途上の上記データの担当者様の「困惑」はもっとかと想像します。

毎4半期毎にyの報告数が上がってくるのだけれど、その診断時期は大きなバラツキがあって実際には何時頃診断されたものか相当後にならないと(上記では41か月)確定しないです。リアルタイムでてんでんバラバラに報告がやってくると何が何やら感が激しいです。データ更新の度にグラフを更新していたのかしら?

診断時期ごとプロット

データを眺めているこちらは事後30年あまり経過して眺めているので、遅延を加味した上で、実際の診断時期基準で4半期毎の報告人数を集計できます。

dplyrパッケージの助けを借りて処理したものが以下に。

library(dplyr)
temp <- aids %>% group_by(time) %>% summarise(sum(y))
plot(temp)

上記プロット結果が以下に。sum_y_plot

y軸は該当4半期(診断ベース)の件数、x軸は1983年Q3を1とした4半期の通算番号です。

上記の第25四半期以降、DUDが存在(つまり未決データがあるということみたい)し、後ろの方は少なめな数字が入っているので今後(といっても実際にはどこかにデータがあるのでしょうが)数字が増えるのだと思います。

なお、フレディ没は上記では第34四半期になるかと。合掌(ゾロアスター教ではなんというのだろう?)

データのお砂場(91) R言語、acme、超過収益、bootパッケージ へ戻る

データのお砂場(93) R言語、aircondit、ボーイング720のエアコン、度々壊れる? へ進む