
MASSパッケージのサンプルデータセットを経めぐってます。大文字優先のABC順。前回Cars93の後の今回はCushingsです。日本語ではクッシング症候群というみたいです。難病らしいデス。いろいろホルモンやその代謝物など登場し、素人老人には訳が分かりません。も少し事例が多ければ機械学習ネタ?とも思いましたが。
※「データのお砂場」投稿順Indexはこちら
クッシング症候群?
今回のサンプルデータベースの解説ページが以下に見つかります。
Cushings
Diagnostic Tests on Patients with Cushing’s Syndrome
シンプルな27行3列のデータフレームです。3列の内訳が以下に。
-
- Tetrahydrocortisone、テトラヒドロコルチゾンの尿中排泄率(mg/24時間)。
⇒ヒドロコルチゾンの代謝産物だそうな。 - Pregnanetriol、プレグナントリオールの尿中排泄率(mg/24時間)。
- type、症候群のタイプ。a(腺腫)、b(両側性過形成)、c(癌)、またはu(不明)
- Tetrahydrocortisone、テトラヒドロコルチゾンの尿中排泄率(mg/24時間)。
素人老人にはどこから手を付けてよいやらサッパリです。
まあ、Cushingsで検索すれば、結構ヒットするページもあります。その中でも「MAYO CLINIC」様の以下のページにあるこのご病気の「イメージ図」は印象深いデス。
あちこちのページを拝見させていただくと同様の「イメージ図」が掲げられていることが多いのですが、流石メイヨークリニック様の図解は芸術的デス。知らんけど。
なお、日本語のWebページでは「公益財団法人 難病医学研究財団/難病情報センター」様の以下のページを参考にさせていただきました。
サンプルデータベースのデータは、a、b、c、u の4タイプに分けられています。素人老人が勝手に解釈すると、
a=adenoma、腺腫、どうも脳下垂体の良性腫瘍起因でACTH(副腎皮質刺激ホルモン)が過剰に分泌され、それにより副腎からのホルモン分泌に異常をきたしているもの
b=bilateral hyperplasia、副腎そのものに異常があり、ホルモン分泌に異常
c=carcinoma、ガン、副腎のガンなのか、その他の場所のガンなのかは分からず。ともかくガンがホルモンに影響することもあるみたい。
u=unknown、原因不明ということで良いのかな?
まずは生データ
とりあえず、4つのタイプ毎に、2つの変数の平均でももとめてみるかと。操作はこんな感じ。
aggregate(cbind(Cushings$Tetrahydrocortisone, Cushings$Pregnanetriol), by = list(type=Cushings$Type), mean)
タイプによって、数値にバラツキがあるみたい?そうなのか
プロットしてみる
そういうことでタイプの a b c u が分かるようにプロットしてみるものが以下に。
plot(Cushings$Tetrahydrocortisone ~ Cushings$Pregnanetriol, pch=as.character(Cushings$Type),main="Cushings")
プロット結果の上に、a b c u の範囲をホンワカした四角で示したものが以下に。結構重なっておるなあ。もう少し「例」の数が多ければ、なにか機械学習のターゲットにするのもアリな感じがしないでもないデータではありますがな。