今回のサンプル・データセットのタイトル、「Student’s 3000 Criminals Data」を見て「学生さんの犯罪データ??」と思った私は、統計素人、いやモグリです。記憶の奥底に「スチューデントのt分布」という言葉はあったものの、タイトルの「Student」が偉大なるかなスチューデント様と気づかなかったとは。
※「データのお砂場」投稿順Indexはこちら
スチューデントのt分布とサンプルデータ
“Student”、スチューデント(ペンネーム)様が、William Sealy Gossetという人物であったこと、今日は知れ渡っていますが、当時(1908年)では知られてなかったようです。統計の「教科書に必ず出てくるビッグネーム」、「t分布」とともに登場。でもなんで t なの? 今回調べていて東北大の先生がそのことに切り込んでおられました。
さて今回のサンプルデータセットは、「スチューデントのt分布」をスチューデント先生が研究されておったときに実際にお使いになられたデータであるようです。解説ページが以下に。
英国における刑務所に収監されている犯罪者3000人について調べた1902年の資料であるようです。縦からみても横からみてもヒストグラム用の層別されたデータとして使える 42×22のテーブル です。縦横は以下のとおり
-
- 中指の長さ 9.4 cm – 13.5 cm
- 身長 142.24cm – 195.58cm
書かれている数値は、層別した層毎の中点であるようです。指の長さはもともとmmであったものをcmにしただけですが、身長は56inch – 77inchであったものをcmに換算したデータであるようです。
統計素人の私が t分布についてあれこれ書くことはしますまい。統計WEB様の以下のページがわかりやすいのではないかと。
まずは生データ
今回は生データをロードするまでにチョイといろいろありましたが、環境整えばばいつもの通りです。
表形式で全貌を見るならばこんな感じ。縦横の中央部付近「背が高ければ指も長い」斜め方向に事例数が多いです。
処理例に従って
解説ページには「処理例」が載っている場合と、そっけない場合があるのですが、今回は「ガチ」で掲載されています。スチューデント先生がt分布を発見するときに、実データを観察した手順に従って処理をしているのだと思います。
最初のステップはやはりデータの観察。やっていることは当方と変わりないですな。あたりまえか。
それから、local()でくくって(環境がローカルになるので後を引かない評価)表を印字しています。上記の表よりかなんぼか見やすいです。
次に横軸をインチ(元の単位)に戻した上で、身長で層別したデータフレームを作っています。「指の長さ」を積算。
つづいてデータをシャッフルした後、4個組サンプルを750セット取り出す準備をしてるみたいです。
つづいて tapply関数で4個組毎の平均と標準偏差を計算。
いよいよ t値の計算をしているみたいですが、外れ値はプラスマイナス6にしてしまっているみたいです。これはオリジナルのStudent先生の処理どおりらしいです。
そしてt値(グラフ上では z と表現、その心はStudentのt分布ご参照ください)のグラフ(ヒストグラム)
ここから t分布 発見に至るみたい。知らんけど。
RStudioのWindows11機へのインストール
最近、ようやくWindows10機をWindows11機で更新しました。この機会に必要なソフトのみ最新版をインストールということで作業中です。Rについても作業を行いました。
まず以下よりR言語本体をインストール
上記、日本化もバッチリ、問題なさそうです。
次にRStudio(無料版)、以下をインストール
ここにおいてちょっとトラブリました。起動できるのですが、以下のようなwarningがでました。
ファイル名、ディレクトリ名、またはボリューム ラベル構文が間違っています。
どうもWindows11がデフォルトで「ドキュメント」という日本語のフォルダ名を(それもOneDrive上に)とってくれていることが原因みたいです。この解決に、以下のページが大変参考になりました。ありがとうございました。
Windows11にRをインストールしたときに出る環境変数のWarningを直す
結論から言えば、RStudioが参照する以下の環境変数を「日本語を含まない」フォルダに向けてやればwarningが出なくなります。
-
- HOME
- R_USER
新しいパソコンは快適ではあるのだけれど、いろいろ変更してくれていて「細かい」ところでひっかかりますなあ。メンドイなあ。