データのお砂場(50) R言語、crimtab、スチューデントの「t分布」登場

Joseph Halfmoon

今回のサンプル・データセットのタイトル、「Student’s 3000 Criminals Data」を見て「学生さんの犯罪データ??」と思った私は、統計素人、いやモグリです。記憶の奥底に「スチューデントのt分布」という言葉はあったものの、タイトルの「Student」が偉大なるかなスチューデント様と気づかなかったとは。

※「データのお砂場」投稿順Indexはこちら

スチューデントのt分布とサンプルデータ

“Student”、スチューデント(ペンネーム)様が、William Sealy Gossetという人物であったこと、今日は知れ渡っていますが、当時(1908年)では知られてなかったようです。統計の「教科書に必ず出てくるビッグネーム」、「t分布」とともに登場。でもなんで t なの? 今回調べていて東北大の先生がそのことに切り込んでおられました。

Studentのt分布

さて今回のサンプルデータセットは、「スチューデントのt分布」をスチューデント先生が研究されておったときに実際にお使いになられたデータであるようです。解説ページが以下に。

Student’s 3000 Criminals Data

英国における刑務所に収監されている犯罪者3000人について調べた1902年の資料であるようです。縦からみても横からみてもヒストグラム用の層別されたデータとして使える 42×22のテーブル です。縦横は以下のとおり

    • 中指の長さ 9.4 cm – 13.5 cm
    • 身長 142.24cm – 195.58cm

書かれている数値は、層別した層毎の中点であるようです。指の長さはもともとmmであったものをcmにしただけですが、身長は56inch – 77inchであったものをcmに換算したデータであるようです。

統計素人の私が t分布についてあれこれ書くことはしますまい。統計WEB様の以下のページがわかりやすいのではないかと。

20-1. 標本とt分布

まずは生データ

今回は生データをロードするまでにチョイといろいろありましたが、環境整えばばいつもの通りです。RawData0

表形式で全貌を見るならばこんな感じ。縦横の中央部付近「背が高ければ指も長い」斜め方向に事例数が多いです。RawData1

処理例に従って

解説ページには「処理例」が載っている場合と、そっけない場合があるのですが、今回は「ガチ」で掲載されています。スチューデント先生がt分布を発見するときに、実データを観察した手順に従って処理をしているのだと思います。

最初のステップはやはりデータの観察。やっていることは当方と変わりないですな。あたりまえか。crimtab00

それから、local()でくくって(環境がローカルになるので後を引かない評価)表を印字しています。上記の表よりかなんぼか見やすいです。crimtab01

次に横軸をインチ(元の単位)に戻した上で、身長で層別したデータフレームを作っています。「指の長さ」を積算。crimtab02

つづいてデータをシャッフルした後、4個組サンプルを750セット取り出す準備をしてるみたいです。crimtab03

つづいて tapply関数で4個組毎の平均と標準偏差を計算。crimtab04

いよいよ t値の計算をしているみたいですが、外れ値はプラスマイナス6にしてしまっているみたいです。これはオリジナルのStudent先生の処理どおりらしいです。crimtab05

そしてt値(グラフ上では z と表現、その心はStudentのt分布ご参照ください)のグラフ(ヒストグラム)crimtab06

ここから t分布 発見に至るみたい。知らんけど。

crimtabPlot

RStudioのWindows11機へのインストール

最近、ようやくWindows10機をWindows11機で更新しました。この機会に必要なソフトのみ最新版をインストールということで作業中です。Rについても作業を行いました。

まず以下よりR言語本体をインストール

R-4.2.1 インストール

上記、日本化もバッチリ、問題なさそうです。

次にRStudio(無料版)、以下をインストール

RStudio-2022.07.2-576.exe

ここにおいてちょっとトラブリました。起動できるのですが、以下のようなwarningがでました。

ファイル名、ディレクトリ名、またはボリューム ラベル構文が間違っています。

どうもWindows11がデフォルトで「ドキュメント」という日本語のフォルダ名を(それもOneDrive上に)とってくれていることが原因みたいです。この解決に、以下のページが大変参考になりました。ありがとうございました。

Windows11にRをインストールしたときに出る環境変数のWarningを直す

結論から言えば、RStudioが参照する以下の環境変数を「日本語を含まない」フォルダに向けてやればwarningが出なくなります。

    • HOME
    • R_USER

新しいパソコンは快適ではあるのだけれど、いろいろ変更してくれていて「細かい」ところでひっかかりますなあ。メンドイなあ。

データのお砂場(49) R言語、ハワイ、マウナロア山でのCO2濃度データとな へ戻る

データのお砂場(51) R言語、Discoveries、複数年ある最小値の年を知る へ進む