
R言語の「MASS」パッケージのサンプル・データ・セットを巡回中。Forbesと言えば米国の雑誌が有名。当方も日本語版のWeb記事など時々読ませていただいてます、あざ~す。しかし今回のForbesは19世紀、スコットランドの学者様です。先生が「やらかし」たお陰で統計の定番データになってしまったみたい。
※「データのお砂場」投稿順Indexはこちら
Forbes’ Data on Boiling Points in the Alps
今回のMASSパッケージのサンプル・データ・セットは forbes です。解説ページが以下に。
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/forbes.html
最初、Forbesと聞いて戸惑ったお惚け老人です。Forbes誌と言えば、経済、社会とかに強い雑誌というイメージ。ランキング記事もよく掲載されているので数値データもいろいろ載ってたりします。しかし、「水の沸点と気圧の関係」のデータというのは掲載されていそうにないっす。一瞬の気の迷い?
そう思ったら、生成AIのGemini様はお見通しでした。以下受け売りデス。
なんだForbesというのは19世紀スコットランドの学者のお名前だったのね。まあ、Forbes誌を創刊したForbesという人もいたみたいなので、同姓というだけ(親戚ではないよね、知らんけど。)
スコットランドのフォーブス先生は「沸点から高度を推定する方法」を研究していて、このデータを測定されていたのね。まあ、気圧と水の沸点の関係などは実験室内でとった精密なデータを大学の熱力学(の多分最初の方)で勉強してると思う(蒸気線図。)
でも19世紀のフォーブス先生、実際にお山に登って気圧と沸点を測定されていたみたい。まさに三現主義を体現しておる、と。
しかし、わざわざこのデータが21世紀の今日まで残ったのは、どうもフォーブス先生がやらかしてしまったためみたい。
先ずは生データ
bpは沸点です、単位は華氏ね。presは気圧です、単位は inchHgね。
今の日本で分かりやすい単位にしてみた
華氏「ファーレンハイト」は、まあ許せるとしても、気圧の単位のインチ単位のHg高さはちょっとね。米国でよく使われる圧力の単位 psi とも違うし。以下のようにして換算したデータベースにしてみました。
C<-0.133322 * 25.4 * 10
forbesNew<-data.frame((forbes$bp-32)*5/9, forbes$pres*C)
colnames(forbesNew) <- c("bp", "pres")
これにより、温度は摂氏、圧力はヘクトパスカル[hPa]となって、日本の気象庁様と一致。
これを「素のまま」グラフにする操作が以下に。
plot(pres ~ bp, data=forbesNew, main="Forbes Data", xlab="bp[C]", ylab="pres[hPa]", pch=16, col="blue")
結果は「いい感じ」なところが多いけど、緑丸のところが出っ張ってないかい、ということです。
Gemini様の御下知でハズレ値検出
なんでもよくご存じのGemini様です。このハズレ値が「どのくらい」ハズレものなのか解析する方法を示してくださいました。その際、元の(華氏、インチHgの)forbesデータに対し、
気圧を100倍して対数をとるのが伝統的な解析手法です
とのことです。統計学の教科書に載っているお作法にしたがいます。
model <- lm(100 * log10(pres) ~ bp, data = forbes) par(mfrow = c(2, 2)) plot(model)
緑の丸のところ、12番データが見事にハズレ値として叩き出されてます。
Gemini様は、これでもかと
-
- スチューデント化残差の確認、studres関数を使う
- クックの距離の確認、cooks.distance関数を使う
方法も示されていたのですが、素人老人はお腹いっぱいなのでパス。
しかし、何でフォーブス先生、こんな外れ値を紛れ込ませたのかなあ?これまたGemini様によれば、
単なる転記ミス(21と25の書き間違い)であった可能性が高いと言われています。
転記ミスで、統計の教材になってしまったのね。。。


