データのお砂場(55) R言語、faithful、間欠泉(イエローストーン)の噴出時間とな

Joseph Halfmoon

オールド・フェイスフルと言えば、間欠泉の代表選手?です。米国はワイオミング州、山また山のその先にある大火山地帯イエローストーン国立公園の中にある大間欠泉です。数十メートルにも吹き上がる熱水を拝めば、しばらく待たされた退屈の後のカタルシス。でもま温度が高いのでかなり遠くから眺めるしかないのでありますが。

※「データのお砂場」投稿順Indexはこちら

Old Faithful Geyser

今回のサンプルデータセットの解説ページは以下です。

Old Faithful Geyser Data

遥かな昔、このデータセットのソースの出版年よりも以前に1度だけオールド・フェイスフルに行ったことがあります。だだっぴろいところに半径数十どころか百メートルを超えるかと思われる円が設定してあってその周りにベンチがおかれてました。円の内側は危ないから入らないでね、という感じ。

入口付近には次の噴出はxx頃かもみたいな案内の立て札がたっていた記憶。すでに1930年代には、噴出間隔と噴出継続時間について考察がなされていたようで、私が行ったときには「だいたいの」次回時刻が予告されておりました。

多分何十分間だったか、荒野の中のベンチに呆然と座っていると、突然噴出が始まりました。真っ白な蒸気と熱水が空高く吹上ました。数分間の継続、そして停止。口を開けて眺めていたような。

今回のデータセットはそのイエローストーンを代表する間欠泉オールド・フェイスフルの噴出と噴出の間の間隔と噴出の継続時間のデータです。単位は分、ただし元の計測は秒単位だったらしいもの。

その後、どことも言いませんが国内で2か所ほど「間欠泉」というものに参観いたしました。オールド・フェイスフルと比べてしまうのであまり関心せず。

まずは生データ

いつものように生データが以下です。データ形式はフツーのdata.frameです。272回の噴出について分単位の時間です。1日に十数回というペースで噴出するハズなので、多分1週間くらい分と思われるデータです。faithful_rawdata

上記サマリをみると、待ち時間の最小は43分、最高96分、平均71分、噴出時間の最短は1.6分、最長は5.1分。平均は3.5分とな。ただし、長期的にはこれらの時間は変化しているようです。今は知らんと。

生データを素のままプロットしたものが以下に。私なんぞは、これをみて待ち時間が長いほど、噴出継続時間も長い、OK(何が?)と納得してしまうのです。でもよく見ると短い群と長い群に分かれていそうでもあり。。faithful_rawPlot

 

処理例にそって

今回の解説ページには処理例の記載あり、以下はそれにそって処理してみてます。まずは分単位(小数点以下あり)のデータをもとの秒単位データに「戻るかどうか」調べてみているようです。faithful_ex00

60かけてroundという操作では、完全には復元できないみたいっす。コマケー桁に何かある?

そのコマケー差異のところを表にしてるみたいです。

faithful_ex01

多分元のデータはストップウオッチで手動計測、それを紙に書いて、分単位にしてという過程で「処理にデコボコ」あったのかどうか?でも口開けて眺めていたらついストップウオッチを押しそびれるような。。。

秒単位でキメたテーブルが以下に。faithful_ex02

上記のテーブルの観察回数が多いところを抽出したものが以下に。解説ページの「ツッコミ」によると5の倍数の時間が多いじゃん、と。faithful_ex03

ううむ、ついつい5秒単位に丸めてしまう人間のサガなのか?faithful_ex04

上記のテーブルをグラフにしたものが以下に。長い方と短い方の2群あり、そして、長い方は長めのところに、短い方は短めのところに回数的なピークがあり、それぞれ群内での分布は違うような。。。

faithful_ex05

上記グラフを踏まえて、Yが待ち時間、Xが噴出継続時間のグラフにlowess関数で回帰直線を重ねるコードが以下に。

faithful_ex06

結果プロットが以下です。faithful_ex07

自分が見た「回」がどの辺の位置づけのものなのか知りたいが、今となってはわからんなあ。

データのお砂場(54) R言語、eurodist、欧州都市間の道のり(dist)とな? へ戻る

データのお砂場(56) R言語、fdeaths(UKLungDeaths)、肺疾患死亡者数 へ進む