前回も平均気温で今回も平均気温と同じようなデータセットが続くなと思ったのですが違いました。米国と英国、場所も違いますが、今回のは月毎のデータで明らかな「季節変動」が見えるデータなのです。これをARIMAモデルに当てはめて処理し、「36か月先まで予測」してみようということみたいです。未来予測?カッコイイけれども。
データのお砂場(66) R言語、nhtemp、コネティカット州ニューヘイブンの年平均気温とな
今回は、コネティカット州ニューヘイブンの年平均気温のデータです。20世紀前半から中盤にかけての60年間のデータ。平均気温というとついつい地球温暖化が気になるのですが、まだこのころはそれほどシビアに考えられていなかった時代。それでもグラフを眺めてみると、なにやら増加傾向が見えるような見えないような。 “データのお砂場(66) R言語、nhtemp、コネティカット州ニューヘイブンの年平均気温とな” の続きを読む
データのお砂場(65) R言語、mtcars、50年前の自動車「ロードテスト」の結果
今回のサンプルデータは、約50年前のMotor Trend US誌に掲載された1973年から74年モデルの自動車に関する諸元の比較表です。燃費とか比べてもいるのだけれど、「ガソリン垂れ流しているのかよ」という感じです。データには日本車、ドイツ車も混じっているけれど、当時のアメ車主体のデータだろうから当然か。 “データのお砂場(65) R言語、mtcars、50年前の自動車「ロードテスト」の結果” の続きを読む
データのお砂場(64) R言語、morley、実際はMichelson、光速の測定
「マイケルソンとモーリー」と名が印象深いのでついサンプルデータセット名を morley としてしまったらしいです。お二人は協力していたけれど、このデータについてはMichelson先生単独のものみたい。それに現代からすると「光速を測った」ことが前面に出ているけれど、当時としては「エーテルの存在」を証明したかった?
“データのお砂場(64) R言語、morley、実際はMichelson、光速の測定” の続きを読む
データのお砂場(63) R言語、lynx、カナダ・オオヤマネコの捕獲数の推移
今回はカナダ・オオヤマネコです。You Tubeで探したら動画発見できましたが、オオヤマネコというだけあってデカいです。そしてアラスカからカナダの森林地帯(当然寒そう)に生息しているので長毛です。今日では保護されていますが、19世紀においては罠で捕獲されていたみたいです。今回のデータはそのときのデータみたいっす。 “データのお砂場(63) R言語、lynx、カナダ・オオヤマネコの捕獲数の推移” の続きを読む
データのお砂場(62) R言語、longley、重回帰分析における多重共線性?知らんけど
R言語付属のデータセットをアルファベット順(大文字優先)で眺めてます。今回のデータセットはlongleyです。お名前の由来はソースがLongley先生のデータであるからみたいです。第二次世界大戦後1960年代までのマクロな経済指標のデータです。ちょっと訳あり? で有名なデータみたいっす。 “データのお砂場(62) R言語、longley、重回帰分析における多重共線性?知らんけど” の続きを読む
データのお砂場(61) R言語、lh、血中黄体ホルモン濃度の時系列変化とな?
R言語付属のデータセットをアルファベット順(大文字優先)で眺めてます。今回のデータセット名は lh。luteinizing hormoneの頭文字みたいです。私にはまったく知識のない分野であります。正直、サッパリわかりませぬよう。そして頼りの処理例もなし。どうしたらよいの?テキトーに「処理」してみました。いいのかそんなことで。 “データのお砂場(61) R言語、lh、血中黄体ホルモン濃度の時系列変化とな?” の続きを読む
データのお砂場(60) R言語、islands、島だけでない面積のランキング?
R言語付属のデータセットをアルファベット順(大文字優先)で眺めてます。今回のデータセット名は islands。しかし島ばかりでない、大陸も含めたメジャーな土地の面積の羅列です。なにか統計処理するほどでもない、せいぜいランキングを作るくらい?のもの。クイズ豆知識か?でも眺めてみると意外と知らない名前の島があること。 “データのお砂場(60) R言語、islands、島だけでない面積のランキング?” の続きを読む
データのお砂場(59) R言語、IrisとIris3、データセット形式の変換と比較
R言語付属のデータセットをアルファベット順(大文字優先)で眺めてます。今回は「かの」Irisです。本サイトでも何度か使わせていただいたことがあります。ML(Machine Learning)業界のHello World. 定番中のド定番のデータセット。しかし、今回のR言語の処理例をみると分類でも識別でもないです。
データのお砂場(58) R言語、infert、自然/人工流産後不妊症のケースコントロール研究
R言語付属のデータセットをアルファベット順(大文字優先)で経めぐっております。今回は infert という名のサンプルデータセットです。医療(婦人科)の「マッチドケースコントロール研究」のデータを「条件付きロジスティック回帰」せよと。しかしそれ以前に項目の意味がさっぱり分かりませぬ。ここで言う「パリティ」って何?
データのお砂場(57) R言語、Freeny’s Revenue Dataとな
前回は「構造をもった」データセットでロード時と使用時でお名前が違いフェイント気味でした。今回も内部に構造をもったデータセットなのですが、ロードも使用もすんなりです。この辺の作り方にいろいろ流派があるのかも知れないです。でもコマケー話にガタガタ言うなとか言われそう。中を見れば分かる、と。
データのお砂場(56) R言語、fdeaths(UKLungDeaths)、肺疾患死亡者数
今回のサンプルデータセットは、英国における肺疾患による月間死亡者数です。1970年代のもの。年寄には最近のデータに思えるのですが、若者には太古の時代のデータかと。しかしこのデータ「セット」のロードはちょいフェイント気味。コマケー話なんだけれどもあれあれとなるわいな。
データのお砂場(55) R言語、faithful、間欠泉(イエローストーン)の噴出時間とな
オールド・フェイスフルと言えば、間欠泉の代表選手?です。米国はワイオミング州、山また山のその先にある大火山地帯イエローストーン国立公園の中にある大間欠泉です。数十メートルにも吹き上がる熱水を拝めば、しばらく待たされた退屈の後のカタルシス。でもま温度が高いのでかなり遠くから眺めるしかないのでありますが。
データのお砂場(54) R言語、eurodist、欧州都市間の道のり(dist)とな?
R言語のサンプル・データセットをABC順(大文字先)で端から眺めております。今回のデータセットは eurodist、ヨーロッパ都市間の距離です。以前にも似たデータをやってます。UScitiedDとな(第35回)以前のものは米国、今回は欧州。以前のものは直線距離、今回のものは道のりと。似ているようで違う、でも処理は一緒?