今回のサンプルデータセットは、英国における肺疾患による月間死亡者数です。1970年代のもの。年寄には最近のデータに思えるのですが、若者には太古の時代のデータかと。しかしこのデータ「セット」のロードはちょいフェイント気味。コマケー話なんだけれどもあれあれとなるわいな。
※「データのお砂場」投稿順Indexはこちら
今回のサンプルデータセット
R言語に付属しているデータセットをアルファベット順(ただし先に大文字で一巡、後から小文字)で経めぐっております。前回のデータセットが faithful であったので、今回は fdeaths です。サンプルデータセットの「一覧」表示の該当部分が以下に。
通常、左端のサンプルデータセット名をダブルクオートしてdata()に渡せばロードしてくれるのでありますが、今回のは以下のようです。fdeathsでは見つからないのね。カッコの中に書かれているUKLungDeathsで引かないとならないようです。
なんだ、それ早く言ってくれよ、だったら大文字のUのところじゃん。
ところが、Load後データの構造を見るために以下のようにclass()に UKLungDeathsを渡すとそんなものはないと拒絶されます。
なんで、といって中身を確認すると以下のようです。”UKLungDeaths”というお名前でロードしたのに、ロード後はUKLungDeathsという「構造」は無く、それぞれバラバラな fdeaths, ldeaths, mdeaths のデス時系列データ3連発です。
確かに fdeathsが登場しました。なお、ledaths(UKLungDeaths)、mdeaths(UKLungDeaths)もサンプルデータセット名として上記リスト上はしっかり一つの項目になってます。もうだまされないケド。
さて、今回のサンプルデータセットの解説ページは以下です。
Monthly Deaths from Lung Diseases in the UK
英国における肺疾患による月間死亡者数の時系列(TS)データです。1974年から1980年にかけてのもの。3つのセットはそれぞれ以下のようです。
-
- ldeaths 性別関係なしの全数
- mdeaths 男性
- fdeaths 女性
なお、肺疾患というのは、以下の病気のことらしいです。
-
- bronchitis 気管支炎
- emphysema 肺気腫
- asthma 喘息
また以前にもお世話になっております、同志社大の先生のかかれた以下のページも参照させていただいております。下記ページの一部ではまさに本データをサンプルデータとして処理されていたりもします。
データのプロット
まずは、合計データ ldeaths をプロットしてみます。こんな感じ。
plot(ldeaths)
1976年が突出しているけれども、毎年同じような季節変動をしているのね。やっぱり冬場が悪いようです。
処理例では以下のようにplotそのままで、男女別のプロットもやっているのですが、手元の処理系では時系列で処理してくれなくてうまくいきませぬ。
plot(mdeaths, fdeaths)
明示的に ts.plot を呼び出してやるとうまくいきました。こんな感じ。
ts.plot(mdeaths, fdeaths, lty=c(1:2), col=c(1:2)) legend(locator(1), c("mdeaths","fdeaths"),lty=c(1:2), col=c(1:2))
なお、legend(locator(1)した後はlegendを置く場所をクリックしないとなりませぬ。
しかしね、男性の方が圧倒的に多いデス。1970年代だし、男性の喫煙率の高さが災いしている?知らんけど。
季節変動が大きいので、季節変動分とトレンド分を分けて観察したいと思います。意味もよくわからず使わせていただいておりますSTL(Seasonal Decomposition of Time Series by Loess)によるプロット方法が以下に。
plot(stl(ldeaths, s.window="per"), main="ldeaths, UKLungDeaths")
プロット結果の上から2段目 seasonal をみると見事な季節変動がでておりますな。それに対して 3段目 trend をみると、徐々に下がってきている感じ。医学の進歩なのか、喫煙習慣の抑制か?
STLのグラフをみると「わかったような」気がするから不思議。実際にはなんもわかっちゃいないんだけれども、自分。