データのお砂場(2) R言語、BJsales よくわからないけれど「先行指標」?

Joseph Halfmoon

年寄りの冷や水、R言語を標準インストールすればもれなくついてくるサンプルデータセットを、使い方も良く分からぬまま、それどころか統計も勉強せずに、端から触ってみるというやっつけでご乱心な第2回は BJsales と BJsales.lead であります。なんだかよく分からないデータです。先行指標ってやつ?どんだけ先行してんだろ。

※「データのお砂場」投稿順Indexはこちら

前回もやりましたが、R言語を立ち上げて、

> data()

とやれば、ずらずらと大量なサンプルデータセットの一覧が表示されます。前回は先頭でしたので、今回は2つ目です。と思ったら3つ目は2つ目の関連データでした。2つ目を読み込んだら、3つ目も読み込まれました。一つのデータセットだけれど2行に表示されることもあるのね。

MENU

前回は以下にURLを貼り付けたページから、データのいろいろ説明やら、処理例みたいなことまで辿れて(といってムツカシそうなのでパスしましたが)良かったのです。しかし、今回はデータの外形的な最低限の事しか書いてありません。またもや ts (時系列データ)みたいです。何かのセールスの「結果」とその先行指標 lead みたいっす。具体的なタイムスパンも、何を売ったのかは勿論、セールスの「単位」もまったく分からないっす。

The R Datasets Package

上記ページのBJsalesのページに、元ネタはココみたいなURLが貼ってあったのでそちらへ行ってみました。悲しいお知らせがありました。

Time Series Data Library

上記ページより一行引用させていただきます。

The Time Series Data Library is no longer hosted on this website. You can get the data from the tsdl R package.

結局Rに戻りました。ともかく手探りでやるしかない、と。

手探り

手探りの第1はデータを生で見てみるしかない、と。データセットを開いて、それをまずはclass()で見てみます。

BJ0002つとも時系列データでした。データ数150点。まあ大した分量でないので、エイヤーで全てをダンプしてみました。

BJ001結局、数字見ただけでは何だか分からないです。それではということで、前回覚えたばかりの時系列プロットを実施。以下は BJsalesのグラフです。

BJ002売上高なんだか、数量なんだか分からないけれど、全体としては右肩上がり、景気がいいです。多少の凹があってもリカバーしているんだからいいんじゃね。

もう一つ系列 BJsales.leadのグラフを描いてもらうと

BJ003

グラフに描くとピンときますな。ガタガタの具合が違いますし、Y軸の単位がまったく違うのだけれど、BJsalesとBJsales.leadの間には「相関」が見て取れます(誰でも気づくよな、グラフにすれば。)

ここで思いました。

無理やりにでも2つのグラフ重ねたい。

ただ、そのままの単位で2つのグラフを重ねても単位が大きく違うので、まったく面白くありません(実際に描いて確かめました。)

まったく根拠の無い無謀な一撃。leadのデータの先頭データを20倍するとちょうどBJsalesデータの先頭に重なりそう。。。やってみましたぜ。

BJ004黒実線がBJsales、赤破線がBJsales.leadを20倍したものです。これみると、なんだか leadの方が、少し「先行」しているような気がする、かなり値はガタガタしているけれど。でもこの20倍というのはまったくの出鱈目。も少し「ちゃんとした」数字が欲しい、先行具合の。

とりあえずここまで打ち込んだコマンドはこんな感じ。

BJ002B

私は、統計などできないんだが、多分、もしかして、きっと、相互相関をとったらば、どのくらい「先行」しているんだか分かるんでないかい?

BJ005A一発、ccf()関数で計算できるんだ、便利、考える前にやってみます。

BJ005なんだかな~。相関が強いところ、Lag=0を中心に+3くらいまであるけど、緩やかね。まあ、+とーを比べると、+のLagの方が相関高い気がする。これってBJsales.leadの方を右にズラす意味になるのかな~。そんな事も分からずやっとります。本当は、一撃でそれと分かるピークが欲しかったな。現実世界のデータはこんなもんかな。先行指標、先行してるっぽいけど、微妙。

まあ、ともかく無理やりデータセットをなめるの先行!無謀だな。

データのお砂場(1) R言語、AirPassengers、せめて前年同月比プロットしたい へ戻る

データのお砂場(3) R言語、BOD、生物化学的酸素要求量、非線形回帰分析をやれと に進む