
MASSパッケージのサンプルデータセットを巡回中。大文字優先のABC順。前回は「シリアル」でした。牛乳やヨーグルトかけて朝食などで食べるアレでした。今回は急に社会派に転換デス。「刑罰制度が犯罪率に与える影響」とな。1960年のアメリカ合衆国「47州」の集計データだそうな。結構ヤバそうなデータだよ。
※「データのお砂場」投稿順Indexはこちら
The Effect of Punishment Regimes on Crime Rates
今回のサンプルデータセットは UScrime です。解説ページが以下に。
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/UScrime.html
なお、同名の uscrime というサンプルデータセットが、nipalsというパッケージにも含まれているみたいです。しかし、内容は異なるようです。
uscrime: U.S. Crime rates per 100,00 people
また、以下の過去回にて、「米国の各州別の都市人口比率と凶悪犯逮捕の比率」についてのUSArrestsというサンプル・データ・セットを扱ったこともありです。
データのお砂場(32) R言語、USArrests、犯罪逮捕率データを訂正とな?
今回のサンプル・データ・セットは、州別の犯罪率データなのです。しかし、取り扱い注意ということなのか、州名の記載はありません。州名に相当するところは数値になってます。また、米国50州のうち47州のデータです。いろいろな統計数値が記載されているので、個別に調べれば州名を推測できそうではありますが、要らん事、みたいなので踏み込んでません。
変数を眺めてみると、結構「偏見」や「先入観」に影響されている気がしないでもないのです。もしかするとお惚け老人にも無意識なポリコレの影響が出ているのかもしれません。それはそれでヤバイな。当時(1960年代の) Criminologists の先生方の見方で変数が選択されているのでしょう。なお、以下引用のように書かれてもいます。
The variables seem to have been re-scaled to convenient numbers.
まずは生データ
生データはフツーのデータフレームです。ロードしてみたところが以下に。
サマリの数字を眺めていてもサッパリなので、pairプロットを描いてみたところが以下に。
緑枠のところ、お隣同士がいかにも相関ありそうなので、ピックアップしてみました。
-
- Po1とPo2、これは1960年と1959年の州警察の費用みたいです。そんな1年で劇的に変化する筈ないので、相関あるのは当然だろうと。
- U1とU2、これは都市部の14~24歳の男性の失業率と、35から39歳の男性の失業率です。これまた当然相関ありそうな雰囲気。
- GDPとIneq、GDPは頭割りの州内総生産みたいです。一方Ineqの方は州内の所得格差みたい(計算方法はわからんけど。)ここでは格差が大きい方がGDPが低めという関係がありやに見えます。
- ProbとTime、Probはこれまた計算方法は分からんですが、懲役になる可能性を示す数値らしいです。一方Timeは、州の刑務所で服役した場合の平均期間みたいです、単位は不明。可能性が高い方が服役期間が短く見えるのだがどうなんだ?
それぞれ、深く突っ込んでいったら何か分かるのかもな数値ですけど今回はパス。
南部とそうじゃないか?
上のペア・プロットで2つめのSoというのは、南部かそうでないかの2値の変数らしいです。わざわざ設けられているということは何か差があるのでは?ということで処理してみました。
y.So0 <- UScrime[UScrime$So==0,]$y y.So1 <- UScrime[UScrime$So==1,]$y boxplot(y.So0, y.So1, names=c("Southern state==0","Southern state==1"), col=c("#993435", "#edae00"), ylab="rate of crimes", main="The Effect of Punishment Regimes on Crime Rates")
黄色が南部、赤がそれ以外です。南部は比較的犯罪率の低いところにちんまりまとまっているの? それとも他所がバラケているだけ? この時代の米国の社会制度を知らんのでなんとも想像つかんなあ。でもま、差がある?
服役期間と犯罪率
タイトルが「刑罰制度が犯罪率に与える影響」ということなので、各州の服役期間と犯罪率の関係についてLM関数で計算してみましたぞ。
y_time.lm <- lm(y~Time, data=UScrime)
赤矢印のところのP値をみると、「統計的に有意」とは言い難い値です。ただ、傾向としては「なんか、犯罪率高いところは服役期間も長いんじゃね」という匂いがしてなりませぬ。
plot(UScrime$y~UScrime$Time, xlab="average time served in state prisons", ylab="rate of crimes", main="The Effect of Punishment Regimes on Crime Rates") abline(y_time.lm)
ううむ、ビミョー。