R言語所蔵のサンプルデータをABC順に眺めてます。今回はggplot2パッケージのtxhousing。米テキサス州の不動産売買のデータです。このデータは8602件とサンプルデータにしたら結構デカイです。そして収録されているデータも2000年から2015年と新しめ。そして前回のように意味が分からん、ということも無し。
※「データのお砂場」投稿順Indexはこちら
※使用させていただいている Rのversionは 4.3.1。RStudioは 2024.04.2+764 “Chocolate Cosmos” です。
Housing sales in TX
今回の txhousing サンプルデータセットに関する解説ページが以下に。
上記ページを拝見すると、このデータセットの出元はTexas A&M Unversityの Texas Real Estate Research Centerという組織であることが分かります。URLが以下に。
Texas Real Estate Research Center
お惚け老人も、米国テキサス州に、Texas A&Mという大学があることはお名前だけ知ってました。しかし、いったいA&Mって何?というところから理解してなかったです。Agricultural and Mechanicalだそうな。「農工大」って感じですかね。19世紀に大学が創立されたときに遡るお名前みたいです。しかし21世紀の現在では全米でも屈指の学生数を誇る総合大学に発展しているみたい。そのため大学のサイトへ行っても A&M と素っ気なく書いてあるばかりです。
さてその大学の敷地内にあるTexas Real Estate Research Centerというのは、「公的資金で運営されている不動産研究組織(米国最大)」であるようです。不動産にまつわるあれやこれや、金融、社会経済、公共政策、法律、土地利用など研究されているみたいです。大学の中にはビジネススクールもあるのでそこと関係あるのでないか?などと想像してます。
さてサンプルデータセット自体は、不動産取引の金額と件数を、月別、都市別に集計したもののようです。物件の面積がいくらとかコマケー話はおいておいて、金額(当然ドルベースでしょう。解説ページには書いてないけど)と件数です。
変数の中で説明を読まないとサッパリだったものの説明を引用しておきます。Inventory(在庫)です。
“Months inventory”: amount of time it would take to sell all current listings at current pace of sales.
在庫の回転を示す指標のようですな。景気が悪ければ長くなるし、景気が良くなると短くなるのだろうな。これについては興味もあるので後でグラフ化してみます。
後もう一つ。cityの項目の説明に登場するMultiple Listing Service (MLS)というものです。これについては、『(株)不動産流通研究所』様の以下の用語解説を参照させていただきました。
マルティプル・リスティング(Multiple Listing)
なお『(株)不動産流通研究所』様は「月刊不動産流通」などを発行されているみたいです。
米国では上記のMLSというものが早くから発達したみたいですが、日本ではどうなの、ということで見てみると公益法人の指定流通機構という組織があり、日本全国を地域毎4組織でカバーしている、ということらしいです。
先ずは生データ
ggplot2パッケージ内のサンプルデータセットなので、ggplot2をライブラリ呼び出しした後にロードしてます。こんな感じ。
全貌をざっくり把握するために summaryとっておきます。
cityのみ、文字情報で、どんな市があるのか知りたかったので取り出してみました。
ううむ、米国には他国の都市名をそのまま頂いた都市名が多いことは知ってましたが、テキサス州にもパリがあるのね。。。それにBay Areaはあちこちあるけど、テキサスのBay Areaというのはヒューストンの近くなの?テキサスは広大、奥深いっす。
当然、市によって不動産取引の多さは変わると思うので、以下のように集計して眺めてみました。以下は先頭部分のみ。
xはsales件数のsumなので、Dallasのように80万件を超えるところからNAとかの地域まであります。最大はヒューストンで100万件越え。気になったテキサスのパリは6000件ほどです。
処理例
いろいろな処理をできそうなサンプルデータなのですが、ggplot2の解説ページにこのデータセットを使った処理例がいくつか記載されていたので、やってみました。
処理例では、上記でみたようにコマケー町まで含めているとグラフがみずらくなるからか大都市に絞りこんでます。こんな感じ。
txsamp <- subset(txhousing, city %in% c("Houston", "Fort Worth", "San Antonio", "Dallas", "Austin"))
絞りこんだ txsamp でも 935データを含んでます。
最初はx軸 sales(件数)対 y軸 median(中央値、ドルだと思う)です。
(d <- ggplot(data = txsamp, aes(x = sales, y = median)) + geom_point(aes(colour = city)))
なお、Rに精通された姉貴兄貴はお分かりのとおり、丸カッコで括ってやると、代入と同時に表示までされます。こんな感じ。
当然、セールス件数が多い方が値段が上がる傾向だと思われますが、都市によって大分違うのね。オースティン、サンアントニオあたりは、ちょっと取引件数増えてくると一気に中央値も跳ね上がる感じにみえます。ヒューストンとかダラスは規模が大きいからかそれほどでもない。フォートワースは一番件数が少なくて中央値も小さい方に固まっている感じ。テキサスへは飛行機の乗り継ぎで通過したことしかないので、この辺の感覚、まったくわからんぞなもし。
一方、同じtxsampを使ってヒストグラムも描いてます。
(p <- ggplot(txsamp, aes(x = median, fill = city)) + geom_histogram(position = "dodge", binwidth = 15000))
dateに対してInventoryを描いてみた
個人的に気になった Inventory をdateに対してプロットしてみましたぞ。ターゲットは上記で抽出されている「5大都市」です。
(sampleInventory <- ggplot(data = txsamp, aes(x = date, y = inventory)) + geom_point(aes(colour = city)))
都市のよる違いもあり、また2010、11年ごろのようにどの都市もダメダメな時期もあり。Inventoryのプロットは興味深いですな。