今回は、初登場のデータ形式、距離行列を扱いますです。階層的なクラスタリングで使ったりするもの。通常は何かの指標等を「距離に見立てて」計算して生成する行列なのだと思いますが、今回はもろ距離そのもの(直線距離、マイル表示)で距離行列として生成済でした。クラスタリングの結果は如何に?
データのお砂場(34) R言語、Personal Expenditure Data
今回も米国の古い時代のデータです。戦前(第2次大戦ですぞ。応仁の乱でもウクライナ戦争でもありませぬ)から戦後にかけての米国の消費支出のデータらしいです。戦後の「順調な拡大」が読み取れる一方、米国といってもまだまだエンゲル係数高そうな感じです。今と比べると大分様子が異なります。だいたいタバコが重要な支出となっているし。
データのお砂場(33) R言語、USJudgeRatings、米国の判事さんの評価?とな?
今回のR言語所蔵のサンプルデータベース、米国の司法制度を理解していない私には訳わかりません。理解すべくWebを漁ってみましたです。日本語資料も結構あり、しかし大部。ご本家、米国の連邦最高裁のページまで探してみましたが、結局理解不能。意味も分からぬ数字をただ定形処理してお茶を濁した、と。残念な回であります。いつもか?
データのお砂場(32) R言語、USArrests、犯罪逮捕率データを訂正とな?
R言語所蔵のサンプルデータをABC順(大文字先)で端から眺めておりますが、今回も前回に引き続き目出度いデータとは言えません。1973年の米国の各州別の都市人口比率と凶悪犯逮捕の比率です。その関係性について調べるのかと思いきや今回のテーマはデータの訂正の仕方です。誰かが転記ミスをしてそれに気づいた人がいると。流石です。
データのお砂場(31) R言語、USAccDeaths、米国における事故死データ6年分
R言語所蔵のサンプルデータをABC順(大文字先)で端から眺めております。今回は1970年代の米国における事故死者の統計6年分です。前回に続き時系列データです。前回のガスの消費量に季節変動があるのは素直に納得できるのでありますが、事故にも季節変動があることが明らかな感じです。なぜ?
データのお砂場(30) R言語、UKgas、英国のガス消費量4半期毎
R言語所蔵のサンプルデータをABC順にみております。今回登場は1960年代から80年代中盤にかけての英国のガス消費量のデータです。時系列データの定番サンプル的なやつ。結構あちこちで目にするような気がします。データは天然ガス限定と書いていないですが、今や無色無臭の天然ガスも、ガス臭い、いや、きな臭くなった世界。
データのお砂場(29) R言語、UCBAdmmissions、UCバークレーの入試男女比?
ABC順に端からサンプリングデータ、再びカテゴリカルデータの集計登場。UCバークレー校のAdmissions(入試)の学部別、男女別の合否データみたいです。出典は1975年の御本なので、相当古いデータ。しかしこのデータ「シンプソンのパラドックス」を説明するときの定番データらしいです。知らないとモグリ的なやつ?
データのお砂場(28) R言語、ToothGrowth、ビタミンCの効果とな、ホントか?
前回は1回だけPythonでの処理に行きましたが、今回はR言語でR言語所蔵のサンプルデータセットの処理に戻ります。今回のデータ自体は分かり易いと言えば分かり易いです。ビタミンCがモルモットの歯の成長に及ぼす影響についてのデータみたいです。でもねえ、このデータだけ見せられても、という感じ。処理はできるでしょうが。
データのお砂場(27) Python、Titanic、前回データの別な切り口
前回、R言語所蔵のTitanicデータセットを処理。事故のデータなのであまり気色の良いものではないな、などと思っていたら、痛ましい海難事故発生。人間はそういうことに「因果関係」を感じてしまうものであり、私も例外ではないです。が、因果は無いのであります。そうしたら別口でTitanicデータをまた発見。何かあるのか?
データのお砂場(26) R言語、Titanic、タイタニック号の生存者とな
今回のサンプルデータセットは皆さんよくご存じのタイタニック号です。映画タイタニックも見ましたが、この老人の記憶の奥底にあるタイタニックはTVドラマ「タイムトンネル」のタイタニックなんであります。といって若者も中年も知らないか、タイムトンネル、SFタイムトラベル物の嚆矢かと。それはさておきデータ処理にとりくみますです。
データのお砂場(25) R言語、Theoph、テオフィリンの薬物動態とな
R言語のサンプルデータセットをABC順(大文字先)で端から試してみています。今回はお薬ネタ再びです。テオフィリン、どうも喘息などで処方される薬のようです。これの薬物動態、時間に対する血中濃度を処理するもの。何度かお薬ネタをやっているうちに、何だかよく分からないけれど処理の手順は覚えましたぜ。
データのお砂場(24) R言語、Seatbelts、英国における道路交通事故の死傷者数
R言語のサンプルデータセットをABC順(大文字先)で端から試してみています。今回は英国の交通事故のデータです。かなり古いシートベルトの着用が法制化される前後のもの。シートベルトの効果が分かる?時系列データで季節変動もあり、その中で法律の施行やら燃料費やらがどう影響を与えているのか処理せよと。 “データのお砂場(24) R言語、Seatbelts、英国における道路交通事故の死傷者数” の続きを読む
データのお砂場(23) R言語、Puromycin、酵素反応の反応速度とな?
R言語のサンプルデータセットをABC順(大文字先)で端から試してみていますが、お薬ネタ?も時々ありますな。今回は、ピューロマイシンという抗生物質だそうです。この抗生剤を使ったときと使わぬときでの何やら反応速度の違いを測定したデータみたい。これまた分かったような分からぬような。でも処理の方法は以前の回同様で良さそう。
データのお砂場(22) R言語、PlantGrowth、植物の成長実験、無味乾燥?
このところ「植物」関係のデータが多い気がします。こちらはR言語のサンプルデータセットをABC順(大文字先)で端から試してみているので他意はございません。毎度、Rの処理からすれば蛇足な背景などを調べて一人悦に入っておりました。面白いので。しかし、今回は植物のデータですが無味乾燥(データは乾燥重量)。