☆確率
probability
未知の事項を推定しようとするとき、ある事項が出現するであろうことの確からしさを定量的に表現したものを確率という
※事項=事柄=事象 (event)
→確率は、ある事象が全体の中でどの程度発生するかの割合
→その値は必ず0と1の間にある
※事象Aが発生する確率をp(A)と書く
0≦p(A)≦1.0
※事象全体の確率の和は1になる。
※排反事象 exclusive
Aという事象が起こればBが起こらず、BがおこればAは起こらないような事象。
→両方が同時に成立することはない
※「値のとり方が確率的に決まっている変数」のことを確率変数という。
◆客観的確率、論理的確率、主観的確率
_◇客観的確率
objective probability
過去のデータに基づいたもの
_◇論理的確率
logical probability
サイコロの目のように目の出る確率は等しいと考えるような論理的なもの
_◇主観的確率
subjective probability
主観を確率という数値をつかって表現したもの
⇒決意の表明
⇒決定理論(decision theory)で使われる
◆確率の定義
_◇試行と事象
※試行
※事象
試行によって得られる結果
※独立
2つのランダム現象があるとき、一方の結果がもう一方の結果に影響しない
⇒条件付き確率を使って定義される
_◇確率の定義
事象Aの起こる確率 p
p=事象Aの起こる場合の数/起こりえる全ての場合の数
※全事象Ω
※標本空間U
起こりうる全ての事象の集合
(全体集合、Universe
※根元事象
1つ1つの事象は同様に確からしい
事象Aの起こる確率P(A)
n(A)
p(A)=----
n(U)
※頻度による確率の定義
ある結果が現れる確率とは、
その結果が現れる可能性のある機会が、
これから十分多くの回数あるとき、
そのうち、ほんとうにその結果が現れる回数の割合である
⇒大数の法則により、試行の数を増やせば確率にちかづく
※ラプラスの確率の定義
※確率の定義には、現実には実行不可能な操作や真偽を確かめられない仮定が含まれる
⇒確率は測定するものではなく、なんらかの仮定をおいて「定義する」もの
_◇乗法定理
※同時確率
2つの確率的な現象(事象)A,Bが同時に起こる確率を
P(A∩B)=n(A∩B)/n(U)
※条件付確率
ある事象Aが起こったという条件のもとで事象Bの起こる確率
P(B|A)
P(B|A)=P(A∩B)/P(A) …(1)
ここでP(A)≠0
※乗法定理
(1)の両辺にP(A)をかけることで求まる
P(A)*P(B|A)=P(A∩B)
_◇排反、条件付き確率、乗積法則
①事象Aと事象Bが排反であるとき、AまたはBの起こる確率を
p(A∪B)
とかく
p(A∪B)=p(A)+p(B)
②事象Aが生じたとき事象Bの起こる確率を、事象Bの条件付確率(contitional probability)と呼んで
p(B|A)
とかく
p(B|A)=p(A∩B)/p(A)
と定義する。ここでp(A∩B)は事象AとBが同時に出現する確率(同時確率または結合確率 joint probability)
※P(A,B)と書くこともある
⇒Aを条件とするBの条件付き確率
上記の式より
p(A∩B)=p(A)*p(B|A)
が得られる
⇒確率の積の法則(乗法定理)
③確率の乗積法則
事象AとBが独立であれば、それらの2つの事象が同時に起こる確率は、2つの事象が個々に起こる確率の積で表すことができる。
p(B|A)がAの事象の発生に左右されないのであれば
p(B|A)=p(B)
このとき②のp(A∩B)=p(A)*p(B|A)式は
p(A∩B)=p(A)*p(B)
※事象AとBとが排反であれば
p(A∩B)=0
すなわち
p(A)*p(B)=0
_◇周辺確率、確率の樹
marginal probability
他の事象にかかわりなく一つの事象だけの確率をいう
たとえば2つの排反事象RとWの和としてp(B)が求められる場合をいう
p(B)=p(B|R)*p(R)+p(B|W)*p(W)
※確率の樹
probability tree
_◇決定の樹
decision tree
確率分岐点と決定分岐点
_◇確率変数
確率的に値が定まる変数
⇒試行をして初めて値が確定する変数
※確率変数名は大文字を使う
X
⇒p(X=x) 確率変数Xが値xをとる確率
※確率変数Xが値
x1, x2, x3, …, xn
をとり、それぞれの値をとるときの確率が
p1, p2, p3, …, pn
で与えられるならば
平均値
μ=x1*p1+x2*p2+x3*p3+…+xn*pn
⇒E(X)とも書く
Expectation Value
分散
σ^2=(x1-μ)^2*p1+…+(xn-μ)^2*pn
⇒V(X)とも書く
Variance
標準偏差
σ=√(σ^2)
_◇確率分布
確率変数の値に対応して、それが起こる確率値が与えられるとき、その対応を確率分布という
※確率分布表
※確率密度分布
連続的な値をとる確率変数にたいしての確立分布の表現
確率変数 X が a≦X≦bの値をとる確率 P(a≦X≦b)は、
確率密度関数f(x)を用いて
P(a≦X≦b)=∫[a:b]{f(x)}dx
※累積分布関数
確率変数 X が値xより小さい値をとる確率pを与える。
⇒確率密度関数で値xより左側の部分でグラフとx軸に挟まれた面積となる。
_◇連続的確率変数の平均と分散
確率密度関数f(x)の定義されている a~bの区間で
平均値
μ=E(x)=∫[a:b]{x*f(x)}dx
分散
σ^2=V(x)=∫[a:b]{(x-μ)^2*f(x)}dx
標準偏差
σ=σ^2
⇒確率密度関数f(x)を質量分布と考えれば、平均値は重心と同じ
⇒μは分布の重心を著す
_◇パーセント点
※上側パーセント点
確率変数 X がパーセント点の値 x よりも大きな値をとる確率のパーセント
※両側パーセント点
左右対称な確率密度関数で、パーセントで示される値の半分が上側に、半分が下側にある
※100p%点
上側 確率密度関数の上側の確率がpとなるときのXの値
両側 確率密度関数の両側の確率がpとなるときのXの値
※p値
確率変数 X の値 xから、上側または両側の確率 p を求める
片側検定用のp値
P(X≧x)=p
両側検定用のp値
P(X≧x)=p/2
_◇確率変数の標準化
確率変数 X について
Z = a*X + b
なる変換を行うと
E(a*X+b)=a*E(X) + b
V(a*X+b)=a^2*V(X)
σ(a*X+b)=|a|*σ(X)
と変換できる
※標準化
ここで
X-μ
Z=---
σ
とする。上記の変換から
E(Z)=0
V(Z)=1
となり、標準的な分布に帰着させることができる
◆順列と組み合わせ
_◇順列
permutation
n個の中からk個を並べる並べ方
nPk = n(n-1)(n-2)…(n-k+1)=n!/(n-k)!
※特にr=nの場合は
nPn=n!
_◇組み合わせ
combination
n個の中からk個を選ぶ選びかた
nCk = n! / k! * (n-k)!
nCk = {n(n-1)(n-2)…(n-k+1)}/k! = nPk / k!
0!=1,
nC0=0C0=1
※nCkを2項係数 binominal coefficient と呼ぶ
nCk = nCn-k
nCk = n-1Ck-1 + n-1Ck
_◇Stirlingの公式
nが大きいときn!の値を求める
n! ≒ {(2π)^(1/2)}*{n^(n+(1/2))}*{e^-(n-(1/12n))}
⇒より簡略な近似
n! ≒ {(2π)^(1/2)}*{n^(n+(1/2))}*{e^-n}
◆確率密度分布
確率をあるパラメータの変化によって変わる全体的なパタンとしてとりあつかう
⇒確率密度分布
※パラメータ=確率変数
_◇確率密度分布関数
※確率密度分布を関数形として示した場合、その関数を確率密度分布関数とよぶ
※確率変数 X が連続した値をとる場合には、確率密度関数 f(X)により確率を考える
⇒確率密度関数 probability density function(PDF)
(1) f(X)≧0
(2) f(X)のグラフとX軸の囲む図形の面積が1
※離散的な確率変数 x 確率分布表
確率変数が a以上 b以下である確率 P(a<x<b) は f(x)をaからbまで積分して求まる。
※累積分布関数 (CDF)
probability density function
F(x)=Pr(X<x) -∞<x<∞
累積分布関数 F(x)が微分可能なとき
f(x)= d/dx F(x)
⇒f(x)を確率変数Xの確率密度関数という
Pr(X<x) = F(x) = ∫[-∞:x]f(t)dt _◇二項分布 binominal distribution b(x; n; p) <例> 平均不良率がpの大きなロットからn個の部品を取り出し、その中にちょうどx個の不良品がある確率。 良品率をq=1-pとする 不良品x個、良品(n-x)個を含む ある特定のn個の部品中x個の不良品を含む組み合わせの生じる確率は p^x * q^(n-x) 良品と不良品の出現順序は問題としないので、実際の確率は nCx * p^x * q^(n-x) ※xを確率変数と考えた確率密度分布関数f(x)を考える f(x)=nCx * p^x * q^(n-x) ※確率変数が正の整数以外をとらない ⇒離散的(discrete) ※どのような値でもとることができる ⇒連続(continuous) ※二項分布の平均値μ μ=n*p ※二項分布の標準偏差σ σ=√(n*p*q) _◇正規分布 Normal distribution 二項分布 B(n,p)でnが大きくなると正規分布に近づく 1 -(x-μ)^2 Y=--------e^(--------) √(2πσ^2) 2*σ^2 nが十分大きいとき μ=n*p σ^2=n*p*(1-p) ※N(μ、σ^2) μとσ^2できまる μ:X=μ中心に左右対称。 確率変数Xの平均値=Xの期待値 σ^2:分散。小さくなるとグラフは幅が狭く高くなる。大きくなると幅が広く、低くなる。Xの散らばり具合を示す ※正規分布曲線とx軸とで囲まれた領域の面積は常に1に等しい。 ※変曲点 正規分布の変曲点のx座標は 平均±標準偏差 にある ※正規分布曲線はμとσ^2により形が変わるので計算が面倒。⇒以下の置換により標準化する X-μ Z=--- σ 確率変数Xに対する正規分布N(μ、σ^2)は 確率変数Zに対する標準正規分布N(0,1) に置き換えられる N(0,1)の確率密度関数 1 -x^2 Y=-----e^(----) √(2π) 2 ※正規分布表により確率を求めることができる _◇カイ2乗分布 ※自由度nのカイ2乗分布 χ^2(n) 標準正規分布N(0,1)に従う、互いに独立なn個の確率変数X1,...、Xnを考える それらの2乗を足し合わせた新たな確率変数Xを考える X=X1^2+。。。+Xn^2 このXが従う確率分布を自由度nのカイ2乗分布という _◇t分布 スチューデントのt分布 ※スチューデントはゴゼットのペンネーム t(n) 2個の独立な確率変数XとY XはN(0,1)に従う YはX^2(n)に従う X T=----- √(Y/n) Tも確率変数であり、Tが従う確率分布を自由度nのt分布という。 ※x=0に関して左右対称 ※nが大きくなると、ピークが高く、幅が狭くなる ※nが大きくなると標準正規分布曲線に近づく ∞で正規分布と①する 自由度pのt分布 (1+(x^2/p)^(-(p+1)/2) ※中心極限定理では、母分散σ^2が知られていることが仮定されている ⇒母分散がわかっていない場合にn個の標本から得た標本分散s^2で置き換えようとする場合 Xバー - μ t=――――――― s/√n は、自由度n-1のt分布に従う ※予測値と実測値の差y-^yの分布がt分布となる _◇F分布 F-distribution フィッシャースネデッカー分布 自由度p, qのF分布 x^(p/2 – 1) * (1 + (p/q)*x)^(-(p+q)/2) 。。。x>0 ※F分布は分散に関する統計量の分布に関係する。 例)正規分布に従う母集団から、n1個、n2個の標本を選んで求めた分散 s1^2, s2^2の比 s1^2 / s2^2 は、自由度n1-1, 自由度n2-1のF分布となる _◇超幾何分布 <例> 1ロットn個の部品の中にf個の不良品が含まれている。ランダムにこの中からr個を抜き取るとき、r個の中にk個の不良品が含まれる確率はいくらか n個からr個を抜きとる組み合わせ nCr ⇒全事象の数 r個の中の不良品k個は、全数f個からランダムに選ばれることになるので、出現回数は fCk 良品は、全良品(n-f)個から(r-k)個取り出すことになるので n-fCr-k よって求める確率 P(x=r,k)は fCk*n-fCr-k P(x=r,k)=----------- nCr _◇ポアソン分布 Poisson distribution Pn(k) = (e^-a * a^k) / k! Pn(k)は、1回の試行で成功することがまれであり、多数回の試行を行う状況において、n回の試行でk回の成功を得る確率(2項分布でnを無限に近づけて消去したものがポアソン分布である) a:成功する確率にnをかけたもの ※二項分布で平均値μの大きさが一定でnが十分大きいとき b(x; n; p)≒{μ^x * e^(-μ)} / x! _◇統計的分布関数の性質 ※離散的分布の場合 Σ[i=-∞:∞]f_i(x)=1 ※連続分布の場合 ∫[-∞:∞]f(x)dx=1 ※平均値と分散 μ=∫[-∞:∞]x * f(x)dx σ^2 =∫[-∞:∞]x^2 * f(x)dx ※一般に∫[-∞:∞]x^r * f(x)dx は、関数f(x)のr次のモーメントと呼ばれる。 (平均値は1次、分散は2次のモーメント) ⇒三次のモーメント=歪度(非対称の度合いを表す) ⇒4次のモーメント=分布関数の尖度を表す _◇確率分布関数 確率分布密度関数を確率変数xの最小点から順次累積した関数 F(x)=∫[-∞:x]f(x)dx ◆不完全根拠の原理 principle of insufficient reason ※14世紀前半のジャン・ビュリダンの2つの乾草の山と中間のロバ ◆ベイズ推定問題 _◇主観確率 subjective probability ベイズ推定では不確かさはその対象を観察する人の知識にあるとされ、全ての確率は主観的な確率として考える。 ※観察者のもつ不確かな知識のことを信念(belief)と呼ぶ _◇事前確率 prior probability 観測者が観測以前にもっている信念を確率分布関数で表現したもの。確率変数Xに対して P(X) と表す。 _◇事後確率 posterior probability 観測した結果Dのもとでの確率変数Xに対する信念(belief)を P(X|D) と書き、事後確率と呼ぶ ※情報を得たことによって新しく改訂された確率 _◇尤度 likelihood 確率変数Xの元では観測結果Dが確率 P(D|X) にしたがって生成される筈だということがわかっている場合、P(D|X)を尤度という。 ※尤度関数P(D|X)で定義された確率的生成モデルと呼ぶ _◇ベイズの定理 Bayes’ Theorem 事前確率P(X), 事後確率P(X|D), 尤度P(D|X)の間には以下の関係が成り立つ。 P(D): Dのエビデンス P(D)=Σ(Xの全ての場合)P(D|X)P(X) P(X|D)=P(D|X)*P(X)/P(D) ※事象BがB_1、B_2,…,B_nというn個の排反事象から構成されていたとする。おのおのB_iについて、もう一つの事象Aに対する条件付確率の以下の式が成立する P(B_i|A)=p(A∩B_i)/p(A) …(0) したがって p(A∩B_i)=p(A)*P(B_i|A) …(1) 同様に p(A∩B_i)=p(Bi)*P(A|B_i) …(2) (1),(2)の右辺を等しいとおいて p(B_i|A)=p(Bi)*p(A|B_i)/p(A) …(3) 一方 Σ[i=1:n]p(A∩B_i)=p(A) であるから、これを用いて式(3)を書き換えると p(B_i|A)=p(B_i)*p(A|B_i)/(p(A∩B_1)+…+p(A∩B_n)) 再び(2)を使って分母を書き直すと p(B_i|A)=p(B_i)*p(A|B_i)/(p(B_1)*p(A|B_1)+…+p(B_n)*p(A|B_n))) ※確からしさは何か新しい情報を得た場合に当然変わる <例> 在来のデータ分析の結果 機械の調整が正しい。。。良品率90% 機械に故障がある。。。良品率30% 始動時の良調整率。。。75% 始動直後の最初の製品が良品であった場合に、機械が正しく調整されている確率はどうなるか? 事前確率 75% 事後確率 p(調整が良い|1個の良品) =p(調整が良い)*p(1個の良品|調整が良い)/ {p(調整が良い)*p(1個の良品|調整が良い)+ p(調整が悪い)*p(1個の良品|調整が悪い)} p(調整が良い)=0.75 p(1個の良品|調整が良い)=0.90 p(調整が悪い)=0.25 p(1個の良品|調整が悪い)=0.30 より p(調整が良い|1個の良品)=0.9 ⇒最初の1個が良品であったことで、機械の調整が正しく行われている確率は大きくなり、その後の個数の良否により確率は変動する _◇ベイズ的行動決定 状況 X のもとで行動 A を決定する。行動 A の良さは、効用関数(utility function) U(A|X) で定義される。 不確実な状況 X のもとでの最良の行動は、 期待効用 E[U] = Σ(Xの全ての場合についての和) U(A|X)P(X|D) を最大にするように決める。 ※例 事前確率P(X) P(彼女は怒っている) = 0.7 P(彼女は怒ってない) = 0.3 (彼女の表情の生成モデル) P(観測結果 D|確率変数 X) P(にこにこ顔|彼女は怒っている) = 0.1 P(むっすり顔|彼女は怒っている) = 0.9 P(にこにこ顔|彼女は怒ってない) = 0.5 P(むっすり顔|彼女は怒ってない) = 0.5 いま彼女が怒っている確からしさは、 P(怒|にこにこ) P(にこにこ|怒)P(怒) =--ー---------------------- P(にこにこ|怒)P(怒) + P(にこにこ|不怒)P(不怒) = 0.1 × 0.7 / ( 0.1 × 0.7 + 0.5 × 0.3 ) ≒ 0.32 効用関数を以下のようにすると U[花|怒] = -8000 U[無|怒] = -30000 U[花|非怒] = -8000 U[無|非怒] = 0 E[U[花]] = U[花|怒] P(怒|にこにこ) + U[花|非怒] P(非怒|にこにこ) = – 8000 × 0.32 – 8000 × 0.68 = – 8000 E[U[無]] = U[無|怒] P(怒|にこにこ) + U[無|非怒] P(非怒|にこにこ) = – 30000 × 0.32 – 0 × 0.68 = – 9600 ◆尤度 (likelihood) 尤度 likelihood 尤度比 likelihood ratio 最尤推定法 maximum likelihood estimation 事後確率 ベイズの定理 Bayes theorem 確率と尤度 各事象の確率に影響を与える因子をパラメータという。一般に確率はパラメータの関数である。 尤度を考える場合、事象は既に起きており、観察データが得られている。そこであるモデルが正しいとしてその仮説の下での観察データが起きる確率を考える。これが尤度である。 確率が「事象の確率」であるのに尤度は観察データの下での仮説の尤度(likelihood for a hypothesis given a set of observations)である。 _◇尤度比とロッド値 一般にモデルの尤もらしさを比較する場合、尤度そのものにはあまり意味がないことが多い。 ⇒異なった尤度の比をとることが有用 ⇒尤度比の常用対数を取ったものがロッド値(lod score) _◇最尤推定法 パラメータを動かして尤度が最高になるようなパラメータを捜す方法 ※最大尤度(maximum likelihood) それを与えるパラメータの値を最尤推定値(maximum likelihood estimate)といい、パラメータを表す変数の上に山形記号をつけて示す。 ※最尤推定値の求め方 ①パラメータ関数をパラメータで微分し、0とおいて方程式を解く。 ②EMアルゴリズム(Estimation-maximization algorithm)などにより数値的に解く。 ◆論法 _◇デルタt論法 自分があるものをみていることに特別のことがない場合、関係する知識がなければ、その物は、今の年齢の3分の1から3倍の間続く可能性が50%ある ⇒95%の可能性ならあ、39分の1から39倍の間となる ☆統計 ※統計とは観測地の集団に関するある性質についての数量的表現であって、個々の観測値について言及するものではない。 ◆記述統計と推測統計 _◇記述統計 データの傾向、性質 _◇推測統計 一部しか収集できなかったデータ(標本)をもとにして全体(母集団の母数)を推測 あるいは、母集団が従う確率分布を知る ⇒推定、検定、適合度検定、独立性の検定 母数の値を推測 推定 点推定 区間推定 検定 母集団の従う確率分布を推測 適合度検定 独立性の検定 ※標本変動 ランダムサンプリングで得た標本から得た推定値 ⇒抽出の度に異なる ⇒バラツキのある値から母数を推定するのが統計的推定 ※確率変数Xの母平均μを推定する ⇒母平均の推定量Xバーを導入 ⇒確率変数Xに具体的な値を得る ⇒Xバーの推定値を算出 ⇒標本分布を得る ※統計量 標本を得ることで値が確定する確立変数 ※母数 母集団のもつ特性値 ※推定量 母数θを推定するために用いる統計量 ※推定値 標本から得られた推定値の値 ※母集団分布 母集団の個体の分布 ※標本分布 推定量の分布 _◇用語(英和対訳) 推定 estimation 推定量 estimator 推定値 estimate 母数 parameter 母集団分布 distribution of population 標本分布 sample distribution 点推定 point estimation 区間推定 interval estimation 不偏性 unbiasedness 一致性 consistency 有効性 efficiency 不偏推定量 unbiased estimator 一致推定量 consistent estimator モーメント法 moment method 最尤法 maximum likelihood method 尤度関数 likelihood function 上側確率 upper probability 平均値 mean 中央値 median 最頻値 mode 範囲 range 平均偏差 mean deviation 分散 variance _◇アンケート調査 ※ダブルバレル質問 double-barreled 質問に2つ以上の論点があり、どれを聞かれているのかが不明確な質問 ※最高額や最低額は選択されにくい傾向がある。 ※特に言いたいことがなければどちらでもない、5段階評価の3が多い 4段階だとどちらでもないがない ◆尺度水準 ※名義尺度と順序尺度にあたるデータ⇒質的データ(足し算、引き算ができない) ※間隔尺度と比例尺度⇒量的データ(足し算、引き算ができる) _◇名義尺度 数字は単なる名前 変数間の比較は ≠ = のみ 順序、加減は不可 代表値=最頻値 _◇順序尺度 数字は測定性質の順序 大小比較できるが、加減はできない 最頻値に加え、中央値を求めることができる _◇間隔尺度 ひとしい差=ひとしい間隔 加減が意味を持つが、尺度上のゼロ点は任意 最頻値、中央値、算術平均とれる _◇比率尺度(比例尺度) ゼロ点は絶対位置 剰余に意味がある 算術平均に加えて帰化平均も意味を持つ ◆統計とデータ ※統計で扱うデータ 客観的にみて確かな情報 ※統計のひとつの目的 多くのデータの間にある規則性をさぐる ※データの羅列はベクトルと考えることができる ⇒サンプルごとのベクトルは統計解析ではあまり使うことがない _◇個票 河口されていない調査データをまとめた表 ⇒1次データ ※個体 資料の構成単位となるひとまとまりのデータ組 個体を特定できる名称⇒個体名 ※変量(変数) 資料の調査項目 通常小文字 ※複数の変量を収めた資料 ⇒多変量の資料 _◇クラス(階級)と度数、ヒストグラム 多くのデータをもつ全体をいくつかの小グループに分ける ⇒クラス ⇒クラスが大きすぎたり、小さすぎたりすると傾向がつかめない⇒適切なクラスの大きさがある ※度数 クラスに含まれるデータの個数 どのくらい頻繁に現れるかを表す量 ※度数分布表 データを適当な間隔(懐旧)に区切って、その区間に含まれる頻度(度数)で資料をあらわしたもの 階級 階級幅(下限~上限) 階級値 階級を代表する値 通常、階級の中央の値 度数 ※ヒストグラム 度数分布を柱状のグラフに表したもの ⇒柱の高さではなく面積で度数を表す ⇒とぎれとぎれの棒グラフで描いてはいけない ⇒横軸を間隔尺度として、柱の間隔をあけずに描く ※階級の分け方を変えると印象が異なる分布になる ※相対度数分布 %の単位で表した度数 度数の合計=総度数 ⇒それぞれのクラスの度数を総度数で割る ⇒データ全体数に対する割合(相対度数)が得られる ⇒データ個数の異なる2グループの比較が簡単-にできる ※累積度数分布 各階級の度数を積み重ねる ※JIS基準 階級幅は見やすい整数とし、階級数は多からず少なからずとする。 平均≒Σ{階級値*相対度数} _◇幹葉図 例) ①データを十の位の数字で10段階にわける ②1の位の数字を各段階に書き込む ⇒これでヒストグラムのように見えるようになる ③各段階の数字をソートする _◇代表値 ※資料の分布の中心を示す数値のことを代表値という。 ①平均値 (mean) データの合計 平均値=------ データの個数 ※度数分布曲線では重心のx座標 ※Xを確率変数、aを定数とするとき E(X+a)=E(X)+a E(a*X)=a*E(X) E(a*X+b)=a*E(X)+b ※期待値は平均値と同意義。平均値をE(X)で表すのは 期待値 ExpectationのE ②メディアン(median; 中央値) データを大きさの順に並べ替えたとき、ちょうど順番が真中になる値 (Nが偶数のとき) N/2番目のデータ+(N/2+1)番目のデータ ------------------ 2 (Nが奇数のとき) (N+1)/2番目のデータ ※度数分布曲線では面積を2等分する縦線のx座標 ③モード(mode; 最頻値) データの中で最も多く現れる値 ※度数分布曲線では山の頂上のx座標 ※度数分布 ①ほぼ左右対称 平均値≒メディアン≒オード ②右にかたよる 平均値<メディアン<モード ③左にかたよる 平均値>メディアン>モード _◇分散、標準偏差 ※範囲(レンジ) 分布内の最大値と最小値の差 ※偏差 各データと平均との差 ※分散 variance 通常 s^2 と表記する ⇒資料の情報量を表現する (データ-平均値)^2の合計 分散=-------------- データの個数 (偏差)^2の合計 =--------- データの個数 ※データ‐平均値 のひとつひとつを偏差という ※(偏差)^2の合計を偏差平方和または変動という ※Xを確率変数, aを定数とするとき V(X+a)=V(X) V(a*X)=a^2*V(X) V(a*X+b)=a^2*V(X) ※標準偏差 Standard deviation 通常 s と表記する 分散の平方根をとることでとることで、データとの比較がしやすくなる 標準偏差=√(分散) ※分散。違いが強調される。 ※分散が大きい⇒いろいろな情報を読み取ることができる。情報量が豊富。 ※連続的確率変数の場合の分散 V(x)=∫[a:b]{(x-μ)^2*f(x)}dx _◇標準得点 そのデータが、分布の平均に比べて、標準偏差の何倍上回っているか(あるいは下回っているか) ※分布を平均0、標準偏差が1になるように変換すれば、標準得点に変換される。 _◇相関図、共分散、相関係数 2組のデータをxy座標軸上の点であらわす ⇒相関図 correlation diagram(散布図 scatter plot) ⇒2変量の数値の大きさが極端に異なるときは、標準化された変量に対して相関図を描くとよい ⇒3変量以上あるときは、2つずつ組み合わせる ※共分散 covariance 2種類のデータの関係の強さ(相関の正負と強弱を数値として)を表す ⇒Sxy=(x-x~)*(y-y~) 正の相関 Sxy>0
負の相関 Sxy<0
相関がない Sxy≒0
Σ{(X-Xの平均)*(Y-Yの平均)}
--------------------
データの点数
⇒ものさしにより値が異なる
※相関係数
correlation coefficient
ものさしによらない
rと表記することが多い(relation)から
共分散
------------
Xの標準偏差*Yの標準偏差
Σ{(X-X~)*(Y-Y~)}
r=-----------------
√{Σ(X-X~)^2*Σ(Y-Y~)^2}
※正の相関、無相関、負の相関
負の完全相関 相関がない 正の完全相関
-1 ~ 0 ~ 1
※偽相関
spurious correlation
2変数の間に相関関係があっても、因果関係があると考えられない場合
※相関関係があるからといって、因果関係があるわけではない
_◇標準化(基準化)
z=(x-x~)/Sx
変数x の平均 x~, 標準偏差 Sx
この変換を変数 x の標準化(基準化)とう
※z の平均は0, 分散は1
⇒標準偏差も1
※z が平均より大なら正、小なら負
※z は無次元量
_◇回帰直線
※平均値の点をかならず通る
※傾きa
a=相関係数*(Y軸標準偏差)/(X軸標準偏差)
_◇クロス集計表
※pivotテーブル
⇒クロス集計 cross tabulation
⇒クロス集計表 cross table
⇒縦の項目を表頭、横を表側という
◆確率分布と試行
_◇試行と確率変数
※試行
ある行為をおこなって一つの結果を導きだすこと
どのような結果が導き出されるかは予め知ることができず、偶然をともなう
※確率変数
試行の結果に応じて、定められた値をとる変数
試行前にわかっているのはとり得る値のみ
(とり得る値毎に確率が付与されている)
試行結果と確率変数の値とは1対1の関係
⇒確率変数は大文字で表す
確率変数Xのとり得る値がN個あるとし、N個の値を
x1, x2, … xN
Xがx1をとる確率をp1、… xNをとる確率をpNとする
※確率分布
確率変数のとりえる値のそれぞれに対応する確率の集まり
{p1, p2, …, pN}
が確率分布
※全確率
N個の確率の合計
p1+p2+…+pN=1
_◇期待値
1回の試行あたり、Xのとる値の平均値
=x1*p1 + x2*p2 + … + xN*pN
※確率密度関数 f(X)を用いる場合
E(X) = ∫[a:b]{X*f(X)}dx
_◇一様分布
すべての確率は互いに等しい
確率密度関数
f(x) = k(一定) a≦x≦b
0 x<aまたはb<x
この分布にしたがう確率変数 X の
平均
E(X)=(a+b)/2
分散
V(X)=(b-a)^2/12
⇒定義の式にしたがい定積分すれば求められる
※一様分布は通常連続分布を想定
※離散一様分布
⇒平均値、分散については連続一様分布の公式が使えないことがある。
_◇ベルヌーイ分布
2個の確率{p, q}からなる確率分布
p+q=1
※確率変数の取りえる値は1と0
_◇二項分布
binomial distribution
1回の試行は 1(確率p) 0(確率q)だが、これをn回繰り返したときに1がk回出る確率 (q=1-p)
P(X=k)=nCk * p^k * q^(n-k)
※P(条件)
条件が成り立つときの確率
※nCk
二項係数(組み合わせの数)
nCk=n!/(k! * (n-k)!)
k=0..nのn+1個の確率からなる確率分布を二項分布という
※B(n,p)
q=1-p, kは0…nなので、P(X=k)はnとpだけで決まる
二項分布をB(n,p)と書く
※B(n,p)のグラフ
Xを横軸、P(X=k)を縦軸とすると
①ピークをもった山形
②nが大きくなるとピーク位置が右へずれ、ピーク高さが減少する
③そして山の形が左右対称になる
⇒nが増えると正規分布に近づく
※二項分布の平均と分散
E(X)=n*p
V(X)=n*p*q
_◇正規分布
Normal distribution
平均m, 標準偏差σの正規分布 N(m,σ^2)
1 (X-m)^2
Y=--------*e^(- -------)
√(2πσ^2) 2σ^2
※平均値と標準偏差だけで決まる確率密度関数である
※平均mを中心として左右対称
※m+σ、m-σに変曲点がある
※σが大きくなるとmのピークが低くなる
両側
m±σ 68.26%
m±2σ 95.44%
m±3σ 99.73%
※T=(X-m)/σで標準化
標準正規分布N(0,1)
Y=(1/√(2π))*e^(-X^2/2)
※正規分布の加法性
確率変数Xが正規分布N(mi,σi^2)にしたがえば
確率変数Σ[i=1:n]ai*Xi は
正規分布N(Σ[i=1:n]ai*mi,Σ[i=1:n]ai^2*σi^2)
_◇対数正規分布
①負の値になることはない
②平均値と標準偏差の間に相関がある
③モードの①は平均値より小さい
④幾何標準偏差は単位の無い無地原料
※変量に次のような特徴があるときに近似的に用いられることが多い
①サンプルの中で飛び離れて大きな値が得られる。
②飛び離れて大きな値がでる確率が小さい
③平均値と標準偏差との間に草案がある
④誤差の表現に比率を用い、比率によって比べられる。
_◇分布のモーメント
◆母集団と標本
_◇全数調査と標本調査
全数調査:調べる対象の集団全体を調査
⇒母集団全てを調べる
例)国政調査
標本調査:調べる対象の集団の一部を調査
⇒その結果をもとに全体を推定する
※標本調査では、標本の選び方によって平均、分散などの値は異なる
⇒平均や分散自体が確率変数となる
※分散を求めるときに分母をn-1にとると、
個数nのいろいろな標本についての分散、の平均が母集団の分散に一致する
⇒不偏性
_◇母集団と標本
※母集団 population
無限個ある事象の集合
調査対象である集団全体
※標本 sample
抜き出した現象
集団から抜き出した集まり
※得られた標本の特性を分析することによって、母集団に固有な性質を推定すること⇒統計的推定
※資料が母集団であれば分散の分母は母集団の大きさになる
※資料が母集団から抽出した標本のときは、分散の分母は標本の大きさから1を引く
⇒標本の分散の平均値が母集団の分散に等しくなってほしいため。
※標本から求めた変数Tの平均値が母集団の母数θと一致するとき、Tをθの不偏推定量という。
※n-1で割った標本分散は不偏推定量であるので、不偏分散という。
_◇標本抽出
標本を抜き出すことを標本抽出という
※無作為抽出
母集団の特定のグループに偏らないようにする
※標本調査は試行である
n個抽出⇒標本の大きさ⇒n個の確率変数
母集団と抽出したn個の確率変数は同じ確率分布に従う
※復元抽出
いったん抜き出した標本を、もとの母集団に戻す
※非復元抽出
1回に標本の大きさ分のデータを一度に抽出する
⇒確率理論的には復元抽出の方が理想。現実的には非復元抽出が多い
_◇母数
母集団についての全数調査ができなければ正確な数値を求めることはできないが、平均値などは必ず存在する
母平均 m
母分散 s^2
母標準偏差 s
※代表値
平均値、中央値、最頻値など
※散布度
範囲、平均偏差、分散
_◇不偏推定量と自由度
標本から得られる統計量≠母集団の統計量
しかし
※標本の統計量の期待値が母集団の統計量の期待値と一致するとき、その統計量を不偏統計量とよぶ
母平均μと標本平均xバー
E(xバー)=μ
であれば平均は不偏推定量であると言える。Eは期待値。
⇒不偏分散の場合はn-1で割る
※互いに独立に動けるデータの個数を自由度という
⇒標本の分散の計算では、n個のデータの平均を利用した条件があるので、自由度はひとつ減ってn-1となる
⇒n個の変数に対してk個の条件が課せられると自由度はn-k
_◇標本平均とその分散
標本平均値の平均=母平均 m
標本平均値の分散=(1/n)母分散s^2
(標本分散値の平均とは混同しないこと)
※標本平均をXバーと書く。確率変数である。
⇒標本平均が標本毎に実際にとる値が標本平均値
⇒標本平均Xバーの期待値は母平均mに等しい
⇒標本平均Xバーの分散は母分散s^2のn分の1に等しい
_◇大数の法則
標本数nが十分大きければ、標本平均Xバーが母平均mに近い値をとる確率は1に近い。
_◇中心極限定理
※母集団が正規分布にしたがわなくても標本数が十分大きければ中心極限定理がなりたつ
「母平均m、母分散s^2の母集団から大きさnの標本を無作為に抽出したとき、nが十分大きければ、母集団の従う確率分布に関係なく、標本平均Xバーは期待値m、分散S^2/nの正規分布N(m,s^2/m)に従うとみなすことができる」
⇒ただし、nは十分大きな数とする
平均がμ、標準偏差がσの母集団から取り出された標本平均xバーは、平均μ、標準偏差σ/√nの正規分布に従う(nは標本の大きさ、十分大きい)
※母集団の分布には関係しない(nは大である必要あり)
※母集団が正規分布に従う場合は、標本nの大きさに関わらず、中心極限定理が成立
_◇確率変数の標準化
※期待値μ、分散σ^2の確率変数Xの標準化
X-μ
X→Z=---
σ
Zの期待値は0、分散は1
※標本平均Xバーの標準化
期待値m、分散s^2/nの正規分布N(m、S^2/n)に従うXバーの標準化
Xバー-m
バー→Z=------
s/√n
※推定や検定は、多く、Zが標準正規分布に従うことを用いて行われる
_◇標本平均、標本分散とt分布
※中心極限定理の適用には母集団の分散がわかっている前提がある
⇒通常母集団の分散は不明
⇒標本から得られる分散s^2で代用
⇒標本平均の分布はt分布となる
※t分布は正規分布同様釣鐘型の対称形だが、裾野が広い
(1+(x^2/p))^(-(p+1)/2)
⇒pを無限に大きくするとt分布は正規分布となる
※XがN(0,1)に、Yが自由度nのχ^2(n)に従うとき
T=X/√(Y/n)
が従う確率分布が自由度nのt分布
Xとして、標本平均Xバーを標準化した
Xバー-m
Z=------
s/√n
を
Yとして、標本分散と母分散からなる確率変数 nS^2/s^2
(これは自由度n-1のカイ2乗分布に従うから)
をとると、
Xバー-m
T=------------
√(1/(n-1))*S
⇒sが消えてしまう。
⇒自由度n-1のt分布のグラフとなる
※t推定
Tをつかって母平均mの値を推測する
_◇標本分散とカイ2乗分布
正規分布にしたがう母集団から標本を抽出するとき、その分散はχ^2分布に従う
※確率変数x(x>0)が以下の確率密度関数に従うとき、xは自由度nの
χ^2分布に従うとう
{(x/2)^((n/2)-1)}*e^(-x/2)
⇒χ^2分布曲線は(0,0)近くから始まる非対称の曲線
分散σ^2の正規分布にしたがう母集団から標本を抽出し、得られる不偏分散をs^2とすると、統計量
χ^2=((n-1)/σ^2)*s^2
は、自由度n-1のχ^2分布に従う
※標本分散S^2
1
S^2=-Σ(Xi-Xバー)^2 iは1からn
n
※標本分散値の平均(=標本分散S^2の期待値)と母分散s^2の関係
n-1
標本分散S^2の期待値=---×母分散s^2
n
※χ^2(n-1)
母集団がN(m,s^2)に従うとき、
S^2にn/s^2をかけたnS^2/s^2が従う分布=自由度n-1のカイ2乗分布
⇒母分散s^2の値などを推測できる
※最尤推定では、標本分散がもっともよい推定量となる
_◇分散比の分布とF分布
_◇母比率と標本比率
ある母集団を、YESの割合pで分割=母比率p
母比率 p も母数である。
この母集団からn個サンプル抽出
⇒n個のうちYESである割合⇒確率変数X
⇒二項分布B(n,p)に従う
⇒nが大きければ
期待値 n*p
分散 n*p*(1-p)
の正規分布に置き換えることができる
※標本比率
X/n
⇒nが十分おおきければX/nも正規分布にしたがう
⇒X/nの期待値
n*pをnで割ったp
⇒X/nの分散
n*p*(1-p)をn^2でわったp*(1-p)/n
nが十分大きいとき、標本比率X/nは、
期待値がp
分散がp*(1-p)/n
の正規分布に従う
※母比率推定
X/nを標準化して母比率pの値を推測
☆統計解析
行列に表現されている各変数の分析
各列ベクトルに着目する
⇒分散共分散行列を求める
⇒さらに分散共分散号列の固有値、固有ベクトルをもとめる
※座標軸を回転して変数との相関が大きい軸を使って分析することもある。
◎多変量解析
※変量
大小いろいろな数値に変わる量
※個体
データの測定対象のひとつひとつ
※多変量データ
ひとつの個体が複数の変量の組で表されるデータ
多くの要素を対象にして、それらを組み合わせて分析。
複数の統計情報の関係を調べ、「そこに隠された秘密を読み解く」
複数の変量からなる資料=多変量からなる資料
⇒個々のサンプルに対して同時に複数の調査がなされている
◆要因と変量
分析の対象となる要素を要因という。特に数値で表された要因を変量という。
_◇変数(変量)
資料を構成するものを個体(または要素)という
(⇒DBにおけるレコード)
個体の名前を表すものを個体名(または要素名)という。
資料を構成する個体の数をサンプル数(標本の大きさ)という。
資料の項目が変数(変量)となる
(⇒DBにおけるフィールド)
※多数の変数(変量)⇒多変量
どの変数がどの変数にどのように関係しているか
_◇疑似相関
見かけ上の相関
本来ないはずの相関
⇒データを層別することで排除できる
◆回帰分析(重回帰分析)
regression analysis
1つの情報を他の情報から簡単な関係式で説明しようとするもの
⇒ある一つの変量を残りの変量の関数として表現し変量間の関係を分析する
※重回帰分析
複数の変量のうち1つの辺量に注目し、その辺量がほかの変量によってどのように影響をうけるかを分析する(数式で表す)
_◇線形回帰と非線形回帰
※線形回帰
ある変量を他の変量の1次式で表現する
※非線形回帰
ある変量を他の変量の1次以外の式で表現する
_◇単回帰と重回帰
※単回帰分析
変量の数が2つ
⇒単回帰分析(線形回帰)の回帰方程式(回帰直線)
y^ = a + b*x
⇒y^(ハット)を予測値と呼ぶ(実測値yと区別)
⇒yを目的変量(規準変量)、xを説明変量とよぶ
⇒aを切片、bを回帰変数とよぶ
※重回帰分析
変量の数が3つ以上
_◇目的変量と説明変量
目的変量 分析の対象となる変量
⇒従属変量, 規準変量、被説明変量
説明変量 目的変量のとる値がどのように決まるかを説明するために用いられる変量
⇒独立変量
※データの名前を表す項目=個体名
※個体の個数=標本の大きさ
※合成変量
説明変量を混ぜ合わせた変量)
例)
w=a’+ p*x + q*u
_◇残差
実際の値 y1 と回帰方程式から得られる予測値y1^との差
ε1 = y1 – y1^ = y1 – (a+b*x1)
※残差平方和
Q = ε1^2 + …
⇒残差平方和Qを最小になるように回帰直線を引く(最小二乗法)
εがaとbで記述できる⇒展開して整理すれば以下の形にできる
Q=A^2+B^2+C
AとBが0のときに最小値Cをとるので、A=B=0となる条件を求める。
⇒a, bがもとまる
_◇理論値と実測値
実際に測定などによりもとまった目的変量⇒実測値
説明変量を重回帰式に代入して得られる値⇒理論値
※ずれ(残差)がある
※残差:実測値-理論値
⇒残差の合計は0となる。
⇒残差平方和を用いる
_◇回帰方程式とその性質
①変量の平均値は回帰直線上にある
yバー = a + b * xバー
⇒a = yバー – (b * xバー)
⇒回帰直線は分布模様の重心を貫く
※重回帰分析でも同じ、回帰平面は分布の重心を通過する
②単回帰の場合、xの分散 Sx とx,yの共分散 Sxy により、回帰係数bは
b = Sxy / Sx^2
と表せる
これより回帰方程式は以下のようにかける
y^ = (yバー – ((Sxy / Sx^2) * xバー)) + (Sxy / Sx^2) * x
⇒平均、分散、共分散を求めれば回帰方程式が得られる。
※回帰方程式から得られる結果の性質
①目的変量 y の平均 = 予測値 y^ の平均
②残差εの平均 = 0
③目的変量の実測値の分散 = 予測値 y^ の分散 + 残差εの分散
_◇重回帰式
目的変量を説明変量で表した数式
⇒一般に数式で正確に表すことができなかったり、1次式では正確でなかったりするが、1次式でもかなりな説明ができる
⇒「目的変量を説明変量に回帰する」という
例)
x1, x2…独立変量
y…従属変量
y=a1*x1 + a2*x2 + a0
のような1次式であらわす。
※a1, a2などの係数を回帰係数という
⇒偏回帰係数
※a0の定数は切片
※目的変量yと予測値y^との誤差を全体として最小にするために最小二乗法を用いる
Q(残差平方和)の最小値を求めるには偏微分を使う
y^=a+b*x+c*u
∂Q ∂Q ∂Q
――=0、――=0、――=0
∂a ∂b ∂c
※単回帰分析
回帰方程式=2次元平面の直線(回帰直線)
※3変量の重回帰分析
回帰方程式=3次元空間内の平面(回帰平面)
※n変量の重回帰分析
回帰方程式=n次元空間内の超平面
_◇決定係数
回帰方程式の精度を表す指標
(寄与率)
目的変量の実測値の分散 = 予測値 y^ の分散 + 残差εの分散
残差の分散 Sε^2 = (1/(n-1))*Q
⇒Qが最小なら(最小二乗法)Sε^2も最小
⇒目的変量の実測値の分散 Sy^^2は一定なので予測値 y^ の分散 Sy^2は最大
⇒予測値の分散が最大になるように回帰方程式は定められる
R^2 = Sy^^2 / Sy^2 = 予測値の分散 / 実測値の分散
⇒R^2を決定係数または寄与率と呼ぶ
⇒定義により、0≦R^2≦1
R^2の値が1に近いほど、回帰方程式の精度が高い(資料の情報量を反映している)ことを意味する
⇒n次元空間の中でパンケーキ型の分布となればR^2の値は1に近く、球状であればR^2の値は0に近い
※一般の目安
0.8以上でよい精度
0.5以上あればまあまあ
※決定係数 R^2の平方根 R は 目的変量と予測値の相関係数
⇒回帰方程式は目的変量と予測値の相関係数を最大にする
_◇相関係数
2変量の相関の強弱を表す指標
r_xy = S_xy / (S_x * S_y)
S_xy xとyの共分散
S_x, S_y xとyの標準偏差
-1≦r_xy≦1
※回帰方程式は相関係数を最大にする
⇒回帰方程式は、目的変量と最大の相関係数が得られるように説明変量を合成したもの
※重相関係数R
R = r_yy^ = S_yy^ / (S_y * S_y^)
※重相関係数Rは決定係数R^2の平方根と一致する
※偏相関係数
説明変量のひとつと被説明変量の相関係数から、他の説明変量の影響を求める指標
説明変量x1、x2、被説明変量y
x2の影響を除いたx1とyの偏相関係数を求める場合)
x2を説明変量として
y-x2平面と、x1-x2平面で回帰直線を求める
x1-x2平面でx1の予測に対する残差をuとする
⇒x2に依存して変化する変動をx1から除いたことになる
y-x2平面でyの予測に対する残差をvとする
⇒x2に依存して変化する変動をyから除いたことになる
残差同士u,vの相関係数⇒yとx1からx2に依存する変動を除いた相関係数
⇒yとx1の偏相関係数
_◇自由度調整済み決定係数
※決定係数の欠点
説明変量の数を増やすと単純に増加する
⇒役に立たない説明変量でも、決定係数が増え、見かけの予測精度があがる
※自由度調整済み決定係数^R^2
n-1
^R^2=1-―――――*(1-R^2)
n-k-1
n:資料の大きさ(個体数)
k:説明変量の数
_◇単位やスケールの違いとデータの標準化
※偏回帰係数は変量の単位を変えたり、スケールを変更すると大きく変化する
※データの標準化
x-x~
X=――――
Sx
※標準化した変量名は大文字で表す
※標準化されたデータの回帰方程式では定数項は0となる
⇒標準化により各説明変量が目的変量にどれだけ作用しているか理解できる
⇒標準回帰係数
_◇多重共線性
※互いに相関が強いものを説明変量に選んでしまうと結果の解釈に不都合が生じる
⇒2つの変量をベクトル的に解釈すると、相関の強い変量同士は同じ方向を向く
※相関の強い説明変量から外し、他を探した方がよい
⇒各説明変量間の相関係数を求め、相関の強いものを外す
※説明変量が多重共線関係にあるという
_◇残差分析
※残差は各説明変量と無相関になることが仮定されている
⇒残差に直線性や周期性がある⇒説明変量の選択が不適当か線形関係以外の関係がある
_◇時系列データの回帰分析
※説明変量を時間とする。
(時間変量の始点は資料の最初に置く)
※トレンド変数
回帰分析に時間変動を加味するために加えられる変数
⇒時間変数を説明変量に追加し、指数関数の形で回帰方程式に取り込む
y^=[回帰式] * e^(δt)
t…トレンド変数
δ…トレンド変数につく回帰係数
⇒目的変量が時間的に増加したり減少したりすることが見込まれる場合に有効
_◇対数線形モデル
変量を変換することで線形回帰の手法が使える
※半対数モデル
⇒目的変量yの変動が説明変量xの指数関数にほぼ比例する場合
(yがxに対して等比数列的に増加減少)
回帰直線
^y = a * b^x (a、bは正の定数)
両辺の自然対数をとれば以下のように線形な回帰方程式となる
log(^y) = log(a) + (log(b))*x
※両対数モデル
変量xにもlogをつける
_◇ロジスティック曲線
商品の売れ行き、流行の浸透度、生物の繁殖
γ
^y=―――――――――――
1+e^(α‐β*t)
α、β、γは正の定数、tは時間
γ/^y – 1 = e^(α‐β*t)
と変形しておいて両辺の自然対数をとれば
log(γ/^y – 1)=α‐β*t
となる。
^Y = log(γ/^y – 1)
とおけば単回帰分析の形となる。
※γの決定方法
γは飽和のときの数だということで、目的変量の最大値よりも大きな値を仮のγとし、仮のγの中でR^2を最大にするものを採用する。
※成長曲線
最初はゆっくり、次第に加速成長、そのうち成長とまって安定
⇒他の成長曲線として修正指数曲線がある
^y=K-a*b^x (0<K, 0<a, 0<b<1)
※変曲点
t=α/βのとき、γ/2
_◇非線形の重回帰分析(コブ・ダグラス型関数)
コブ・ダグラス型関数(経済学)
^y = α*(L^β)*(K^γ)
L, K 変量
両辺の対数をとることで
log(^y) = log(α) + β*log(L) + γ*log(K)
と変形できるので
log()を適当な変数とすることで
^Y = A + β*X + γ*U
と変換できる
※コブ・ダグラス型生産関数
(1次同次の生産関数)
α+β=1という制約(収穫一定の条件)を与えたもの
⇒偏回帰係数が1つへるので、単回帰分析となる
_◇ダミー変数
※実際の資料には表れない変量を取り込むことで
不連続な量
一時的な要因
を表現し、決定係数を高くする
①定数項ダミー
⇒回帰直線を平行な複数に分離する
資料の特異性を下駄をはかせることで除去する
例)異常時1、そうでないとき0という変量を導入する
データの質的な差を0,1として取り込む
例)男0、女1
②係数ダミー
回帰直線に複数の傾きを導入する
D:係数ダミー
^y=α + β*x + γ*D*x
⇒切片は共通となる
③①と②の混合
Y=α + β*x + γ*D*x + δ*D
※使われ方による名称
一時的ダミー(突発ダミー)
特異値で精度が落ちることを補正する
季節ダミー
該当季節で1になる(どれかは000でよいので3変数)
質的ダミー
質の差を表す
_◇回帰方程式の検定
※回帰方程式は標本で変動する。
①回帰方程式全体の有効性(決定係数の有意性検定)
⇒標本から得られた決定係数R^2が大きいという結論が母集団にあてはまるか
例)^y=α+βx+γu
H0(帰無仮説):回帰方程式は資料の説明に役に立たない=(β=0, γ=0)
H1(対立仮説):回帰方程式は予測に役立つ
⇒H0を有意水準5%で検定
⇒分散分析
n:標本の大きさ、説明変量の数
回帰分散(予測値の不偏分散)
V_^y = (1/p) * Σ[1:n]{ (^y_i – yバー)^2 }
残差分散(残差の不偏分散)
V_ε = (1 /(n-p-1)) * Σ[1:n]{ ε_n^2 }
⇒√V_εを回帰方程式の標準誤差という
F値
F = V_^y / V_ε
仮説H0のもとでは、F値は自由度p, n-p-1のF分布に従う
求めたF値がF分布において上位5%以内に入っていれば
⇒発生確率5%ということで「まれ」な現象⇒棄却⇒H1採用
※決定係数R^2とF値の関係
R^2 n-p-1
F=―――――*―――――
1-R^2 p
⇒R^2が1に近いほど、H0は棄却されやすい
②各回帰係数の有効性
βやγが0でないことを確かめればよい
例)
H0:γ=0
H1:γ≠0
c-γ/√(Suu*Vε)は自由度n-p-1のt分布に従う
γに0を代入した式をtとして
⇒t値を求める⇒これのt分布での位置を知れば有効性が確かめられる
※帰無仮説H0が棄却されない場合
①説明変量の選択に無理がある
②計算ミス
③資料の誤り、データ入力ミス
④サンプル数が少なすぎる
⑤必要な説明変量が抜けている
_◇分散分析表
変動 平方和 自由度 不偏分散 分散比
回帰 回帰平方和 変量数 回帰分散 F値
残差 残差平方和 標本数‐変量数‐1 残差分散
全体 偏差平方和
※Excelの有意F
0.05以下であれば意味のある回帰モデル
⇒大きいと信頼性がない
_◇回帰方程式による予測値の区間予測
※点予測(点推定)
回帰方程式で得られた値を予測値とする
※区間予測(区間推定)
幅をもった値で推定する
説明変量x, uの値x0, u0に対する点予測推定値^y0
目的変量yの実測値y0は95%の確率で次の区間に入る
^y0-t_n-p-1(0.05/2)*^σ<y0<^y0+t_n-p-1(0.05/2)*^σ
n:サンプル数
p:説明変量の数
t_n-p-1(0.05/2) 自由度n-p-1のt分布で片側0.05/2の確率を与える点
⇒両側5%点
^σ=√{ (1+(1/n)+(D0^2/(n-1)))*Vε }
⇒^yの分散V_^yの平均が^σ^2となる
Su^2*(x0-xバー)^2-2*Sxu(x0-xバー)*(u0-uバー)+Sx^2*(u–uバー)^2
D0^2=―――――――――――――――――――――――――――――――――
Sx^2 * Su^2 – Sxy^2
⇒D0^2、点(x0, u0)のマハラノビスの距離
x0、u0が平均xバー, uバーのときにD0^2は最少
⇒^σも最小
⇒平均から遠ざかるほど信頼区間の幅は広くなる
_◇回帰方程式の係数の区間予測
回帰方程式
^y = a + b*x + c*u
の標本から得られたa, b, cから母集団のα、β、γを区間予測(信頼区間95%)
b-t_n-p-1(0.05/2)*√(Sxx*Vε) < β < b+t_n-p-1(0.05/2)*^√(Sxx*Vε)
c-t_n-p-1(0.05/2)*√(Suu*Vε) < γ < c+t_n-p-1(0.05/2)*^√(Suu*Vε)
a-t_n-p-1(0.05/2)*√{(1/n+Dm^2)*Vε}<α<a+t_n-p-1(0.05/2)*^√{(1/n+Dm^2)*Vε}
√{(1/n+Dm^2)*Vε}:切片aの標準誤差
√(Suu*Vε):回帰係数cの標準誤差
√(Sxx*Vε):回帰係数bの標準誤差
⇒回帰方程式の標準誤差とは異なる
※以下がすべて自由度n-p-1のt分布に従う
b-β/√(Sxx*Vε)
c-γ/√(Suu*Vε)
a-α/√{(1/n+Dm^2)*Vε}
_◇補間と補外
※補外(外挿)
資料の得られていない領域の予想まで回帰方程式を延長し利用すること
※補間(内挿)
資料と資料の間を予想
◆主成分分析
複数の変数データから構成された資料
⇒できるだけ情報量が多くなるように元のデータを1次式で合成して調べる
⇒合成変数の分散が最大になるところに目をつける
⇒各変数の係数は、分散共分散行列の固有ベクトルとなる
◆因子分析
例)
元の多変量データ行列=因子得点行列×因子負荷行列の転置行列+独自因子行列
Z = F * tA + E
◆判別分析
◆正準相関分析
2つの変数群(何種類かの変数が集まったもの)があるとき、一方の変数群と他方の変数群がどのような関係にあるのかを調べる
⇒それぞれの群で合成変数を考え、その合成変数間の相関が最大となるところを考える。
◆数量化
要因を数量化すれば多変量解析の手法を使うことができる。要因を数値に置き換えることを数量化といい、数量化された要因をダミー変数という。
◆基本ツール
_◇散布図
相関図
_◇共分散
2変数xとyの関係を知るのに、(xi-mx)(yi-my)の平均値を持ってする
⇒mx,myはx,yの平均値
Cxy =(1/N) Σ(i=1;N) (xi-mx)(yi-my)
もしくはSxy
※分母をN-1にとった場合を共分散ということもある
※共分散は分散を一般化したもの
※共分散は2つの変数の親密度を表す。無関係なときは0に近くなる。
⇒相関がない
共分散>0 正の相関
共分散<0 負の相関
⇒単位のとり方により変化してしまうのが欠点。
※偏差
変数の値と平均値の差
⇒偏差を成分に持つベクトルを偏差ベクトルという
_◇相関係数
※共分散 Sxy を標準偏差 Sx, Sy の積で割ったものが相関係数
rxy = Sxy / (Sx * Sy)
-1< rxy < 1
⇒共分散と異なり単位に影響されない。
⇒共分散はデータの単位やスケールの影響を受けるので、異なる資料間で単純比較できないが、相関係数であればどの変量とどの変量の関係が強いのかを比較できる
※2つの偏差ベクトルの内積が0のときに相関係数も0となる。
※標準化されたデータの共分散は相関係数と一致する
_◇Pearsonの積率相関係数
平均が0、分散が1となるように変換した値(標準得点あるいはz得点と呼ばれている)を用いて共分散を算出したもの。
r = 1/N Σ(i=1;N) ((xi-mx)/Sx) * ((yi-my)/Sy)
Sx, Syは標準偏差。
Sx = √ 1/N Σ(i=1;N) (xi-mx)^2
_◇分散共分散行列
※対角要素におのおのの変数の分散を、非対角要素にお互いの共分散を成分にもつ正方行列(対称行列でもある)
例)3変数x, y, zにたいして
(Sx^2 Sxy Sxz )
(Sxy Sy^2 Syz )
(Sxz Syz Sz^2)
⇒分散は変数の散らばり具合、共分散は変数の間の親密度をあらわす。
_◇相関行列
対角要素に1を非対角要素にお互いの相関係数を成分に持つ正方行列
例)
(1 r_xy r_xz)
(r_xy 1 r_yz)
(r_xz r_yz 1 )
⇒標準化されたデータの分散共分散行列は相関行列となる
⇒分散共分散行列の核成分を標準偏差の積で割ったもの
_◇ユークリッドの距離
※偏差の二乗の和のルート
_◇マハラノビスの距離
※データが資料の中心からどのくらい離れているかを示す
⇒変数が1つの場合:標準化した値の絶対値
⇒ユークリッドの距離を標準偏差で割って調整したもの
⇒変数が複数の場合は、多次元のベクトルもしくは行列で表現する。
1次元
D=|x-xバー|/Sx
2次元
D^2=(x-x~, y-y~)(Sx^2 Sxy)(x-x~)
(Sxy Sy^2)(y-y~)
以下D^2の式はn変数に拡張できる
n次のベクトル
分散共分散行列
◎分散分析
Analysis of Variance
ANOVA
※資料の背景にある原因を探り、それが統計学的に意味のあることがどうかを調べる
⇒因子が原因となる変動と統計誤差による変動のどちらが大きいかの検定
⇒確率的な揺らぎを排除すれば、因子効果が見えてくるかもしれない。
因子の異なる条件⇒水準でサンプルをとる
※分散分析では、因子の相対的な効果だけを議論できる
⇒因子効果の絶対値は議論できない
_◇一元配置の分散分析
採取された資料のデータ変動の因子が一種
⇒水準の違いが統計誤差に比べて大きいかどうかを調べる
⇒因子の高価の有無を判定する
各データX_ij
X_ij = 全平均 + (水準平均-全体平均) + (X_ij – 水準平均)
(水準平均-全体平均)⇒水準間偏差
(X_ij – 水準平均)⇒水準内偏差
※偏差の大小は、その平方和の大小(⇒変動)で調べる
※正規分布にしたがう母集団から抽出された2標本の不偏分散の比はF分布にしたがう
⇒不偏分散とは変動を自由度で割ったもの
※帰無仮説設定
F = V1 / V2
⇒このF値がV1の自由度、V2の自由度のF分布に従う
⇒このF値が有意水準5%の棄却域に入っていれば⇒帰無仮説は棄却
⇒因子の効果が判明する
_◇自由度
※水準間の変動の自由度⇒水準の数-1
⇒水準の平均が0という制約があるため
※水準内の変動の自由度⇒(各水準のデータ数-1)の和
⇒水準毎に平均が利用されているので、各水準毎に自由度1を減じる必要がある
_◇繰り返しの無い二元配置の分散分析
※二元配置の分散分析
2つの要因がデータに関与していると考えて、その要因の影響の有無を調べる
※2因子の各組に対して1個のデータしかない=繰り返しの無い場合
各水準1データ
※因子別に考えれば一元配置と同様に考えられる。
各データ値=全体平均+①要因1の効果+②要因2の効果+誤差③
③が①、②に比べて大きい⇒誤差の中に効果は埋もれている。
①、②に比べて③が小さい⇒統計的に意味がある。
全変動=因子1による変動+因子2による変動+統計誤差による変動
⇒情報量保存の法則
_◇繰り返しのある二元配置の分散分析
※同じ水準のデータが複数存在する場合
⇒同じ条件で繰り返し実験した結果がある
※複数のデータがあるので、純粋な統計誤差を抽出できる
純粋な統計誤差=データ値-(各因子同一水準のデータの平均)
※交互作用
⇒2因子の相乗効果
交互作用=繰り返しのない資料での誤差 – 純粋な統計誤差
各データ値=全体平均+因子1の効果+因子2の効果+交互作用+純粋な統計誤差
※交互作用についても帰無仮説を立てて検証する
_◇実験計画法
◎推定と検定
◆点推定
母集団に関する真の値を、ある1つの推定値で予想する
※母平均mが標本平均と等しいと、1点で推定
⇒母集団の正確なmが分からなければ確かめようがない。
⇒標本数の大小が考慮されていない
_◇点推定の望ましい条件
①不偏性
推定量の期待値が母数に一致する性質
⇒この性質を満たす推定量=不偏推定量
②一致性
標本の大きさを増やすと、推定量が母数に収束する性質
⇒この性質を満たす推定量=一致推定量
③有効性
推定量の分散が小さい
⇒最小の分散値を持つ推定量を最小分散性という
※有効推定量(efficient estimator)
標本の大きさnが限りなく大きくなるとき
統計量Tnが
有効性 V(Tn)=E((Tn-θ)^2)=最小
を満たすとき有効推定量という。
※標本比率は不偏性、一致性、有効性をもつ
_◇モーメント法(積率法)
点推定の代表的方法の1つ
大きさnの標本X1…Xnから算出される次の推定量
μk=(X1^k + … + Xn^k)/n
を原点のまわりのk次のモーメント(積率)という。
⇒一般に確率変数Xとある定数Cとの差のk乗の期待値μk
をCのまわりのk次のモーメントという
μk=E((X-C)^2)
モーメントを用いて点推計をおこなう
⇒1次のモーメントは、母集団の平均値の推定量
⇒2次のモーメントは以下のように書き直せる
μ2=((X1-X~)^2+…+(Xn-X~)^2))/n + X~^2
よって分散の母数の推定量σ^2は
σ^2=μ2-μ1^2
⇒1次、2次のモーメントから、母数の推定値(平均、分散)を求めることができる
_◇最尤法
点推定の代表的方法の1つ
ある現象の起こる確率をL(p)とする
L(p)はある現象に含まれる試行のそれぞれの確率pで書ける
⇒L(p)=尤度関数
※最尤推定法
L(p)の値を最大にするようなpの値をもとめる
⇒現象は起こりやすいもとで起こる
母数θを含む尤度関数があるとき、その関数が最大値を与えるように母数を決定する
⇒母数の推定値を最尤推定という。
◆区間推定
推定が必要な場合
①母集団の数が非常に多い
②母集団の数は多くはないが、全てを調査することが不可能
⇒製品のサンプリング
③未来の出来事
_◇区間推定
母数をある幅の範囲内で推測する
下限<m<上限
⇒ある確率を与えて、母集団に関する真の値が入る区間を提示する。
※推測の区間を広くすればするほど当たる可能性が高くなる
⇒確からしさ(信頼度あるいは信頼係数)が重要
⇒そのときの推測の範囲を信頼区間という
母数θの区間推定手順
①標本における統計量Tを決める
例)母数θを体重の平均値とすれば、Tは一人の体重
②統計量の確率分布を調べる
例)平均μ、標準偏差σの正規分布
③確率分布をもとに統計量Tが確率αでとる区間を決定
⇒Tの上下をθを含む式で抑える
④上の式を変形し、θの上下をTを含む式で抑える
⑤統計量Tの推定値を不等式にいれて信頼度αで母数θを
とりえる区間を算出する。
_◇母平均の区間推定
①母分散が既知の場合(正規分布)
過去のデータから分布と分散が分かっているような場合
⇒標本の大きさにかかわらず母平均を区間推定できる
(標本が大きくなるほど信頼区間が狭まる)
※標本平均Xバーの分布は、中心極限定理から正規分布
平均値は母平均μにひとしく
分散は母分散σをサンプル数nで割ったもの
信頼度95%の信頼区間
Xバー-1.96*σ/√n≦μ≦Xバー+1.96*σ/√n
②母分散が未知で、標本が小さい場合(正規分布)
分布は、正規分布と分かっているが分散は不明な場合に
母平均μを区間推定する
⇒標本平均Xバーは求めることができる
⇒平均値μである正規分布をなす母集団から抽出
大きさnの標本の標本平均をXバー
不偏分散をs^2, 標準偏差をsとすると
標本平均Xバーからつくられた次の統計量Tは
自由度n-1のt分布に従う
T=(Xバー-μ)/(S/√n)
信頼度100(1-p)%の信頼区間
Xバー-t(p)*s/√n≦μ≦Xバー+t(p)*s/√n
※自由度nがある程度以上(30ほど)おおきければ
t分布を標準正規分布とみなしてもよい
③母集団分布が未知、標本は大きい
⇒標本数が30をこえればなんとかなる
⇒標本平均Xバーは、母集団の分布に関わらず、中心極限定理により正規分布となる
平均値=母平均μ
分散=母分散σ^2/サンプル数n
⇒nが30以上であれば母分散σ^2を不偏分散s^2で置き換えても支障がない
信頼度95%の信頼区間
Xバー-1.96*s/√n≦μ≦Xバー+1.96*s/√n
_◇信頼区間の算出
中心極限定理により、nが十分大きければ、母集団の従う確率分布に関係なく、標本平均Xバーは
期待値 m
分散 s^2/n
の正規分布にしたがうとみなせる。Xバーを標準化してZへ置き換えれば標準正規分布N(0,1)となる
※確率変数Zが定数cより小さな値をとる確率P(Z<c)は正規分布表より
I(c)
として求めることができる
⇒I(c)=P(Z<c)=P(Z>-c)=1-P(Z<-c)=1-I(-c)の関係から、
-c < Z < c
のような区間についての確率が求まる。
例)
-1.96 < Z < +1.96 I(1.96)=0.975より、区間では 0.95 (95%となる) ※ZからXバーに対する不等式に書き換えると s s -1.96*--<Xバー-m<+1.96*-- √n √n さらに変形すれば s s Xバー-1.96*--<m<Xバー+1.96*-- √n √n ※sの値は推測できないが、過去データなどsとみなせる値があれば⇒ ※1.96のところがZxx(xxは信頼度の%)とすると 信頼度 Zxx 90% 1.64 95 1.96 98 2.33 99 2.56 99.7 3.00 ※両側区間の幅はx2 ※母標準偏差sの値が分からない場合 ⇒Zでなく確率変数Tを使う (Tが従うのは自由度n-1のt分布) ※t分布表 自由度:n 面積(確率):α にたいしてcが記されている。 確率変数Tが定数cより大きな値をとる確率P(T>c)がαに等しい
※t分布も確率密度関数も原点に対して左右対称
⇒t推定(母標準偏差sの値がわからないとき、t分布の性質を用いて信頼区間を求める方法)
S S
Xバー-txx*-----<m<Xバー+txx*-----
√(n-1) √(n-1)
※txxは信頼度xx%と自由度nー1によって決まる
n=10のときのtxx
信頼度 txx
90% 1.833
95 2.262
98 2.821
99 3.250
_◇母分散 s^2 の推定(χ二乗推定)
nS^2/s^2 が自由度n-1のカイ二乗分布に従うことを使う
⇒カイ2乗分布表(グラフ)<非対象>
X:自由度nのカイ二乗分布に従う確率変数
表にあるのは、Xが定数 c より「おおきな値」をとる確率 P(x>c) = α
⇒正規分布は条件x<cなので逆になる 95%の区間を求めるならば P(X>19.023)>0.025, P(X>2.700)=0.975
より
P(19.023>X>2.700)=0.975-0.025=0.95
Xのところにn*S^2/s^2を代入すれば
s^2をS^2とnで表した不等式で幅を押さえることができる
(2.700/n)*s^2 < S^2 < (19.023/n)*s^2
(2.700/n)*s^2 < S^2
s^2 < S^2/(2.700/n)
S^2 < (19.023/n)*s^2
S^2/(19.023/n) < s^2
S^2/(19.023/n) < s^2 < S^2/(2.700/n)
_◇母比率の区間推定
pバー:標本比率
※nが十分大きいとき、標本比率pバーは正規分布N(p,p(1-p)/n)に従う
⇒pバー Z=(pバー-p)/√(p(1-p)/n)
と標準化すれば Z はN(0,1)に従う
95%であれば不等式
-1.96<Z<1.96
※根号の中にpが含まれるが、標本が十分大きければpバーはpに近い値だとして、
pをpバーですりかえてしまう!
pバー-1.96√(pバー*(1-pバー)/n)<母比率p<pバー+1.96√(pバー*(1-pバー)/n)
※pバー*(1-pバー)の最大値は1/4
よって信頼区間の幅は 2*1.96√(1/4n)=1.96/√n
⇒信頼区間の幅が0.05に収まるようにするには
1.95/√n≦0.05
となるようにnを決めればよい。n≒1537
_◇例:視聴率の推定
母集団1455万台のテレビ
標本600台
ある番組Mの視聴状態が99台であった
①母集団1455万台から任意の1台を選んだときMを見ている事象Aの確率が視聴率pとする
②600台の標本についても事象Aの確率はpと仮定する
⇒独立
③600台の標本のうちMをみている台数Xは確率変数となる
④事象{X=r}の確率
P(X=r)= 600Cr * p^r *(1-p)^(600-r)
※二項分布 B(600,p)
⑤平均と標準偏差
m=600p
σ=√(600*p*(1-p))
この値から区間推定する
n個の標本の中で、r個について事象Aが起こったとき、母集団の中で事象Aの起こる割合pを信頼度95%で区間推定
r/n-1.96*(σ/n)≦p≦r/n+1.96*(σ/n)
信頼度99%
r/n-2.58*(σ/n)≦p≦r/n+2.58*(σ/n)
⇒信頼区間の幅は標本の数√nによる
⇒幅を1/nにするためには、標本の数をn^2にしなければならない。
◆仮説検定
母集団について立てた仮説が間違いであるかどうかを検証すること
仮説と分析で得られた結果(標本統計量)が整合的であるか否か
※仮説を立ててそれを統計学的に検証するのが検定
①立てた仮説が否定されること 棄却
②元の仮説が棄却されたときに採用される仮説 対立仮説H1
③「できたら捨てたい」仮説 帰無仮説H0
⇒できたら捨てたい仮説を立て、それを統計学的に検証する
_◇仮説検定のステップ
①仮説の設定
対立仮説(予想)
帰無仮説(反対)
②使用統計量と判定基準決定
③標本から検定統計量を計算
④仮説の採否を決める
⇒帰無仮説が棄却されるか否か
⇒帰無仮説が正しいと仮定して検定統計量を計算
⇒帰無仮説が棄却域に入る確率を検定の有意水準とする
(通常1%もしくは5%)
⇒棄却域に入る=検定を行う分布からは滅多に生じない事象が発生した
⇒棄却=「統計的に有意である」
※判断基準
①検定統計量と境界値を比較
OR
②検定統計量に対する確率(P値)計算
⇒これが1%、5%を下回るか
_◇帰無仮説と対立仮説
※帰無仮説
仮説検定をおこなうとき、検証の対象となる仮説
⇒無に帰することを予定して
⇒主張したいことの反対の仮説をたてる
⇒この仮説が正しいとして、実際におきた事象の確率を計算する
⇒この確率が非常に小さければ⇒まれなこと
⇒仮説を棄却する
⇒一般に不等号を使ってあらわされる仮説より、等号をつかってあらわされる仮説を検定する方がはるかに簡単
⇒帰無仮説が正しいことを証明するのではなく、間違いかどうかを検証する
⇒疑わしい場合には、帰無仮説を「棄却」する
⇒帰無仮説が棄却されたときに採択される仮説を対立仮説という
(立証したいのは対立仮説)
※対立仮説と検定
帰無仮説が「=」をつかって表された場合、対立仮説は≠、<、>などの不等号を使ってあらわされる
m≠M 両側検定
片側検定
m>M 右側検定
m<M 左側検定
_◇統計的検定の不合理と矛盾
※帰無仮説の棄却と採択は対等でない
帰無仮説の棄却:危険率を覚悟で仮説を捨てる
帰無仮説の採択:態度を留保
⇒実世界では、異なる母数が厳密に等しいことはあり得ないので、帰無仮説は初めから偽りであることがある意味明白。
⇒データの数が増せばますほど、厳密には偽である帰無仮説は必ず棄却されるようになる。
_◇検定統計量
母集団から無作為に抽出したn個の確率変数X1~Xnを適当に組み合わせてつくられた確率変数
※検証の基準は、検定統計量が従う分布の性質によってきまる。
_◇有意水準と棄却域
検定が間違ってしまう確率=危険率(有意水準)
⇒危険率は目的により異なる
例)
標本平均Xバー
中心極限定理によりnが十分大きければN(m,s^2/n)に従う
このとき、Xバーはに近い値をとり、離れた値をとる確率は低い
⇒Xバーが離れた値をとる確率がある水準(有意水準)以下となるとき
⇒棄却域にある⇒帰無仮説は棄却
⇒有意水準以上の確率であれば、棄却できない
※有意水準
=誤って帰無仮設を棄却する確率(リスクの大きさ)
=危険率
※帰無仮説は棄却されて初めて意味を持つ
_◇平均値の検定
①母分散既知
Z={(xバー – μ)*√n}/σ
μ:母平均
σ:母分散
標本平均:xバー
自由度:n-1
②母分散が未知
⇒正規分布に従う仮定
t={(xバー – μ)*√n}/S
S:標本標準偏差
_◇χ^2検定
偏りの検定:偏差二乗和の平均を用いる
Σ{Xi-m}^2
-----
m
⇒χ^2分布に従う
⇒設定した危険率のχ^2の値よりも大きければ「まれ」なことが起こったと判断できる
_◇Z検定
_◇t検定
◎ブートストラップ法
bootstrap method
※再標本化法
※モンテカルロ法
※基本的に変化しない母集団を想定