AppliedMath

☆お言葉
「ある種の問題は、まず工学的な方法で答えが明らかになってしまう。もちろん後で幾何学的に証明を付けなくてはいけないのだけれども、それでも最初から答えがわかっているのと、一からかんがえなくてはならないのとでは雲泥の差がある」
 ---アルキメデスからエラトステネスへの手紙の一節
「競争となれば、でたらめで予測のつかない行動に出るのが最善の戦略である場合が多いのである」
 ---D.ルエール、ゲーム理論について
「世の中に3つのうそがある。人をだますうそ、真っ赤なうそ、そして統計」
 ---ディスレーリ、英政治家
「統計学の公式は力学の公式に通じることが多い。また、統計学の多くの公式はベクトル解析にも通じることが多い。」
 ---涌井良幸、涌井貞美
「確立過程をその理論モデルの基本とする信頼性工学の分野には、各種の数学をもてあそぶ格好の材料にこと欠かないのである」
 ---斎藤嘉博
「数学はやはりむずかしい。そして中でも統計はむずかしい。」
 ---斎藤嘉博
「堅い数学書は、コメントの少ないソースコードにたとえられます。」
 ---平岡・堀著『プログラミングのための線形代数』
「統計学は、『+を調べて-を導く』技である」
 ---浅野晃
「統計学は、『-を調べて+を知る』技である」
 ---???
「数理統計学の理論体系の中で大きなウェイトを占めている検定論は、データの洪水に対して、あらゆる意味で無力である」
 ---豊田秀樹
「実験計画法の本質的アイディアは、ただ一人の天才R.A.フィッシャーによって独創された」
 ---豊田秀樹
「統計学者はモデルの命名にストイックであるが、マーケティング研究者は新しい命名を比較的気軽に行うようである」
 ---豊田秀樹

☆確率

probability
未知の事項を推定しようとするとき、ある事項が出現するであろうことの確からしさを定量的に表現したものを確率という
※事項=事柄=事象 (event)
→確率は、ある事象が全体の中でどの程度発生するかの割合
→その値は必ず0と1の間にある
※事象Aが発生する確率をp(A)と書く
0≦p(A)≦1.0
※事象全体の確率の和は1になる。
※排反事象 exclusive
Aという事象が起こればBが起こらず、BがおこればAは起こらないような事象。
→両方が同時に成立することはない
※「値のとり方が確率的に決まっている変数」のことを確率変数という。
◆客観的確率、論理的確率、主観的確率
_◇客観的確率
objective probability
過去のデータに基づいたもの
_◇論理的確率
logical probability
サイコロの目のように目の出る確率は等しいと考えるような論理的なもの
_◇主観的確率
subjective probability
主観を確率という数値をつかって表現したもの
⇒決意の表明
⇒決定理論(decision theory)で使われる
◆確率の定義
_◇試行と事象
※試行
※事象
試行によって得られる結果
※独立
2つのランダム現象があるとき、一方の結果がもう一方の結果に影響しない
⇒条件付き確率を使って定義される
_◇確率の定義
事象Aの起こる確率 p
p=事象Aの起こる場合の数/起こりえる全ての場合の数
※全事象Ω
※標本空間U
起こりうる全ての事象の集合
(全体集合、Universe
※根元事象
1つ1つの事象は同様に確からしい
事象Aの起こる確率P(A)
     n(A)
p(A)=----
     n(U)
※頻度による確率の定義
ある結果が現れる確率とは、
その結果が現れる可能性のある機会が、
これから十分多くの回数あるとき、
そのうち、ほんとうにその結果が現れる回数の割合である
⇒大数の法則により、試行の数を増やせば確率にちかづく
※ラプラスの確率の定義
※確率の定義には、現実には実行不可能な操作や真偽を確かめられない仮定が含まれる
⇒確率は測定するものではなく、なんらかの仮定をおいて「定義する」もの
_◇乗法定理
※同時確率
2つの確率的な現象(事象)A,Bが同時に起こる確率を
P(A∩B)=n(A∩B)/n(U)
※条件付確率
ある事象Aが起こったという条件のもとで事象Bの起こる確率
P(B|A)
P(B|A)=P(A∩B)/P(A) …(1)
ここでP(A)≠0
※乗法定理
(1)の両辺にP(A)をかけることで求まる
P(A)*P(B|A)=P(A∩B)
_◇排反、条件付き確率、乗積法則
①事象Aと事象Bが排反であるとき、AまたはBの起こる確率を
p(A∪B)
とかく
p(A∪B)=p(A)+p(B)
②事象Aが生じたとき事象Bの起こる確率を、事象Bの条件付確率(contitional probability)と呼んで
p(B|A)
とかく
p(B|A)=p(A∩B)/p(A)
と定義する。ここでp(A∩B)は事象AとBが同時に出現する確率(同時確率または結合確率 joint probability)
※P(A,B)と書くこともある
⇒Aを条件とするBの条件付き確率
上記の式より
p(A∩B)=p(A)*p(B|A)
が得られる
⇒確率の積の法則(乗法定理)
③確率の乗積法則
事象AとBが独立であれば、それらの2つの事象が同時に起こる確率は、2つの事象が個々に起こる確率の積で表すことができる。
p(B|A)がAの事象の発生に左右されないのであれば
p(B|A)=p(B)
このとき②のp(A∩B)=p(A)*p(B|A)式は
p(A∩B)=p(A)*p(B)
※事象AとBとが排反であれば
p(A∩B)=0
すなわち
p(A)*p(B)=0
_◇周辺確率、確率の樹
marginal probability
他の事象にかかわりなく一つの事象だけの確率をいう
たとえば2つの排反事象RとWの和としてp(B)が求められる場合をいう
p(B)=p(B|R)*p(R)+p(B|W)*p(W)
※確率の樹
probability tree
_◇決定の樹
decision tree
確率分岐点と決定分岐点
_◇確率変数
確率的に値が定まる変数
⇒試行をして初めて値が確定する変数
※確率変数名は大文字を使う
X
⇒p(X=x) 確率変数Xが値xをとる確率
※確率変数Xが値
x1, x2, x3, …, xn
をとり、それぞれの値をとるときの確率が
p1, p2, p3, …, pn
で与えられるならば
平均値
μ=x1*p1+x2*p2+x3*p3+…+xn*pn
⇒E(X)とも書く
Expectation Value
分散
σ^2=(x1-μ)^2*p1+…+(xn-μ)^2*pn
⇒V(X)とも書く
Variance
標準偏差
σ=√(σ^2)
_◇確率分布
確率変数の値に対応して、それが起こる確率値が与えられるとき、その対応を確率分布という
※確率分布表
※確率密度分布
連続的な値をとる確率変数にたいしての確立分布の表現
確率変数 X が a≦X≦bの値をとる確率 P(a≦X≦b)は、
確率密度関数f(x)を用いて
P(a≦X≦b)=∫[a:b]{f(x)}dx
※累積分布関数
確率変数 X が値xより小さい値をとる確率pを与える。
⇒確率密度関数で値xより左側の部分でグラフとx軸に挟まれた面積となる。
_◇連続的確率変数の平均と分散
確率密度関数f(x)の定義されている a~bの区間で
平均値
μ=E(x)=∫[a:b]{x*f(x)}dx
分散
σ^2=V(x)=∫[a:b]{(x-μ)^2*f(x)}dx
標準偏差
σ=σ^2
⇒確率密度関数f(x)を質量分布と考えれば、平均値は重心と同じ
⇒μは分布の重心を著す
_◇パーセント点
※上側パーセント点
確率変数 X がパーセント点の値 x よりも大きな値をとる確率のパーセント
※両側パーセント点
左右対称な確率密度関数で、パーセントで示される値の半分が上側に、半分が下側にある
※100p%点
上側 確率密度関数の上側の確率がpとなるときのXの値
両側 確率密度関数の両側の確率がpとなるときのXの値
※p値
確率変数 X の値 xから、上側または両側の確率 p を求める
片側検定用のp値
P(X≧x)=p
両側検定用のp値
P(X≧x)=p/2
_◇確率変数の標準化
確率変数 X について
Z = a*X + b
なる変換を行うと
E(a*X+b)=a*E(X) + b
V(a*X+b)=a^2*V(X)
σ(a*X+b)=|a|*σ(X)
と変換できる
※標準化
ここで
  X-μ
Z=---
   σ
とする。上記の変換から
E(Z)=0
V(Z)=1
となり、標準的な分布に帰着させることができる
◆順列と組み合わせ
_◇順列
permutation
n個の中からk個を並べる並べ方
nPk = n(n-1)(n-2)…(n-k+1)=n!/(n-k)!
※特にr=nの場合は
nPn=n!
_◇組み合わせ
combination
n個の中からk個を選ぶ選びかた
nCk = n! / k! * (n-k)!
nCk = {n(n-1)(n-2)…(n-k+1)}/k! = nPk / k!
0!=1,
nC0=0C0=1
※nCkを2項係数 binominal coefficient と呼ぶ
nCk = nCn-k
nCk = n-1Ck-1 + n-1Ck
_◇Stirlingの公式
nが大きいときn!の値を求める
n! ≒ {(2π)^(1/2)}*{n^(n+(1/2))}*{e^-(n-(1/12n))}
⇒より簡略な近似
n! ≒ {(2π)^(1/2)}*{n^(n+(1/2))}*{e^-n}
◆確率密度分布
確率をあるパラメータの変化によって変わる全体的なパタンとしてとりあつかう
⇒確率密度分布
※パラメータ=確率変数
_◇確率密度分布関数
※確率密度分布を関数形として示した場合、その関数を確率密度分布関数とよぶ
※確率変数 X が連続した値をとる場合には、確率密度関数 f(X)により確率を考える
⇒確率密度関数 probability density function(PDF)
(1) f(X)≧0
(2) f(X)のグラフとX軸の囲む図形の面積が1
※離散的な確率変数 x  確率分布表
確率変数が a以上 b以下である確率 P(a<x<b) は f(x)をaからbまで積分して求まる。
※累積分布関数 (CDF)
probability density function
F(x)=Pr(X<x) -∞<x<∞
累積分布関数 F(x)が微分可能なとき
f(x)= d/dx F(x)
⇒f(x)を確率変数Xの確率密度関数という
Pr(X<x) = F(x) = ∫[-∞:x]f(t)dt
_◇二項分布
binominal distribution
b(x; n; p)
<例>
平均不良率がpの大きなロットからn個の部品を取り出し、その中にちょうどx個の不良品がある確率。
良品率をq=1-pとする
不良品x個、良品(n-x)個を含む
ある特定のn個の部品中x個の不良品を含む組み合わせの生じる確率は
p^x * q^(n-x)
良品と不良品の出現順序は問題としないので、実際の確率は
nCx * p^x * q^(n-x)
※xを確率変数と考えた確率密度分布関数f(x)を考える
f(x)=nCx * p^x * q^(n-x)
※確率変数が正の整数以外をとらない
⇒離散的(discrete)
※どのような値でもとることができる
⇒連続(continuous)
※二項分布の平均値μ
μ=n*p
※二項分布の標準偏差σ
σ=√(n*p*q)
_◇正規分布
Normal distribution
二項分布 B(n,p)でnが大きくなると正規分布に近づく
      1      -(x-μ)^2
Y=--------e^(--------)
  √(2πσ^2)    2*σ^2
nが十分大きいとき
μ=n*p
σ^2=n*p*(1-p)
※N(μ、σ^2)
μとσ^2できまる
μ:X=μ中心に左右対称。
確率変数Xの平均値=Xの期待値
σ^2:分散。小さくなるとグラフは幅が狭く高くなる。大きくなると幅が広く、低くなる。Xの散らばり具合を示す
※正規分布曲線とx軸とで囲まれた領域の面積は常に1に等しい。
※変曲点
正規分布の変曲点のx座標は
平均±標準偏差
にある
※正規分布曲線はμとσ^2により形が変わるので計算が面倒。⇒以下の置換により標準化する
  X-μ
Z=---
   σ
確率変数Xに対する正規分布N(μ、σ^2)は
確率変数Zに対する標準正規分布N(0,1)
に置き換えられる
N(0,1)の確率密度関数
    1     -x^2
Y=-----e^(----)
  √(2π)     2
※正規分布表により確率を求めることができる
_◇カイ2乗分布
※自由度nのカイ2乗分布
χ^2(n)
標準正規分布N(0,1)に従う、互いに独立なn個の確率変数X1,...、Xnを考える
それらの2乗を足し合わせた新たな確率変数Xを考える
X=X1^2+。。。+Xn^2
このXが従う確率分布を自由度nのカイ2乗分布という
_◇t分布
スチューデントのt分布
※スチューデントはゴゼットのペンネーム
t(n)
2個の独立な確率変数XとY
XはN(0,1)に従う
YはX^2(n)に従う
    X
T=-----
  √(Y/n)
Tも確率変数であり、Tが従う確率分布を自由度nのt分布という。
※x=0に関して左右対称
※nが大きくなると、ピークが高く、幅が狭くなる
※nが大きくなると標準正規分布曲線に近づく
∞で正規分布と①する
自由度pのt分布
(1+(x^2/p)^(-(p+1)/2)
※中心極限定理では、母分散σ^2が知られていることが仮定されている
⇒母分散がわかっていない場合にn個の標本から得た標本分散s^2で置き換えようとする場合
  Xバー - μ
t=―――――――
  s/√n
は、自由度n-1のt分布に従う
※予測値と実測値の差y-^yの分布がt分布となる
_◇F分布
F-distribution
フィッシャースネデッカー分布
自由度p, qのF分布
x^(p/2 – 1) * (1 + (p/q)*x)^(-(p+q)/2) 。。。x>0
※F分布は分散に関する統計量の分布に関係する。
例)正規分布に従う母集団から、n1個、n2個の標本を選んで求めた分散 s1^2, s2^2の比
s1^2 / s2^2
は、自由度n1-1, 自由度n2-1のF分布となる
_◇超幾何分布
<例>
1ロットn個の部品の中にf個の不良品が含まれている。ランダムにこの中からr個を抜き取るとき、r個の中にk個の不良品が含まれる確率はいくらか
n個からr個を抜きとる組み合わせ nCr
⇒全事象の数
r個の中の不良品k個は、全数f個からランダムに選ばれることになるので、出現回数は fCk
良品は、全良品(n-f)個から(r-k)個取り出すことになるので
n-fCr-k
よって求める確率 P(x=r,k)は
         fCk*n-fCr-k
P(x=r,k)=-----------
             nCr
_◇ポアソン分布
Poisson distribution
Pn(k) = (e^-a * a^k) / k!
Pn(k)は、1回の試行で成功することがまれであり、多数回の試行を行う状況において、n回の試行でk回の成功を得る確率(2項分布でnを無限に近づけて消去したものがポアソン分布である)
a:成功する確率にnをかけたもの
※二項分布で平均値μの大きさが一定でnが十分大きいとき
b(x; n; p)≒{μ^x * e^(-μ)} / x!
_◇統計的分布関数の性質
※離散的分布の場合
Σ[i=-∞:∞]f_i(x)=1
※連続分布の場合
∫[-∞:∞]f(x)dx=1
※平均値と分散
μ=∫[-∞:∞]x * f(x)dx
σ^2 =∫[-∞:∞]x^2 * f(x)dx
※一般に∫[-∞:∞]x^r * f(x)dx は、関数f(x)のr次のモーメントと呼ばれる。
(平均値は1次、分散は2次のモーメント)
⇒三次のモーメント=歪度(非対称の度合いを表す)
⇒4次のモーメント=分布関数の尖度を表す
_◇確率分布関数
確率分布密度関数を確率変数xの最小点から順次累積した関数
F(x)=∫[-∞:x]f(x)dx
◆不完全根拠の原理
principle of insufficient reason
※14世紀前半のジャン・ビュリダンの2つの乾草の山と中間のロバ
◆ベイズ推定問題
_◇主観確率
subjective probability
ベイズ推定では不確かさはその対象を観察する人の知識にあるとされ、全ての確率は主観的な確率として考える。
※観察者のもつ不確かな知識のことを信念(belief)と呼ぶ
_◇事前確率
prior probability
観測者が観測以前にもっている信念を確率分布関数で表現したもの。確率変数Xに対して
P(X)
と表す。
_◇事後確率
posterior probability
観測した結果Dのもとでの確率変数Xに対する信念(belief)を
P(X|D)
と書き、事後確率と呼ぶ
※情報を得たことによって新しく改訂された確率
_◇尤度 likelihood
確率変数Xの元では観測結果Dが確率
P(D|X)
にしたがって生成される筈だということがわかっている場合、P(D|X)を尤度という。
※尤度関数P(D|X)で定義された確率的生成モデルと呼ぶ
_◇ベイズの定理
Bayes’ Theorem
事前確率P(X), 事後確率P(X|D), 尤度P(D|X)の間には以下の関係が成り立つ。
P(D): Dのエビデンス
P(D)=Σ(Xの全ての場合)P(D|X)P(X)
P(X|D)=P(D|X)*P(X)/P(D)
※事象BがB_1、B_2,…,B_nというn個の排反事象から構成されていたとする。おのおのB_iについて、もう一つの事象Aに対する条件付確率の以下の式が成立する
P(B_i|A)=p(A∩B_i)/p(A)…(0)
したがって
p(A∩B_i)=p(A)*P(B_i|A)…(1)
同様に
p(A∩B_i)=p(Bi)*P(A|B_i)…(2)
(1),(2)の右辺を等しいとおいて
p(B_i|A)=p(Bi)*p(A|B_i)/p(A)…(3)
一方
Σ[i=1:n]p(A∩B_i)=p(A)
であるから、これを用いて式(3)を書き換えると
p(B_i|A)=p(B_i)*p(A|B_i)/(p(A∩B_1)+…+p(A∩B_n))
再び(2)を使って分母を書き直すと
p(B_i|A)=p(B_i)*p(A|B_i)/(p(B_1)*p(A|B_1)+…+p(B_n)*p(A|B_n)))
※確からしさは何か新しい情報を得た場合に当然変わる
<例>
在来のデータ分析の結果
機械の調整が正しい。。。良品率90%
機械に故障がある。。。良品率30%
始動時の良調整率。。。75%
始動直後の最初の製品が良品であった場合に、機械が正しく調整されている確率はどうなるか?
事前確率 75%
事後確率
p(調整が良い|1個の良品)
=p(調整が良い)*p(1個の良品|調整が良い)/
{p(調整が良い)*p(1個の良品|調整が良い)+
p(調整が悪い)*p(1個の良品|調整が悪い)}
p(調整が良い)=0.75
p(1個の良品|調整が良い)=0.90
p(調整が悪い)=0.25
p(1個の良品|調整が悪い)=0.30
より
p(調整が良い|1個の良品)=0.9
⇒最初の1個が良品であったことで、機械の調整が正しく行われている確率は大きくなり、その後の個数の良否により確率は変動する
_◇ベイズ的行動決定
状況 X のもとで行動 A を決定する。行動 A の良さは、効用関数(utility function) U(A|X) で定義される。
不確実な状況 X のもとでの最良の行動は、
期待効用 E[U]
  = Σ(Xの全ての場合についての和) U(A|X)P(X|D)
を最大にするように決める。
※例
事前確率P(X)
 P(彼女は怒っている) = 0.7
 P(彼女は怒ってない) = 0.3
(彼女の表情の生成モデル)
 P(観測結果 D|確率変数 X)
 P(にこにこ顔|彼女は怒っている) = 0.1
 P(むっすり顔|彼女は怒っている) = 0.9
 P(にこにこ顔|彼女は怒ってない) = 0.5
 P(むっすり顔|彼女は怒ってない) = 0.5
いま彼女が怒っている確からしさは、
 P(怒|にこにこ)
        P(にこにこ|怒)P(怒)
=--ー----------------------
  P(にこにこ|怒)P(怒) + P(にこにこ|不怒)P(不怒)
= 0.1 × 0.7 / ( 0.1 × 0.7 + 0.5 × 0.3 )
≒ 0.32
効用関数を以下のようにすると
 U[花|怒]   = -8000
 U[無|怒]   = -30000
 U[花|非怒] = -8000
 U[無|非怒] = 0
E[U[花]] = U[花|怒] P(怒|にこにこ) + U[花|非怒] P(非怒|にこにこ)
= – 8000 × 0.32 – 8000 × 0.68
= – 8000
E[U[無]] = U[無|怒] P(怒|にこにこ) + U[無|非怒] P(非怒|にこにこ)
= – 30000 × 0.32 – 0 × 0.68
= – 9600
◆尤度 (likelihood)
    尤度 likelihood
    尤度比 likelihood ratio
    最尤推定法 maximum likelihood estimation
    事後確率
    ベイズの定理 Bayes theorem
確率と尤度
各事象の確率に影響を与える因子をパラメータという。一般に確率はパラメータの関数である。
尤度を考える場合、事象は既に起きており、観察データが得られている。そこであるモデルが正しいとしてその仮説の下での観察データが起きる確率を考える。これが尤度である。
確率が「事象の確率」であるのに尤度は観察データの下での仮説の尤度(likelihood for a hypothesis given a set of observations)である。
_◇尤度比とロッド値
一般にモデルの尤もらしさを比較する場合、尤度そのものにはあまり意味がないことが多い。
⇒異なった尤度の比をとることが有用
⇒尤度比の常用対数を取ったものがロッド値(lod score)
_◇最尤推定法
パラメータを動かして尤度が最高になるようなパラメータを捜す方法
※最大尤度(maximum likelihood)
それを与えるパラメータの値を最尤推定値(maximum likelihood estimate)といい、パラメータを表す変数の上に山形記号をつけて示す。
※最尤推定値の求め方
①パラメータ関数をパラメータで微分し、0とおいて方程式を解く。
②EMアルゴリズム(Estimation-maximization algorithm)などにより数値的に解く。
◆論法
_◇デルタt論法
自分があるものをみていることに特別のことがない場合、関係する知識がなければ、その物は、今の年齢の3分の1から3倍の間続く可能性が50%ある
⇒95%の可能性ならあ、39分の1から39倍の間となる

☆統計

※統計とは観測地の集団に関するある性質についての数量的表現であって、個々の観測値について言及するものではない。
◆記述統計と推測統計
_◇記述統計
データの傾向、性質
_◇推測統計
一部しか収集できなかったデータ(標本)をもとにして全体(母集団の母数)を推測
あるいは、母集団が従う確率分布を知る
⇒推定、検定、適合度検定、独立性の検定
母数の値を推測
推定
点推定
区間推定
検定
母集団の従う確率分布を推測
適合度検定
独立性の検定
※標本変動
ランダムサンプリングで得た標本から得た推定値
⇒抽出の度に異なる
⇒バラツキのある値から母数を推定するのが統計的推定
※確率変数Xの母平均μを推定する
⇒母平均の推定量Xバーを導入
⇒確率変数Xに具体的な値を得る
⇒Xバーの推定値を算出
⇒標本分布を得る
※統計量
標本を得ることで値が確定する確立変数
※母数
母集団のもつ特性値
※推定量
母数θを推定するために用いる統計量
※推定値
標本から得られた推定値の値
※母集団分布
母集団の個体の分布
※標本分布
推定量の分布
_◇用語(英和対訳)
推定 estimation
推定量 estimator
推定値 estimate
母数 parameter
母集団分布 distribution of population
標本分布 sample distribution
点推定 point estimation
区間推定 interval estimation
不偏性 unbiasedness
一致性 consistency
有効性 efficiency
不偏推定量 unbiased estimator
一致推定量 consistent estimator
モーメント法 moment method
最尤法 maximum likelihood method
尤度関数 likelihood function
上側確率 upper probability
平均値 mean
中央値 median
最頻値 mode
範囲 range
平均偏差 mean deviation
分散 variance
_◇アンケート調査
※ダブルバレル質問
double-barreled
質問に2つ以上の論点があり、どれを聞かれているのかが不明確な質問
※最高額や最低額は選択されにくい傾向がある。
※特に言いたいことがなければどちらでもない、5段階評価の3が多い
4段階だとどちらでもないがない
◆尺度水準
※名義尺度と順序尺度にあたるデータ⇒質的データ(足し算、引き算ができない)
※間隔尺度と比例尺度⇒量的データ(足し算、引き算ができる)
_◇名義尺度
数字は単なる名前
変数間の比較は ≠ = のみ
順序、加減は不可
代表値=最頻値
_◇順序尺度
数字は測定性質の順序
大小比較できるが、加減はできない
最頻値に加え、中央値を求めることができる
_◇間隔尺度
ひとしい差=ひとしい間隔
加減が意味を持つが、尺度上のゼロ点は任意
最頻値、中央値、算術平均とれる
_◇比率尺度(比例尺度)
ゼロ点は絶対位置
剰余に意味がある
算術平均に加えて帰化平均も意味を持つ
◆統計とデータ
※統計で扱うデータ
客観的にみて確かな情報
※統計のひとつの目的
多くのデータの間にある規則性をさぐる
※データの羅列はベクトルと考えることができる
⇒サンプルごとのベクトルは統計解析ではあまり使うことがない
_◇個票
加工されていない調査データをまとめた表
⇒1次データ
※個体
資料の構成単位となるひとまとまりのデータ組
個体を特定できる名称⇒個体名
※変量(変数)
資料の調査項目
通常小文字
※複数の変量を収めた資料
⇒多変量の資料
_◇クラス(階級)と度数、ヒストグラム
多くのデータをもつ全体をいくつかの小グループに分ける
⇒クラス
⇒クラスが大きすぎたり、小さすぎたりすると傾向がつかめない⇒適切なクラスの大きさがある
※度数
クラスに含まれるデータの個数
どのくらい頻繁に現れるかを表す量
※度数分布表
データを適当な間隔(懐旧)に区切って、その区間に含まれる頻度(度数)で資料をあらわしたもの
階級
階級幅(下限~上限)
階級値
階級を代表する値
通常、階級の中央の値
度数
※ヒストグラム
度数分布を柱状のグラフに表したもの
⇒柱の高さではなく面積で度数を表す
⇒とぎれとぎれの棒グラフで描いてはいけない
⇒横軸を間隔尺度として、柱の間隔をあけずに描く
※階級の分け方を変えると印象が異なる分布になる
※相対度数分布
%の単位で表した度数
度数の合計=総度数
⇒それぞれのクラスの度数を総度数で割る
⇒データ全体数に対する割合(相対度数)が得られる
⇒データ個数の異なる2グループの比較が簡単-にできる
※累積度数分布
各階級の度数を積み重ねる
※JIS基準
階級幅は見やすい整数とし、階級数は多からず少なからずとする。
平均≒Σ{階級値*相対度数}
_◇幹葉図
例)
①データを十の位の数字で10段階にわける
②1の位の数字を各段階に書き込む
⇒これでヒストグラムのように見えるようになる
③各段階の数字をソートする
_◇代表値
※資料の分布の中心を示す数値のことを代表値という。
①平均値 (mean)
    データの合計
平均値=------
    データの個数
※度数分布曲線では重心のx座標
※Xを確率変数、aを定数とするとき
E(X+a)=E(X)+a
E(a*X)=a*E(X)
E(a*X+b)=a*E(X)+b
※期待値は平均値と同意義。平均値をE(X)で表すのは
期待値 ExpectationのE
②メディアン(median; 中央値)
データを大きさの順に並べ替えたとき、ちょうど順番が真中になる値
(Nが偶数のとき)
N/2番目のデータ+(N/2+1)番目のデータ
------------------
        2
(Nが奇数のとき)
(N+1)/2番目のデータ
※度数分布曲線では面積を2等分する縦線のx座標
③モード(mode; 最頻値)
データの中で最も多く現れる値
※度数分布曲線では山の頂上のx座標
※度数分布
①ほぼ左右対称
平均値≒メディアン≒オード
②右にかたよる
平均値<メディアン<モード
③左にかたよる
平均値>メディアン>モード
_◇分散、標準偏差
※範囲(レンジ)
分布内の最大値と最小値の差
※偏差
各データと平均との差
※分散
variance
通常 s^2 と表記する
⇒資料の情報量を表現する
   (データ-平均値)^2の合計
分散=--------------
    データの個数
 (偏差)^2の合計
=---------
 データの個数
※データ‐平均値 のひとつひとつを偏差という
※(偏差)^2の合計を偏差平方和または変動という
※Xを確率変数, aを定数とするとき
V(X+a)=V(X)
V(a*X)=a^2*V(X)
V(a*X+b)=a^2*V(X)
※標準偏差
Standard deviation
通常 s と表記する
分散の平方根をとることでとることで、データとの比較がしやすくなる
標準偏差=√(分散)
※分散。違いが強調される。
※分散が大きい⇒いろいろな情報を読み取ることができる。情報量が豊富。
※連続的確率変数の場合の分散
V(x)=∫[a:b]{(x-μ)^2*f(x)}dx
_◇標準得点
そのデータが、分布の平均に比べて、標準偏差の何倍上回っているか(あるいは下回っているか)
※分布を平均0、標準偏差が1になるように変換すれば、標準得点に変換される。
_◇相関図、共分散、相関係数
2組のデータをxy座標軸上の点であらわす
⇒相関図 correlation diagram(散布図 scatter plot)
⇒2変量の数値の大きさが極端に異なるときは、標準化された変量に対して相関図を描くとよい
⇒3変量以上あるときは、2つずつ組み合わせる
※共分散
covariance
2種類のデータの関係の強さ(相関の正負と強弱を数値として)を表す
⇒Sxy=(x-x~)*(y-y~)
正の相関Sxy>0
負の相関Sxy<0
相関がないSxy≒0
Σ{(X-Xの平均)*(Y-Yの平均)}
--------------------
    データの点数
⇒ものさしにより値が異なる
※相関係数
correlation coefficient
ものさしによらない
rと表記することが多い(relation)から
共分散
------------
Xの標準偏差*Yの標準偏差
Σ{(X-X~)*(Y-Y~)}
r=-----------------
√{Σ(X-X~)^2*Σ(Y-Y~)^2}
※正の相関、無相関、負の相関
負の完全相関 相関がない 正の完全相関
-1 ~ 0 ~ 1
※偽相関
spurious correlation
2変数の間に相関関係があっても、因果関係があると考えられない場合
※相関関係があるからといって、因果関係があるわけではない
_◇標準化(基準化)
z=(x-x~)/Sx
変数x の平均 x~, 標準偏差 Sx
この変換を変数 x の標準化(基準化)とう
※z の平均は0, 分散は1
⇒標準偏差も1
※z が平均より大なら正、小なら負
※z は無次元量
_◇回帰直線
※平均値の点をかならず通る
※傾きa
a=相関係数*(Y軸標準偏差)/(X軸標準偏差)
_◇クロス集計表
※pivotテーブル
⇒クロス集計 cross tabulation
⇒クロス集計表 cross table
⇒縦の項目を表頭、横を表側という
◆確率分布と試行
_◇試行と確率変数
※試行
ある行為をおこなって一つの結果を導きだすこと
どのような結果が導き出されるかは予め知ることができず、偶然をともなう
※確率変数
試行の結果に応じて、定められた値をとる変数
試行前にわかっているのはとり得る値のみ
(とり得る値毎に確率が付与されている)
試行結果と確率変数の値とは1対1の関係
⇒確率変数は大文字で表す
確率変数Xのとり得る値がN個あるとし、N個の値を
x1, x2, … xN
Xがx1をとる確率をp1、… xNをとる確率をpNとする
※確率分布
確率変数のとりえる値のそれぞれに対応する確率の集まり
{p1, p2, …, pN}
が確率分布
※全確率
N個の確率の合計
p1+p2+…+pN=1
_◇期待値
1回の試行あたり、Xのとる値の平均値
=x1*p1 + x2*p2 + … + xN*pN
※確率密度関数 f(X)を用いる場合
E(X) = ∫[a:b]{X*f(X)}dx
_◇一様分布
すべての確率は互いに等しい
確率密度関数
f(x) = k(一定) a≦x≦b
0x<aまたはb<x
この分布にしたがう確率変数 X の
平均
E(X)=(a+b)/2
分散
V(X)=(b-a)^2/12
⇒定義の式にしたがい定積分すれば求められる
※一様分布は通常連続分布を想定
※離散一様分布
⇒平均値、分散については連続一様分布の公式が使えないことがある。
_◇ベルヌーイ分布
2個の確率{p, q}からなる確率分布
p+q=1
※確率変数の取りえる値は1と0
_◇二項分布
binomial distribution
1回の試行は 1(確率p) 0(確率q)だが、これをn回繰り返したときに1がk回出る確率 (q=1-p)
P(X=k)=nCk * p^k * q^(n-k)
※P(条件)
条件が成り立つときの確率
※nCk
二項係数(組み合わせの数)
nCk=n!/(k! * (n-k)!)
k=0..nのn+1個の確率からなる確率分布を二項分布という
※B(n,p)
q=1-p, kは0…nなので、P(X=k)はnとpだけで決まる
二項分布をB(n,p)と書く
※B(n,p)のグラフ
Xを横軸、P(X=k)を縦軸とすると
①ピークをもった山形
②nが大きくなるとピーク位置が右へずれ、ピーク高さが減少する
③そして山の形が左右対称になる
⇒nが増えると正規分布に近づく
※二項分布の平均と分散
E(X)=n*p
V(X)=n*p*q
_◇正規分布
Normal distribution
平均m, 標準偏差σの正規分布 N(m,σ^2)
    1          (X-m)^2
Y=--------*e^(- -------)
  √(2πσ^2)       2σ^2
※平均値と標準偏差だけで決まる確率密度関数である
※平均mを中心として左右対称
※m+σ、m-σに変曲点がある
※σが大きくなるとmのピークが低くなる
両側
m±σ 68.26%
m±2σ 95.44%
m±3σ 99.73%
※T=(X-m)/σで標準化
標準正規分布N(0,1)
Y=(1/√(2π))*e^(-X^2/2)
※正規分布の加法性
確率変数Xが正規分布N(mi,σi^2)にしたがえば
確率変数Σ[i=1:n]ai*Xi は
正規分布N(Σ[i=1:n]ai*mi,Σ[i=1:n]ai^2*σi^2)
_◇対数正規分布
①負の値になることはない
②平均値と標準偏差の間に相関がある
③モードの①は平均値より小さい
④幾何標準偏差は単位の無い無地原料
※変量に次のような特徴があるときに近似的に用いられることが多い
①サンプルの中で飛び離れて大きな値が得られる。
②飛び離れて大きな値がでる確率が小さい
③平均値と標準偏差との間に草案がある
④誤差の表現に比率を用い、比率によって比べられる。
_◇分布のモーメント
◆母集団と標本
_◇全数調査と標本調査
全数調査:調べる対象の集団全体を調査
⇒母集団全てを調べる
例)国政調査
標本調査:調べる対象の集団の一部を調査
⇒その結果をもとに全体を推定する
※標本調査では、標本の選び方によって平均、分散などの値は異なる
⇒平均や分散自体が確率変数となる
※分散を求めるときに分母をn-1にとると、
個数nのいろいろな標本についての分散、の平均が母集団の分散に一致する
⇒不偏性
_◇母集団と標本
※母集団 population
無限個ある事象の集合
調査対象である集団全体
※標本 sample
抜き出した現象
集団から抜き出した集まり
※得られた標本の特性を分析することによって、母集団に固有な性質を推定すること⇒統計的推定
※資料が母集団であれば分散の分母は母集団の大きさになる
※資料が母集団から抽出した標本のときは、分散の分母は標本の大きさから1を引く
⇒標本の分散の平均値が母集団の分散に等しくなってほしいため。
※標本から求めた変数Tの平均値が母集団の母数θと一致するとき、Tをθの不偏推定量という。
※n-1で割った標本分散は不偏推定量であるので、不偏分散という。
_◇標本抽出
標本を抜き出すことを標本抽出という
※無作為抽出
母集団の特定のグループに偏らないようにする
※標本調査は試行である
n個抽出⇒標本の大きさ⇒n個の確率変数
母集団と抽出したn個の確率変数は同じ確率分布に従う
※復元抽出
いったん抜き出した標本を、もとの母集団に戻す
※非復元抽出
1回に標本の大きさ分のデータを一度に抽出する
⇒確率理論的には復元抽出の方が理想。現実的には非復元抽出が多い
_◇母数
母集団についての全数調査ができなければ正確な数値を求めることはできないが、平均値などは必ず存在する
母平均 m
母分散 s^2
母標準偏差 s
※代表値
平均値、中央値、最頻値など
※散布度
範囲、平均偏差、分散
_◇不偏推定量と自由度
標本から得られる統計量≠母集団の統計量
しかし
※標本の統計量の期待値が母集団の統計量の期待値と一致するとき、その統計量を不偏統計量とよぶ
母平均μと標本平均xバー
E(xバー)=μ
であれば平均は不偏推定量であると言える。Eは期待値。
⇒不偏分散の場合はn-1で割る
※互いに独立に動けるデータの個数を自由度という
⇒標本の分散の計算では、n個のデータの平均を利用した条件があるので、自由度はひとつ減ってn-1となる
⇒n個の変数に対してk個の条件が課せられると自由度はn-k
_◇標本平均とその分散
標本平均値の平均=母平均 m
標本平均値の分散=(1/n)母分散s^2
(標本分散値の平均とは混同しないこと)
※標本平均をXバーと書く。確率変数である。
⇒標本平均が標本毎に実際にとる値が標本平均値
⇒標本平均Xバーの期待値は母平均mに等しい
⇒標本平均Xバーの分散は母分散s^2のn分の1に等しい
_◇大数の法則
標本数nが十分大きければ、標本平均Xバーが母平均mに近い値をとる確率は1に近い。
_◇中心極限定理
※母集団が正規分布にしたがわなくても標本数が十分大きければ中心極限定理がなりたつ
「母平均m、母分散s^2の母集団から大きさnの標本を無作為に抽出したとき、nが十分大きければ、母集団の従う確率分布に関係なく、標本平均Xバーは期待値m、分散S^2/nの正規分布N(m,s^2/m)に従うとみなすことができる」
⇒ただし、nは十分大きな数とする
平均がμ、標準偏差がσの母集団から取り出された標本平均xバーは、平均μ、標準偏差σ/√nの正規分布に従う(nは標本の大きさ、十分大きい)
※母集団の分布には関係しない(nは大である必要あり)
※母集団が正規分布に従う場合は、標本nの大きさに関わらず、中心極限定理が成立
_◇確率変数の標準化
※期待値μ、分散σ^2の確率変数Xの標準化
    X-μ
X→Z=---
     σ
Zの期待値は0、分散は1
※標本平均Xバーの標準化
期待値m、分散s^2/nの正規分布N(m、S^2/n)に従うXバーの標準化
      Xバー-m
バー→Z=------
      s/√n
※推定や検定は、多く、Zが標準正規分布に従うことを用いて行われる
_◇標本平均、標本分散とt分布
※中心極限定理の適用には母集団の分散がわかっている前提がある
⇒通常母集団の分散は不明
⇒標本から得られる分散s^2で代用
⇒標本平均の分布はt分布となる
※t分布は正規分布同様釣鐘型の対称形だが、裾野が広い
(1+(x^2/p))^(-(p+1)/2)
⇒pを無限に大きくするとt分布は正規分布となる
※XがN(0,1)に、Yが自由度nのχ^2(n)に従うとき
T=X/√(Y/n)
が従う確率分布が自由度nのt分布
Xとして、標本平均Xバーを標準化した
   Xバー-m
Z=------
   s/√n
Yとして、標本分散と母分散からなる確率変数 nS^2/s^2
(これは自由度n-1のカイ2乗分布に従うから)
をとると、
   Xバー-m
T=------------
  √(1/(n-1))*S
⇒sが消えてしまう。
⇒自由度n-1のt分布のグラフとなる
※t推定
Tをつかって母平均mの値を推測する
_◇標本分散とカイ2乗分布
正規分布にしたがう母集団から標本を抽出するとき、その分散はχ^2分布に従う
※確率変数x(x>0)が以下の確率密度関数に従うとき、xは自由度nの
χ^2分布に従うとう
{(x/2)^((n/2)-1)}*e^(-x/2)
⇒χ^2分布曲線は(0,0)近くから始まる非対称の曲線
分散σ^2の正規分布にしたがう母集団から標本を抽出し、得られる不偏分散をs^2とすると、統計量
χ^2=((n-1)/σ^2)*s^2
は、自由度n-1のχ^2分布に従う
※標本分散S^2
    1
S^2=-Σ(Xi-Xバー)^2 iは1からn
    n
※標本分散値の平均(=標本分散S^2の期待値)と母分散s^2の関係
            n-1
標本分散S^2の期待値=---×母分散s^2
             n
※χ^2(n-1)
母集団がN(m,s^2)に従うとき、
S^2にn/s^2をかけたnS^2/s^2が従う分布=自由度n-1のカイ2乗分布
⇒母分散s^2の値などを推測できる
※最尤推定では、標本分散がもっともよい推定量となる
_◇分散比の分布とF分布
_◇母比率と標本比率
ある母集団を、YESの割合pで分割=母比率p
母比率 p も母数である。
この母集団からn個サンプル抽出
⇒n個のうちYESである割合⇒確率変数X
⇒二項分布B(n,p)に従う
⇒nが大きければ
期待値n*p
分散n*p*(1-p)
の正規分布に置き換えることができる
※標本比率
X/n
⇒nが十分おおきければX/nも正規分布にしたがう
⇒X/nの期待値
n*pをnで割ったp
⇒X/nの分散
n*p*(1-p)をn^2でわったp*(1-p)/n
nが十分大きいとき、標本比率X/nは、
期待値がp
分散がp*(1-p)/n
の正規分布に従う
※母比率推定
X/nを標準化して母比率pの値を推測

☆最小二乗法

※全ての測定値と直線との誤差が最小になるような方程式を求める手法
※実測値と予測値との差の二乗和が最小となるように予測値の式や値を決定する方法
⇒n次元の放物線(面)の最小値を与える係数を求めることに帰着する
◆平均値
平均値は誤差の二乗和を最小にする値
◆回帰曲線(直線)/最小2乗法
サンプルを(x1,y1)…(xn,yn)とするとき、従属変数yが独立変数xのn次式
y = f(x) = Σ[k=0;n] ak * x^k
= a0 + a1*x + a2*x^2 + … + an*x^n
として表されると仮定して、その仮定による理論値と、サンプル値の差の乗の和
Σ[i=1;N](f(xi) – yi)^2
が最小になるように係数a1,a2,…,anを定める。
このときグラフ y = f(x) を回帰曲線(n=1のとき回帰直線)という。
推定値の標準誤差は、
√((1/(N-n-1))*Σ[i=1;N](f(xi)-yi)^2)
※独立変数の値をあらかじめ対数関数などを用いて変換した変数をあらためてxとしてもよい。)

☆統計解析

行列に表現されている各変数の分析
各列ベクトルに着目する
⇒分散共分散行列を求める
⇒さらに分散共分散号列の固有値、固有ベクトルをもとめる
※座標軸を回転して変数との相関が大きい軸を使って分析することもある。
◎多変量解析
※変量
大小いろいろな数値に変わる量
※個体
データの測定対象のひとつひとつ
※多変量データ
ひとつの個体が複数の変量の組で表されるデータ
多くの要素を対象にして、それらを組み合わせて分析。
複数の統計情報の関係を調べ、「そこに隠された秘密を読み解く」
複数の変量からなる資料=多変量からなる資料
⇒個々のサンプルに対して同時に複数の調査がなされている
◆要因と変量
分析の対象となる要素を要因という。特に数値で表された要因を変量という。
_◇変数(変量)
資料を構成するものを個体(または要素)という
(⇒DBにおけるレコード)
個体の名前を表すものを個体名(または要素名)という。
資料を構成する個体の数をサンプル数(標本の大きさ)という。
資料の項目が変数(変量)となる
(⇒DBにおけるフィールド)
※多数の変数(変量)⇒多変量
どの変数がどの変数にどのように関係しているか
_◇疑似相関
見かけ上の相関
本来ないはずの相関
⇒データを層別することで排除できる
◆回帰分析(重回帰分析)
regression analysis
1つの情報を他の情報から簡単な関係式で説明しようとするもの
⇒ある一つの変量を残りの変量の関数として表現し変量間の関係を分析する
※重回帰分析
複数の変量のうち1つの辺量に注目し、その辺量がほかの変量によってどのように影響をうけるかを分析する(数式で表す)
_◇線形回帰と非線形回帰
※線形回帰
ある変量を他の変量の1次式で表現する
※非線形回帰
ある変量を他の変量の1次以外の式で表現する
_◇単回帰と重回帰
※単回帰分析
変量の数が2つ
⇒単回帰分析(線形回帰)の回帰方程式(回帰直線)
y^ = a + b*x
⇒y^(ハット)を予測値と呼ぶ(実測値yと区別)
⇒yを目的変量(規準変量)、xを説明変量とよぶ
⇒aを切片、bを回帰変数とよぶ
※重回帰分析
変量の数が3つ以上
_◇目的変量と説明変量
目的変量 分析の対象となる変量
⇒従属変量, 規準変量、被説明変量
説明変量 目的変量のとる値がどのように決まるかを説明するために用いられる変量
⇒独立変量
※データの名前を表す項目=個体名
※個体の個数=標本の大きさ
※合成変量
説明変量を混ぜ合わせた変量)
例)
w=a’+ p*x + q*u
_◇残差
実際の値 y1 と回帰方程式から得られる予測値y1^との差
ε1 = y1 – y1^ = y1 – (a+b*x1)
※残差平方和
Q = ε1^2 + …
⇒残差平方和Qを最小になるように回帰直線を引く(最小二乗法)
εがaとbで記述できる⇒展開して整理すれば以下の形にできる
Q=A^2+B^2+C
AとBが0のときに最小値Cをとるので、A=B=0となる条件を求める。
⇒a, bがもとまる
_◇理論値と実測値
実際に測定などによりもとまった目的変量⇒実測値
説明変量を重回帰式に代入して得られる値⇒理論値
※ずれ(残差)がある
※残差:実測値-理論値
⇒残差の合計は0となる。
⇒残差平方和を用いる
_◇回帰方程式とその性質
①変量の平均値は回帰直線上にある
yバー = a + b * xバー
⇒a = yバー – (b * xバー)
⇒回帰直線は分布模様の重心を貫く
※重回帰分析でも同じ、回帰平面は分布の重心を通過する
②単回帰の場合、xの分散 Sx とx,yの共分散 Sxy により、回帰係数bは
b = Sxy / Sx^2
と表せる
これより回帰方程式は以下のようにかける
y^ = (yバー – ((Sxy / Sx^2) * xバー)) + (Sxy / Sx^2) * x
⇒平均、分散、共分散を求めれば回帰方程式が得られる。
※回帰方程式から得られる結果の性質
①目的変量 y の平均 = 予測値 y^ の平均
②残差εの平均 = 0
③目的変量の実測値の分散 = 予測値 y^ の分散 + 残差εの分散
_◇重回帰式
目的変量を説明変量で表した数式
⇒一般に数式で正確に表すことができなかったり、1次式では正確でなかったりするが、1次式でもかなりな説明ができる
⇒「目的変量を説明変量に回帰する」という
例)
x1, x2…独立変量
y…従属変量
y=a1*x1 + a2*x2 + a0
のような1次式であらわす。
※a1, a2などの係数を回帰係数という
⇒偏回帰係数
※a0の定数は切片
※目的変量yと予測値y^との誤差を全体として最小にするために最小二乗法を用いる
Q(残差平方和)の最小値を求めるには偏微分を使う
y^=a+b*x+c*u
∂Q   ∂Q   ∂Q
――=0、――=0、――=0
∂a   ∂b   ∂c
※単回帰分析
回帰方程式=2次元平面の直線(回帰直線)
※3変量の重回帰分析
回帰方程式=3次元空間内の平面(回帰平面)
※n変量の重回帰分析
回帰方程式=n次元空間内の超平面
_◇決定係数
回帰方程式の精度を表す指標
(寄与率)
目的変量の実測値の分散 = 予測値 y^ の分散 + 残差εの分散
残差の分散 Sε^2 = (1/(n-1))*Q
⇒Qが最小なら(最小二乗法)Sε^2も最小
⇒目的変量の実測値の分散 Sy^^2は一定なので予測値 y^ の分散 Sy^2は最大
⇒予測値の分散が最大になるように回帰方程式は定められる
R^2 = Sy^^2 / Sy^2 = 予測値の分散 / 実測値の分散
⇒R^2を決定係数または寄与率と呼ぶ
⇒定義により、0≦R^2≦1
R^2の値が1に近いほど、回帰方程式の精度が高い(資料の情報量を反映している)ことを意味する
⇒n次元空間の中でパンケーキ型の分布となればR^2の値は1に近く、球状であればR^2の値は0に近い
※一般の目安
0.8以上でよい精度
0.5以上あればまあまあ
※決定係数 R^2の平方根 R は 目的変量と予測値の相関係数
⇒回帰方程式は目的変量と予測値の相関係数を最大にする
_◇相関係数
2変量の相関の強弱を表す指標
r_xy = S_xy / (S_x * S_y)
S_xy xとyの共分散
S_x, S_y xとyの標準偏差
-1≦r_xy≦1
※回帰方程式は相関係数を最大にする
⇒回帰方程式は、目的変量と最大の相関係数が得られるように説明変量を合成したもの
※重相関係数R
R = r_yy^ = S_yy^ / (S_y * S_y^)
※重相関係数Rは決定係数R^2の平方根と一致する
※偏相関係数
説明変量のひとつと被説明変量の相関係数から、他の説明変量の影響を求める指標
説明変量x1、x2、被説明変量y
x2の影響を除いたx1とyの偏相関係数を求める場合)
x2を説明変量として
y-x2平面と、x1-x2平面で回帰直線を求める
x1-x2平面でx1の予測に対する残差をuとする
⇒x2に依存して変化する変動をx1から除いたことになる
y-x2平面でyの予測に対する残差をvとする
⇒x2に依存して変化する変動をyから除いたことになる
残差同士u,vの相関係数⇒yとx1からx2に依存する変動を除いた相関係数
⇒yとx1の偏相関係数
_◇自由度調整済み決定係数
※決定係数の欠点
説明変量の数を増やすと単純に増加する
⇒役に立たない説明変量でも、決定係数が増え、見かけの予測精度があがる
※自由度調整済み決定係数^R^2
        n-1
^R^2=1-―――――*(1-R^2)
       n-k-1
n:資料の大きさ(個体数)
k:説明変量の数
_◇単位やスケールの違いとデータの標準化
※偏回帰係数は変量の単位を変えたり、スケールを変更すると大きく変化する
※データの標準化
  x-x~
X=――――
   Sx
※標準化した変量名は大文字で表す
※標準化されたデータの回帰方程式では定数項は0となる
⇒標準化により各説明変量が目的変量にどれだけ作用しているか理解できる
⇒標準回帰係数
_◇多重共線性
※互いに相関が強いものを説明変量に選んでしまうと結果の解釈に不都合が生じる
⇒2つの変量をベクトル的に解釈すると、相関の強い変量同士は同じ方向を向く
※相関の強い説明変量から外し、他を探した方がよい
⇒各説明変量間の相関係数を求め、相関の強いものを外す
※説明変量が多重共線関係にあるという
_◇残差分析
※残差は各説明変量と無相関になることが仮定されている
⇒残差に直線性や周期性がある⇒説明変量の選択が不適当か線形関係以外の関係がある
_◇時系列データの回帰分析
※説明変量を時間とする。
(時間変量の始点は資料の最初に置く)
※トレンド変数
回帰分析に時間変動を加味するために加えられる変数
⇒時間変数を説明変量に追加し、指数関数の形で回帰方程式に取り込む
y^=[回帰式] * e^(δt)
t…トレンド変数
δ…トレンド変数につく回帰係数
⇒目的変量が時間的に増加したり減少したりすることが見込まれる場合に有効
_◇対数線形モデル
変量を変換することで線形回帰の手法が使える
※半対数モデル
⇒目的変量yの変動が説明変量xの指数関数にほぼ比例する場合
(yがxに対して等比数列的に増加減少)
回帰直線
^y = a * b^x(a、bは正の定数)
両辺の自然対数をとれば以下のように線形な回帰方程式となる
log(^y) = log(a) + (log(b))*x
※両対数モデル
変量xにもlogをつける
_◇ロジスティック曲線
商品の売れ行き、流行の浸透度、生物の繁殖
       γ
^y=―――――――――――
   1+e^(α‐β*t)
α、β、γは正の定数、tは時間
γ/^y – 1 = e^(α‐β*t)
と変形しておいて両辺の自然対数をとれば
log(γ/^y – 1)=α‐β*t
となる。
^Y = log(γ/^y – 1)
とおけば単回帰分析の形となる。
※γの決定方法
γは飽和のときの数だということで、目的変量の最大値よりも大きな値を仮のγとし、仮のγの中でR^2を最大にするものを採用する。
※成長曲線
最初はゆっくり、次第に加速成長、そのうち成長とまって安定
⇒他の成長曲線として修正指数曲線がある
^y=K-a*b^x (0<K, 0<a, 0<b<1)
※変曲点
t=α/βのとき、γ/2
_◇非線形の重回帰分析(コブ・ダグラス型関数)
コブ・ダグラス型関数(経済学)
^y = α*(L^β)*(K^γ)
L, K 変量
両辺の対数をとることで
log(^y) = log(α) + β*log(L) + γ*log(K)
と変形できるので
log()を適当な変数とすることで
^Y = A + β*X + γ*U
と変換できる
※コブ・ダグラス型生産関数
(1次同次の生産関数)
α+β=1という制約(収穫一定の条件)を与えたもの
⇒偏回帰係数が1つへるので、単回帰分析となる
_◇ダミー変数
※実際の資料には表れない変量を取り込むことで
不連続な量
一時的な要因
を表現し、決定係数を高くする
①定数項ダミー
⇒回帰直線を平行な複数に分離する
資料の特異性を下駄をはかせることで除去する
例)異常時1、そうでないとき0という変量を導入する
データの質的な差を0,1として取り込む
例)男0、女1
②係数ダミー
回帰直線に複数の傾きを導入する
D:係数ダミー
^y=α + β*x + γ*D*x
⇒切片は共通となる
③①と②の混合
Y=α + β*x + γ*D*x + δ*D
※使われ方による名称
一時的ダミー(突発ダミー)
特異値で精度が落ちることを補正する
季節ダミー
該当季節で1になる(どれかは000でよいので3変数)
質的ダミー
質の差を表す
_◇回帰方程式の検定
※回帰方程式は標本で変動する。
①回帰方程式全体の有効性(決定係数の有意性検定)
⇒標本から得られた決定係数R^2が大きいという結論が母集団にあてはまるか
例)^y=α+βx+γu
H0(帰無仮説):回帰方程式は資料の説明に役に立たない=(β=0, γ=0)
H1(対立仮説):回帰方程式は予測に役立つ
⇒H0を有意水準5%で検定
⇒分散分析
n:標本の大きさ、説明変量の数
回帰分散(予測値の不偏分散)
V_^y = (1/p) * Σ[1:n]{ (^y_i – yバー)^2 }
残差分散(残差の不偏分散)
V_ε = (1 /(n-p-1)) * Σ[1:n]{ ε_n^2 }
⇒√V_εを回帰方程式の標準誤差という
F値
F = V_^y / V_ε
仮説H0のもとでは、F値は自由度p, n-p-1のF分布に従う
求めたF値がF分布において上位5%以内に入っていれば
⇒発生確率5%ということで「まれ」な現象⇒棄却⇒H1採用
※決定係数R^2とF値の関係
   R^2  n-p-1
F=―――――*―――――
  1-R^2   p
⇒R^2が1に近いほど、H0は棄却されやすい
②各回帰係数の有効性
βやγが0でないことを確かめればよい
例)
H0:γ=0
H1:γ≠0
c-γ/√(Suu*Vε)は自由度n-p-1のt分布に従う
γに0を代入した式をtとして
⇒t値を求める⇒これのt分布での位置を知れば有効性が確かめられる
※帰無仮説H0が棄却されない場合
①説明変量の選択に無理がある
②計算ミス
③資料の誤り、データ入力ミス
④サンプル数が少なすぎる
⑤必要な説明変量が抜けている
_◇分散分析表
変動 平方和 自由度 不偏分散 分散比
回帰 回帰平方和 変量数 回帰分散 F値
残差 残差平方和 標本数‐変量数‐1 残差分散
全体 偏差平方和
※Excelの有意F
0.05以下であれば意味のある回帰モデル
⇒大きいと信頼性がない
_◇回帰方程式による予測値の区間予測
※点予測(点推定)
回帰方程式で得られた値を予測値とする
※区間予測(区間推定)
幅をもった値で推定する
説明変量x, uの値x0, u0に対する点予測推定値^y0
目的変量yの実測値y0は95%の確率で次の区間に入る
^y0-t_n-p-1(0.05/2)*^σ<y0<^y0+t_n-p-1(0.05/2)*^σ
n:サンプル数
p:説明変量の数
t_n-p-1(0.05/2) 自由度n-p-1のt分布で片側0.05/2の確率を与える点
⇒両側5%点
^σ=√{ (1+(1/n)+(D0^2/(n-1)))*Vε }
⇒^yの分散V_^yの平均が^σ^2となる
     Su^2*(x0-xバー)^2-2*Sxu(x0-xバー)*(u0-uバー)+Sx^2*(u–uバー)^2
D0^2=―――――――――――――――――――――――――――――――――
                 Sx^2 * Su^2 – Sxy^2
⇒D0^2、点(x0, u0)のマハラノビスの距離
x0、u0が平均xバー, uバーのときにD0^2は最少
⇒^σも最小
⇒平均から遠ざかるほど信頼区間の幅は広くなる
_◇回帰方程式の係数の区間予測
回帰方程式
^y = a + b*x + c*u
の標本から得られたa, b, cから母集団のα、β、γを区間予測(信頼区間95%)
b-t_n-p-1(0.05/2)*√(Sxx*Vε) < β < b+t_n-p-1(0.05/2)*^√(Sxx*Vε)
c-t_n-p-1(0.05/2)*√(Suu*Vε) < γ < c+t_n-p-1(0.05/2)*^√(Suu*Vε)
a-t_n-p-1(0.05/2)*√{(1/n+Dm^2)*Vε}<α<a+t_n-p-1(0.05/2)*^√{(1/n+Dm^2)*Vε}
√{(1/n+Dm^2)*Vε}:切片aの標準誤差
√(Suu*Vε):回帰係数cの標準誤差
√(Sxx*Vε):回帰係数bの標準誤差
⇒回帰方程式の標準誤差とは異なる
※以下がすべて自由度n-p-1のt分布に従う
b-β/√(Sxx*Vε)
c-γ/√(Suu*Vε)
a-α/√{(1/n+Dm^2)*Vε}
_◇補間と補外
※補外(外挿)
資料の得られていない領域の予想まで回帰方程式を延長し利用すること
※補間(内挿)
資料と資料の間を予想
◆主成分分析
複数の変数データから構成された資料
⇒できるだけ情報量が多くなるように元のデータを1次式で合成して調べる
⇒合成変数の分散が最大になるところに目をつける
⇒各変数の係数は、分散共分散行列の固有ベクトルとなる
◆因子分析
例)
元の多変量データ行列=因子得点行列×因子負荷行列の転置行列+独自因子行列
Z = F * tA + E
◆判別分析
◆正準相関分析
2つの変数群(何種類かの変数が集まったもの)があるとき、一方の変数群と他方の変数群がどのような関係にあるのかを調べる
⇒それぞれの群で合成変数を考え、その合成変数間の相関が最大となるところを考える。
◆数量化
要因を数量化すれば多変量解析の手法を使うことができる。要因を数値に置き換えることを数量化といい、数量化された要因をダミー変数という。
◆基本ツール
_◇散布図
相関図
_◇共分散
2変数xとyの関係を知るのに、(xi-mx)(yi-my)の平均値を持ってする
⇒mx,myはx,yの平均値
Cxy =(1/N) Σ(i=1;N) (xi-mx)(yi-my)
もしくはSxy
※分母をN-1にとった場合を共分散ということもある
※共分散は分散を一般化したもの
※共分散は2つの変数の親密度を表す。無関係なときは0に近くなる。
⇒相関がない
共分散>0 正の相関
共分散<0 負の相関
⇒単位のとり方により変化してしまうのが欠点。
※偏差
変数の値と平均値の差
⇒偏差を成分に持つベクトルを偏差ベクトルという
_◇相関係数
※共分散 Sxy を標準偏差 Sx, Sy の積で割ったものが相関係数
rxy = Sxy / (Sx * Sy)
-1< rxy < 1
⇒共分散と異なり単位に影響されない。
⇒共分散はデータの単位やスケールの影響を受けるので、異なる資料間で単純比較できないが、相関係数であればどの変量とどの変量の関係が強いのかを比較できる
※2つの偏差ベクトルの内積が0のときに相関係数も0となる。
※標準化されたデータの共分散は相関係数と一致する
_◇Pearsonの積率相関係数
平均が0、分散が1となるように変換した値(標準得点あるいはz得点と呼ばれている)を用いて共分散を算出したもの。
r = 1/N Σ(i=1;N) ((xi-mx)/Sx) * ((yi-my)/Sy)
Sx, Syは標準偏差。
Sx = √ 1/N Σ(i=1;N) (xi-mx)^2
_◇分散共分散行列
※対角要素におのおのの変数の分散を、非対角要素にお互いの共分散を成分にもつ正方行列(対称行列でもある)
例)3変数x, y, zにたいして
(Sx^2  Sxy   Sxz )
(Sxy   Sy^2  Syz )
(Sxz   Syz   Sz^2)
⇒分散は変数の散らばり具合、共分散は変数の間の親密度をあらわす。
_◇相関行列
対角要素に1を非対角要素にお互いの相関係数を成分に持つ正方行列
例)
(1    r_xy r_xz)
(r_xy  1   r_yz)
(r_xz r_yz  1  )
⇒標準化されたデータの分散共分散行列は相関行列となる
⇒分散共分散行列の核成分を標準偏差の積で割ったもの
_◇ユークリッドの距離
※偏差の二乗の和のルート
_◇マハラノビスの距離
※データが資料の中心からどのくらい離れているかを示す
⇒変数が1つの場合:標準化した値の絶対値
⇒ユークリッドの距離を標準偏差で割って調整したもの
⇒変数が複数の場合は、多次元のベクトルもしくは行列で表現する。
1次元
D=|x-xバー|/Sx
2次元
D^2=(x-x~, y-y~)(Sx^2 Sxy)(x-x~)
                     (Sxy  Sy^2)(y-y~)
以下D^2の式はn変数に拡張できる
n次のベクトル
分散共分散行列
…◎分散分析
◎分散分析
Analysis of Variance
ANOVA
※資料の背景にある原因を探り、それが統計学的に意味のあることがどうかを調べる
⇒因子が原因となる変動と統計誤差による変動のどちらが大きいかの検定
⇒確率的な揺らぎを排除すれば、因子効果が見えてくるかもしれない。
因子の異なる条件⇒水準でサンプルをとる
※分散分析では、因子の相対的な効果だけを議論できる
⇒因子効果の絶対値は議論できない
_◇一元配置の分散分析
採取された資料のデータ変動の因子が一種
⇒水準の違いが統計誤差に比べて大きいかどうかを調べる
⇒因子の高価の有無を判定する
各データX_ij
X_ij = 全平均 + (水準平均-全体平均) + (X_ij – 水準平均)
(水準平均-全体平均)⇒水準間偏差
(X_ij – 水準平均)⇒水準内偏差
※偏差の大小は、その平方和の大小(⇒変動)で調べる
※正規分布にしたがう母集団から抽出された2標本の不偏分散の比はF分布にしたがう
⇒不偏分散とは変動を自由度で割ったもの
※帰無仮説設定
F = V1 / V2
⇒このF値がV1の自由度、V2の自由度のF分布に従う
⇒このF値が有意水準5%の棄却域に入っていれば⇒帰無仮説は棄却
⇒因子の効果が判明する
_◇自由度
※水準間の変動の自由度⇒水準の数-1
⇒水準の平均が0という制約があるため
※水準内の変動の自由度⇒(各水準のデータ数-1)の和
⇒水準毎に平均が利用されているので、各水準毎に自由度1を減じる必要がある
_◇繰り返しの無い二元配置の分散分析
※二元配置の分散分析
2つの要因がデータに関与していると考えて、その要因の影響の有無を調べる
※2因子の各組に対して1個のデータしかない=繰り返しの無い場合
各水準1データ
※因子別に考えれば一元配置と同様に考えられる。
各データ値=全体平均+①要因1の効果+②要因2の効果+誤差③
③が①、②に比べて大きい⇒誤差の中に効果は埋もれている。
①、②に比べて③が小さい⇒統計的に意味がある。
全変動=因子1による変動+因子2による変動+統計誤差による変動
⇒情報量保存の法則
_◇繰り返しのある二元配置の分散分析
※同じ水準のデータが複数存在する場合
⇒同じ条件で繰り返し実験した結果がある
※複数のデータがあるので、純粋な統計誤差を抽出できる
純粋な統計誤差=データ値-(各因子同一水準のデータの平均)
※交互作用
⇒2因子の相乗効果
交互作用=繰り返しのない資料での誤差 – 純粋な統計誤差
各データ値=全体平均+因子1の効果+因子2の効果+交互作用+純粋な統計誤差
※交互作用についても帰無仮説を立てて検証する
_◇実験計画法
◎推定と検定
◆点推定
母集団に関する真の値を、ある1つの推定値で予想する
※母平均mが標本平均と等しいと、1点で推定
⇒母集団の正確なmが分からなければ確かめようがない。
⇒標本数の大小が考慮されていない
_◇点推定の望ましい条件
①不偏性
推定量の期待値が母数に一致する性質
⇒この性質を満たす推定量=不偏推定量
②一致性
標本の大きさを増やすと、推定量が母数に収束する性質
⇒この性質を満たす推定量=一致推定量
③有効性
推定量の分散が小さい
⇒最小の分散値を持つ推定量を最小分散性という
※有効推定量(efficient estimator)
標本の大きさnが限りなく大きくなるとき
統計量Tnが
有効性 V(Tn)=E((Tn-θ)^2)=最小
を満たすとき有効推定量という。
※標本比率は不偏性、一致性、有効性をもつ
_◇モーメント法(積率法)
点推定の代表的方法の1つ
大きさnの標本X1…Xnから算出される次の推定量
μk=(X1^k + … + Xn^k)/n
を原点のまわりのk次のモーメント(積率)という。
⇒一般に確率変数Xとある定数Cとの差のk乗の期待値μk
をCのまわりのk次のモーメントという
μk=E((X-C)^2)
モーメントを用いて点推計をおこなう
⇒1次のモーメントは、母集団の平均値の推定量
⇒2次のモーメントは以下のように書き直せる
μ2=((X1-X~)^2+…+(Xn-X~)^2))/n + X~^2
よって分散の母数の推定量σ^2は
σ^2=μ2-μ1^2
⇒1次、2次のモーメントから、母数の推定値(平均、分散)を求めることができる
_◇最尤法
点推定の代表的方法の1つ
ある現象の起こる確率をL(p)とする
L(p)はある現象に含まれる試行のそれぞれの確率pで書ける
⇒L(p)=尤度関数
※最尤推定法
L(p)の値を最大にするようなpの値をもとめる
⇒現象は起こりやすいもとで起こる
母数θを含む尤度関数があるとき、その関数が最大値を与えるように母数を決定する
⇒母数の推定値を最尤推定という。
◆区間推定
推定が必要な場合
①母集団の数が非常に多い
②母集団の数は多くはないが、全てを調査することが不可能
⇒製品のサンプリング
③未来の出来事
_◇区間推定
母数をある幅の範囲内で推測する
下限<m<上限
⇒ある確率を与えて、母集団に関する真の値が入る区間を提示する。
※推測の区間を広くすればするほど当たる可能性が高くなる
⇒確からしさ(信頼度あるいは信頼係数)が重要
⇒そのときの推測の範囲を信頼区間という
母数θの区間推定手順
①標本における統計量Tを決める
例)母数θを体重の平均値とすれば、Tは一人の体重
②統計量の確率分布を調べる
例)平均μ、標準偏差σの正規分布
③確率分布をもとに統計量Tが確率αでとる区間を決定
⇒Tの上下をθを含む式で抑える
④上の式を変形し、θの上下をTを含む式で抑える
⑤統計量Tの推定値を不等式にいれて信頼度αで母数θを
とりえる区間を算出する。
_◇母平均の区間推定
①母分散が既知の場合(正規分布)
過去のデータから分布と分散が分かっているような場合
⇒標本の大きさにかかわらず母平均を区間推定できる
(標本が大きくなるほど信頼区間が狭まる)
※標本平均Xバーの分布は、中心極限定理から正規分布
平均値は母平均μにひとしく
分散は母分散σをサンプル数nで割ったもの
信頼度95%の信頼区間
Xバー-1.96*σ/√n≦μ≦Xバー+1.96*σ/√n
②母分散が未知で、標本が小さい場合(正規分布)
分布は、正規分布と分かっているが分散は不明な場合に
母平均μを区間推定する
⇒標本平均Xバーは求めることができる
⇒平均値μである正規分布をなす母集団から抽出
大きさnの標本の標本平均をXバー
不偏分散をs^2, 標準偏差をsとすると
標本平均Xバーからつくられた次の統計量Tは
自由度n-1のt分布に従う
T=(Xバー-μ)/(S/√n)
信頼度100(1-p)%の信頼区間
Xバー-t(p)*s/√n≦μ≦Xバー+t(p)*s/√n
※自由度nがある程度以上(30ほど)おおきければ
t分布を標準正規分布とみなしてもよい
③母集団分布が未知、標本は大きい
⇒標本数が30をこえればなんとかなる
⇒標本平均Xバーは、母集団の分布に関わらず、中心極限定理により正規分布となる
平均値=母平均μ
分散=母分散σ^2/サンプル数n
⇒nが30以上であれば母分散σ^2を不偏分散s^2で置き換えても支障がない
信頼度95%の信頼区間
Xバー-1.96*s/√n≦μ≦Xバー+1.96*s/√n
_◇信頼区間の算出
中心極限定理により、nが十分大きければ、母集団の従う確率分布に関係なく、標本平均Xバーは
期待値m
分散s^2/n
の正規分布にしたがうとみなせる。Xバーを標準化してZへ置き換えれば標準正規分布N(0,1)となる
※確率変数Zが定数cより小さな値をとる確率P(Z<c)は正規分布表より
I(c)
として求めることができる
⇒I(c)=P(Z<c)=P(Z>-c)=1-P(Z<-c)=1-I(-c)の関係から、
-c < Z < c
のような区間についての確率が求まる。
例)
-1.96 < Z < +1.96
I(1.96)=0.975より、区間では 0.95 (95%となる)
※ZからXバーに対する不等式に書き換えると
      s              s
-1.96*--<Xバー-m<+1.96*--
      √n             √n
さらに変形すれば
         s             s
Xバー-1.96*--<m<Xバー+1.96*--
         √n            √n
※sの値は推測できないが、過去データなどsとみなせる値があれば⇒
※1.96のところがZxx(xxは信頼度の%)とすると
信頼度 Zxx
90% 1.64
95 1.96
98 2.33
99 2.56
99.7 3.00
※両側区間の幅はx2
※母標準偏差sの値が分からない場合
⇒Zでなく確率変数Tを使う
(Tが従うのは自由度n-1のt分布)
※t分布表
自由度:n
面積(確率):α
にたいしてcが記されている。
確率変数Tが定数cより大きな値をとる確率P(T>c)がαに等しい
※t分布も確率密度関数も原点に対して左右対称
⇒t推定(母標準偏差sの値がわからないとき、t分布の性質を用いて信頼区間を求める方法)
          S               S
Xバー-txx*-----<m<Xバー+txx*-----
        √(n-1)          √(n-1)
※txxは信頼度xx%と自由度nー1によって決まる
n=10のときのtxx
信頼度 txx
90% 1.833
95 2.262
98 2.821
99 3.250
_◇母分散 s^2 の推定(χ二乗推定)
nS^2/s^2 が自由度n-1のカイ二乗分布に従うことを使う
⇒カイ2乗分布表(グラフ)<非対象>
X:自由度nのカイ二乗分布に従う確率変数
表にあるのは、Xが定数 c より「おおきな値」をとる確率 P(x>c) = α
⇒正規分布は条件x<cなので逆になる
95%の区間を求めるならば
P(X>19.023)>0.025, P(X>2.700)=0.975
より
P(19.023>X>2.700)=0.975-0.025=0.95
Xのところにn*S^2/s^2を代入すれば
s^2をS^2とnで表した不等式で幅を押さえることができる
(2.700/n)*s^2 < S^2 < (19.023/n)*s^2
(2.700/n)*s^2 < S^2
s^2 < S^2/(2.700/n)
S^2 < (19.023/n)*s^2
S^2/(19.023/n) < s^2
S^2/(19.023/n) < s^2 < S^2/(2.700/n)
_◇母比率の区間推定
pバー:標本比率
※nが十分大きいとき、標本比率pバーは正規分布N(p,p(1-p)/n)に従う
⇒pバー Z=(pバー-p)/√(p(1-p)/n)
と標準化すれば Z はN(0,1)に従う
95%であれば不等式
-1.96<Z<1.96
※根号の中にpが含まれるが、標本が十分大きければpバーはpに近い値だとして、
pをpバーですりかえてしまう!
pバー-1.96√(pバー*(1-pバー)/n)<母比率p<pバー+1.96√(pバー*(1-pバー)/n)
※pバー*(1-pバー)の最大値は1/4
よって信頼区間の幅は 2*1.96√(1/4n)=1.96/√n
⇒信頼区間の幅が0.05に収まるようにするには
1.95/√n≦0.05
となるようにnを決めればよい。n≒1537
_◇例:視聴率の推定
母集団1455万台のテレビ
標本600台
ある番組Mの視聴状態が99台であった
①母集団1455万台から任意の1台を選んだときMを見ている事象Aの確率が視聴率pとする
②600台の標本についても事象Aの確率はpと仮定する
⇒独立
③600台の標本のうちMをみている台数Xは確率変数となる
④事象{X=r}の確率
P(X=r)= 600Cr * p^r *(1-p)^(600-r)
※二項分布 B(600,p)
⑤平均と標準偏差
m=600p
σ=√(600*p*(1-p))
この値から区間推定する
n個の標本の中で、r個について事象Aが起こったとき、母集団の中で事象Aの起こる割合pを信頼度95%で区間推定
r/n-1.96*(σ/n)≦p≦r/n+1.96*(σ/n)
信頼度99%
r/n-2.58*(σ/n)≦p≦r/n+2.58*(σ/n)
⇒信頼区間の幅は標本の数√nによる
⇒幅を1/nにするためには、標本の数をn^2にしなければならない。
◆仮説検定
母集団について立てた仮説が間違いであるかどうかを検証すること
仮説と分析で得られた結果(標本統計量)が整合的であるか否か
※仮説を立ててそれを統計学的に検証するのが検定
①立てた仮説が否定されること 棄却
②元の仮説が棄却されたときに採用される仮説 対立仮説H1
③「できたら捨てたい」仮説 帰無仮説H0
⇒できたら捨てたい仮説を立て、それを統計学的に検証する
_◇仮説検定のステップ
①仮説の設定
対立仮説(予想)
帰無仮説(反対)
②使用統計量と判定基準決定
③標本から検定統計量を計算
④仮説の採否を決める
⇒帰無仮説が棄却されるか否か
⇒帰無仮説が正しいと仮定して検定統計量を計算
⇒帰無仮説が棄却域に入る確率を検定の有意水準とする
(通常1%もしくは5%)
⇒棄却域に入る=検定を行う分布からは滅多に生じない事象が発生した
⇒棄却=「統計的に有意である」
※判断基準
①検定統計量と境界値を比較
OR
②検定統計量に対する確率(P値)計算
⇒これが1%、5%を下回るか
_◇帰無仮説と対立仮説
※帰無仮説
仮説検定をおこなうとき、検証の対象となる仮説
⇒無に帰することを予定して
⇒主張したいことの反対の仮説をたてる
⇒この仮説が正しいとして、実際におきた事象の確率を計算する
⇒この確率が非常に小さければ⇒まれなこと
⇒仮説を棄却する
⇒一般に不等号を使ってあらわされる仮説より、等号をつかってあらわされる仮説を検定する方がはるかに簡単
⇒帰無仮説が正しいことを証明するのではなく、間違いかどうかを検証する
⇒疑わしい場合には、帰無仮説を「棄却」する
⇒帰無仮説が棄却されたときに採択される仮説を対立仮説という
(立証したいのは対立仮説)
※対立仮説と検定
帰無仮説が「=」をつかって表された場合、対立仮説は≠、<、>などの不等号を使ってあらわされる
m≠M両側検定
片側検定
m>M右側検定
m<M左側検定
_◇統計的検定の不合理と矛盾
※帰無仮説の棄却と採択は対等でない
帰無仮説の棄却:危険率を覚悟で仮説を捨てる
帰無仮説の採択:態度を留保
⇒実世界では、異なる母数が厳密に等しいことはあり得ないので、帰無仮説は初めから偽りであることがある意味明白。
⇒データの数が増せばますほど、厳密には偽である帰無仮説は必ず棄却されるようになる。
_◇検定統計量
母集団から無作為に抽出したn個の確率変数X1~Xnを適当に組み合わせてつくられた確率変数
※検証の基準は、検定統計量が従う分布の性質によってきまる。
_◇有意水準と棄却域
検定が間違ってしまう確率=危険率(有意水準)
⇒危険率は目的により異なる
例)
標本平均Xバー
中心極限定理によりnが十分大きければN(m,s^2/n)に従う
このとき、Xバーはに近い値をとり、離れた値をとる確率は低い
⇒Xバーが離れた値をとる確率がある水準(有意水準)以下となるとき
⇒棄却域にある⇒帰無仮説は棄却
⇒有意水準以上の確率であれば、棄却できない
※有意水準
=誤って帰無仮設を棄却する確率(リスクの大きさ)
=危険率
※帰無仮説は棄却されて初めて意味を持つ
_◇平均値の検定
①母分散既知
Z={(xバー – μ)*√n}/σ
μ:母平均
σ:母分散
標本平均:xバー
自由度:n-1
②母分散が未知
⇒正規分布に従う仮定
t={(xバー – μ)*√n}/S
S:標本標準偏差
_◇χ^2検定
偏りの検定:偏差二乗和の平均を用いる
Σ{Xi-m}^2
-----
m
⇒χ^2分布に従う
⇒設定した危険率のχ^2の値よりも大きければ「まれ」なことが起こったと判断できる
_◇Z検定
_◇t検定
◎ブートストラップ法
bootstrap method
※再標本化法
※モンテカルロ法
※基本的に変化しない母集団を想定

☆時系列分析

◆概要
_◇問題の構造
X(t) = Xuv(t) + ε(t)
Xuv(t):基底変動(サンプリング間隔よりも十分長い変動)
⇒時系列データの長さを長くすることで、より長周期のモードが基底変動のモードとして評価される可能性がある
ε(t):ゆらぎ、変動(fluctuation)
①決定論的ダイナミクス
②非決定論的ランダム雑音
※決定論的ダイナミクス部分
⇒さらに Xuv_i(t)+ε_i+1(t) のような多重構造を持つ
⇒フラクタル性がある
※孤立系でなく相互作用系
⇒無限の連鎖の相互作用は一般に非線形となる
_◇解析手法
①周波数領域解析(スペクトル解析)
A) FFT
窓に問題がある
B)自己回帰(AR)法
ゆらぎに問題
C)最大エントロピー法(MEM)
③時間領域
A)正弦振動関数の直接あてはめ
⇒反復⇒非線形最小二乗法(LSM)
⇒雑音、多重同期性に弱い
_◇時系列データの特徴
※定常性を解析の前提にすることは、現実の時系列解析では得るところが少ない
⇒非線形、非平衡、非定常
※時系列データへの統計の応用は目安でしかない
⇒時系列データの観測値の間には統計的独立性が仮定できない
_◇Bogoljubovマップ
ゴボリューホフマップ
  線形  非線形
∞┌──┬─────┐
 │  │     │初期カオス課程
 ├──┼─────┤
↑│  │     │運動論的過程
ω├──┼─────┤
 │  │     │流体力学的過程
0●──┴─────┘
 0 →      ∞
   熱平衡からのずれの振幅
●は熱平衡
_◇アンサンブル平均とエルゴート的信号
※アンサンブル(集合)平均
M台の測定器から、t共通の時刻に
x_1(t)~x_M(t)を得る
M→∞なら
^x(t)=lim[M→∞](1/M)∑[s=1,M]{x_s(t)}
定常的⇒
どの瞬間においてもアンサンブル平均が変化せず一定である信号
※エルゴート的信号
ある一台の測定器のT→∞の時間平均
xバー=lim[T→∞](1/T)∫[0,T]x(t)dt
と、アンダンブル平均~xが等しいならば、このような信号はエルゴート的である。
_◇パワースペクトラム密度(PSD)
※時系列データに対する唯一の完全なスペクトルを得ることは原理的に不可能
離散的観測、有限長⇒誤差
変換方法に由来する誤差
※PSD(Power Spectral density)
観測値の単位の二乗/Hz
⇒スペクトルの振幅表示の場合:PSDの平方根をとって
観測値の単位/Hz
※トータルパワーは0から∞の積分
⇒観測値の単位の二乗の単位となる
⇒時間平均Ptでもある
⇒通常、∞でなく計算できる全周波数範囲で積分し、近似値をとる
…◆自己回帰モデリング
◆自己回帰モデリング
_◇定常時系列モデルと非定常時系列モデル
定常時系列モデル
AR自己回帰モデル
MA移動平均モデル
ARMA自己回帰移動平均モデル
非定常時系列モデル
ARIMA自己回帰和分移動平均モデル
※時系列解析における定常化
大きさnの時系列 {y1, y2, …, yn} に対して
平均値
μ_t=E[y_t]=μ=constant
1≦t≦n
分散
var(y_t)=E[(y_t-μ_t)^2]=constant
1≦t≦n
自己共分散
cov(y_t, y_t+k)=E[(y_t-μ_t)(y_t+k-μ_t+k)]=constant
1≦t≦n
※非定常なデータ
⇒差分変換、対数変換、平方根変換。。。
⇒定常化する
_◇AR
Auto Regressiveモデル
確率過程 y_t (時系列 y1, y2, …, yn)が
y_t=φ1*y_t-1+φ2*y_t-2+…+φp*y_t-p+ε_t
ε_t:期待値ゼロ、分散一定のホワイトノイズ
φj(j=1,2,…,p)は係数
のとき⇒ytはp次の自己回帰過程/AR過程
_◇MA
Moving Averageモデル
時系列上の各データは、過去の誤差(ランダムショック)に影響される、と考えるモデル
y_t=ε_t-θ1ε_t-1-θ2ε_t-2-…-θqε_t-q
ε_t:期待値ゼロ、分散一定のホワイトノイズ
θj(j=1,2,…,q)は係数
⇒ランダムな誤差の線形結合
_◇ARMA
Auto Regressive Moving Averageモデル
p次の自己回帰家庭において、残差εtがq次の移動平均過程であるとき
y_t=
φ1*y_t-1+φ2*y_t-2+…+φp*y_t-p+ε_t
-θ1ε_t-1-θ2ε_t-2-…-θqε_t-q
⇒次数(p,q)の自己回帰移動平均過程(ARMA過程)
⇒ARMA(p,q)
q=0ARモデル
p=0MAモデル
_◇ARIMA
Auto Regressive Integrated Moving Average
※定常性
⇒モデル自身が発散しない
※時系列での平均値変動(平均値揺動)
⇒取り除くことでARMAモデルに
①時系列の差分をとる
②階差時系列に対してARMAモデルを適用する
⇒ARIMA
元の時系列データ
{y_t:t=1,2,…,n}
1次階差時系列
{x_t:t=1,2,…,n-1}
x_t=y_t-y_t-1
2次階差時系列
{z_t:t=1,2,…,n-2}
z_t=x_t-x_t-1=(y_t-y_t-1)-(y_t-1-y_t-2)
d階差の時系列にARMAを適用
⇒ARIMA(p,d,q)
⇒トレンドの平均値揺動が存在するか否かで階差をとり終わるdを決めるが、
時系列プロットを見る
自己相関関数の様子を見る
◆自己相関
_◇自己相関関数 acf
自己相関γhをh(時差、ラグ)の関数とみなしたもの
※自己相関コレログラムともいう
※以下ではτを遅れ時間(τは積分に関して定数と考える)
自己相関関数 A(t) は
A(t)=v(t)*v(t+τ)
の時間平均である
A(t)バー=lim[T→∞](1/T)∫[0,T]A(t)dt
R(t)=lim[T→∞](1/T)∫[0,T]v(t)*v(t+τ)dt
※τ=0のとき、二乗平均、R(t)の中で最大となる
⇒自己相関関数は、τ=0のときの値を1として規格化すればよい
_◇偏自己相関
Partial Autocorrelation
時刻t-hとtの間のh-1個の観測値の影響を除去した後のyt-hとytの相関関数
※偏相関係数
例えばx,y,zが対称であるとき、zの影響を除去した後のxとyの相関係数
◆DFA
Detrended Fluctuation Analysis
トレンド除去ゆらぎ解析
http://www3.bpe.es.osaka-u.ac.jp/~nakamura/DFA.htm
※モノフラクタル解析
時系列を1つの指数αで特徴づける
※マルチフラクタル解析
多くの指数
※生理学データなど非定常的データの解析
※時系列の長期相関特性
⇒Root mean square解析の応用手法
⇒トレンドをのぞいた残りのRMSを見る
◆FFT,DFT
_◇背景
周期Nの離散信号 x(0)~x(N-1)
から
周期Nの離散スペクトルX(0)~X(N-1)
を求める
※DFT
周期Nの離散フーリエ変換
⇒複素数演算N^2回
※FFT
Nを2^mに制限することで
⇒演算回数 N*log_2(N)/2回とすることができる
※暗黙の周期性の仮定がある
※フーリエ変換とその逆変換の間には双対性がある
※線形性
_◇窓
※切り出したデータの両端
⇒歪、高調波
①方形窓
②ハニング窓
③ハミング窓
④ガウス窓

☆データマイニング

予測変数の入手コストと基準変数の精度の利得とのバランスを考えてシステムを作る
◎概念
◆KDD
Knowledge Discovery in Databases
「有用で、かつ既知でない知識をデータから抽出する自明でない一連の手続き」
◆非線形性
線形、非線形にとらわれることなく、しかも特定の関数形に限定することなく、変数間の関数関係を発見できるということ
◆視覚化
data visualization
※多変量の背後に存在する知識を発見するための方法ではない
※分かり易く、客観的に示すためのプレゼンテーションの道具
◆交差妥当化
cross validation
※モデルの評価を行う場合に、そのモデルの母数の推定に用いたデータは利用せずに、それとは別に得られたデータへの当てはまりの良さを利用する方法
※母数の推定
平均値も母数の推定
⇒標本が多ければ安定、少ないと不安定
⇒母数の推定に十分な標本数以上があれば、交差妥当化は威力を発揮
※交差妥当化で選んだ最適モデルの予測、判別精度を別の検証用データで評価する場合は第3のデータセットが必要
_◇過剰適応、過剰訓練
過剰適応 over fitting
過剰訓練 over training
※母数の推定に利用したデータに関しては、複雑なモデルは単純なモデルよりも予測や判別の見かけ上の精度が高くなる。。。一般的性質
⇒いざ実践使用するとそれほどでもないことが多い
_◇交差検定
※generalization ability
新しい未知なるデータに対して正しく分類できる能力を汎化能力という
⇒汎化能力について評価を行うためには訓練に使用しなかったデータを用いなければならない。
⇒ホールドアウトデータを用いる。
⇒ホールドアウトデータを用いて評価を行うと訓練データを用いた場合よりも正答率は低くなる。
※訓練誤差 training error
⇒楽観的するぎる結果となる
※テスト誤差 testing error
⇒評価時には、訓練時に使用しなかったデータを用いて評価したテスト誤差を用いる
※交差検定
cross validation
①leave-out-out法
訓練データから一つデータを選び、それを取り除いたデータ集合でモデルを学習、訓練に用いなかったデータで評価する
◆最適性、一意性の保証の無さ
※BLUE
Best Linear Unbiased Estimator
⇒伝統的回帰モデル、線形な解の中では得られる解が最適であることが保証されている
※多くのデータマイニング手法には最適性、一意性の保証がない
⇒データマイニングでは、発見された知識が持つベネフィットが、その知識を発見するのに要したコストを上回れば分析は成功
◆データウエアハウス
_◇データウエアハウスの基本的性質
※用語
統計 データウエアハウス
変数(variable) 属性、列、フィールド
観測対象(observation) レコード、行
①時間的依存性
time dependent
時間に依存しないデータ以外には必ず時間を含める
②不揮発性
non-volatile
データを破棄することはない
データを書き換えることもない
③サブジェクト指向
subject oriented
データをサブジェクトごとに蓄積し、データへのアクセスをしやすくする
常にオンラインで保持し、即時的に利用できるようにする
④統合(integrated)
単位とフォーマットの統一
メタデータ(meta-data)=データの種類、場所、変数などを用意
_◇データの準備
※データの前処理
data preprocessing
データウエアハウス内の全データ⇒必要な部分のコピーを分析
⇒データマート data mart
⇒ほとんどの時間はこちらの処理に費やされる
①データ選択
data selection
分析目的に応じて変数を選択
※予測される変数(基準変数)と予測する変数(予測変数)の区別をするか否か
※具体的にどの変数を利用するか
②レコード再集計
データウエアハウス内のレコード=最小観測単位
⇒分析目的にあわせて再集計⇒レコード数は減少
※時間、空間、対象の観点で
③データの洗浄
data cleaning
※外れ値、欠測値、不整合データの除去、修正プロセス
※外れ値:そのまま残すか、レコードごと削除するか、予め決めたMAX/MINに変換する
※欠測値:レコード毎削除、平均値で補う
※不整合:修正、削除
④データの補強
data enrichment
※分析中のデータマートに外部から変数を加える
data merge
※ラグ付き変数の作成
別の時期(過去)の変数を加える
⑤データのコード化
data coding
分析目的に合わせて変数の表現を変える
◆決定木
decision tree
根(ルート)
ノード
判断はルートから一方方向
⇒決定木の中の部分木=枝、ブランチ
⇒ブランチの終点=ターミナルノード
親 ancestor
子 descendant
※決定木では、ルートに近い分岐を生じさせている変数が基準変数に対して強い影響力をもっていると解釈する。
※決定木は、その全体を用いて、各オブザベーションをターミナルノードに位置づける
⇒常に決定木全体を参照しなくとも断片的な知識でも有効な場合がある
⇒ルール生成、ルール抽出
⇒ルートのノードからターミナルノードに辿りながら抽出。
⇒ターミナルノードの数だけルールが生成される
_◇モデルの系譜
※オブザベーションの分類(classification)を目的とした
AID (Automatic Interaction Detector)
モーガンとソンキスト
当初は予測変数も基準変数も2値⇒質的変数
枝の分岐も2叉(2進木)
CHAID (Chi-squared AID)
カス
カイ2乗値
SIMS, C&RT, QUEST, CART, CID
※予測変数、基準変数が多値のカテゴリカル変数が分析できるようになった
※連続変数も分析できるように改良
_◇キンランのモデル
J. Ross Quinlan
ID3 Iterative Dichotomiser 3
※利得基準
⇒複雑すぎる分岐を促すため、利得比基準に改良された
⇒C4.5に改名。
_◇利得基準と情報量
決定木の分岐が生じる場所で計算される
⇒親ノードと子ノードの間
親ノードが有するオブザベーションの集合:S
推定用データのオブザベーション:J個の水準を持つカテゴりカルな基準変数Cによってc1,…,c_jに分割
事例集合Sから任意の事例をひとつ選んで、それがc_jである確率は、
p(S, c_j)= |S, c_j| / |S|
| | 集合の事例数を表す関数
|S| Sに含まれるすべての事例の数
|S, c_j| Sに含まれるc_jの事例の数
※情報量
底が2の対数で確率を変換し、-1をかけた値
例)8種類の等確率の情報
-log_2(1/8) = 3
⇒情報量の単位はビット
⇒ビットとは0か1の値をとる1個のダミー変数
⇒同じ状態を表現するなら情報量が小さいほうがゆおい
⇒情報量はエントロピーと呼ばれる
親ノードの集合Sにおけるc_jの情報量(定義により)
I(S, c_j) = -log_2(p(S, c_j))
集合SにおけるCの情報量⇒期待値をとる
I(C)=E|I(S,c_j)|=Σ[j=1:J]{p(S,c_j)*I(S, c_j)}
⇒予測変数を考慮しない場合の親ノードの平均情報量
予想変数を考慮した場合の平均情報量
親ノードのオブザベーションの集合がI個の水準をもつカテゴリカルな予測変数Tによってt1,…,t_i,…,t_Iのように分割され、それぞれが子ノードの候補となるとき
子ノードtiにおけるCの情報量は
I(t_i, C)=Σ[j=1:J]{p(t_i, c_j)*I(t_i, c_j)
集合SにおけるCの情報量は
I(C)_T=Σ[i=1:I]{p(S, t_i)*I(t_i, C)
ただし、
p(S, t_j)= |t_j|/|S|
⇒予測変数を考慮した場合の親ノードの平均情報量
※予測変数を考慮した場合と考慮しない場合の差を利得基準とする
G(C)_T = I(C) – I(C)_T
G(C)_Tを候補に挙がったすべての予測変数に関して計算し、値が最大になった予測変数で分岐を行うようにして決定木を成長させる
◎ニューラルネット
※心理学における「学習」の定義
「生体の、経験にもとづく比較的持続的な行動の変容」
※ニューラルネット
事例を参照し、自らの構造を変化させて自分で賢くなることができる
◆脳の神経細胞の概要とモデル
_◇神経細胞
neuron
細胞体 soma
演算部
樹状突起 dendrite
入力部、通常、一つの細胞体から数十本
軸索 axon
出力部、末端にシナプス(synapse)。
シナプスから他の細胞に情報がわたされる
※閾値(threshold)
神経細胞が興奮する臨界の膜電位
※興奮か平静化という離散的な情報を伝える
※シナプス
軸索側。。。プリシナプス
シナプス間隙(神経伝達物質)
樹状突起側。。ポストシナプス―シナプス後膜―レセプター
※プリシナプスには興奮性と抑制性がある
⇒放出する伝達物質が異なる
興奮性⇒電位上げ
抑制性⇒電位下げ
_◇脳の学習
※神経細胞間の結合の変化
構造は変化しないが、変化頻度が高いプリシナプスは伝達物質を多く放出するようになり、後方への影響が大きくなる⇒結合強化。
_◇マッカロとピッツのモデル
ニューロンに入力された刺激の重みつき和が
ニューロンの閾値よりも大きい場合は1
そうでない場合は0
┌──┐     wi1 ┌──┐
│β1├─y1─────→┤  │
└──┘     wi2 │  │ yi1
┌──┐    ┌───→┤βi├─→
│β2├─y2─┘wij │  │
└──┘    ┌───→┤  │
。。。     │    └──┘
┌──┐    │
│βj├─yj─┘
└──┘
β:閾値
w:重み
y:0か1の出力信号
xi=Σ[j]w_ij*yj
yi= {1, xi≧βi
{0, xi<βi
※線形閾値関数
⇒不連続なのでシステム全体を微分できない
※論理演算を実現可能だが、マッカロ、ピッツモデルでは重み固定であったので学習法則は示せなかった
⇒ヘブが「使われる結合は強化される」という考えの学習法則を取り入れた
⇒実際に問題解決に使うことができるモデルはローゼンプラットのパーセプトロン(1958)
⇒パーセプトロンは線形分離可能問題しか解けないことが判明する
_◇階層型ネットワークモデル
※階層型(feedforward)ネットワークモデル
現代パーセプトロン
①層状の複数のユニットとそれらのユニットのつながりによって構成される。
②情報は第1層から第a層まで順にデータの変換の形で伝達され、逆戻りしない。
③第2層から第a層での変換はシグモイド関数で行われる
⇒第1層は入力層
⇒第a層は出力層⇒その値が出力信号
④ユニット内部での信号変換は区間(-∞,+∞大)から区間(0,1)への非線形写像
※入力データ
刺激信号、入力信号
統計学的には
予測変数、独立変数、説明変数
※出力信号
統計学的には
規準変数、従属変数、被説明変数
※シグモイド関数による信号変換
⇒S字関数
⇒ロジスティック関数(など)
i層
j第i層を形成する個々のユニット
第i層のユニットの数はb_i個
β_ijユニットijの閾値
y_ij = 1 / { 1 + exp{-x_ij – β_ij}
※隠れ層(hidden layer)
中間層
⇒第2層から第a-1層まで
※ユニット間の信号変換
①同一層内のユニット間では情報の伝達はない
②第i-1層のユニットから出力された信号は
x_ij = Σ[k=1:b_i-1]w_ijk*y_i-1_k
上記式のように第i層のj番目のユニットの入力信号となる
⇒w_ijkはユニットkとユニットjの結びつきの強さを表す重み
※ネットワークトポロジー
層の数a,各層内のユニット数b_iで表現する
例)
A(a=3, b1=2, b2=5, b3=1)
⇒層数3, 入力層ユニット数2、中間層ユニット数5、出力層ユニット数1
⇒第1層と最終層をユニット数は学習課題によって決定される。
_◇階層型ネットワークモデルの構造モデルとその例
a(a=3, b1=2, b2=5, b3=1)
中間層は1、一つの隠れ層をもつモデル
⇒多変量解析における非線形な重回帰モデル
⇒判別モデル
b(a=3, b1=3, b2=8, b3=2)
中間層は1、一つの隠れ層をもつモデル
⇒基準変数が複数あるネットワーク
⇒非線形な多変量重回帰モデル
c(a=4, b1=2, b2=5, b3=5, b4=1)
2つの隠れ層をもつ
d(a=5, b1=3, b2=5, b3=2, b4=5, b5=3)
3つの隠れ層を持つ
⇒砂時計型(ワイングラス型)ネットワーク
⇒多変量解析における非線形主成分分析
⇒情報縮約⇒第3層が非線形主成分
⇒第2層がインコード、第4層がデコード
※通常は隠れ層1層の利用が太井
⇒非線形の程度が激しい場合は隠れ層2層のモデルが用いられる
_◇逆伝播学習
BP, back propagation
※一般化デルタルールとも呼ばれる
※教師刺激(あるいは教師信号)
z_aj(j=1,…,ba)
⇒統計学的には母数の推定に利用する基準変数
⇒教師刺激にできるだけ似た反応を得るため⇒最小二乗法
※ネットワークモデルに適用する最小二乗法
※逐次学習 incremental learning
e^(m) = (1/2)*Σ[j=1:b_a](y_aj-z_j)^2
⇒m番目の出力刺激と教師刺激の組毎の誤差を小さくする
⇒最小化される関数を評価関数、目的関数という。
⇒発達モデルとしては適する
①最初の刺激の組に関して正確度や収束基準と呼ばれる設定値εよりも小さくなるように重みを変更する
②2番目以降n番目まで順に重みを変更する(前の値は悪くなるかもしれない)
③①と②の過程をn個の評価関数の全ての値がεより小さくなるまで繰り返す
※一括学習 batch learning
評価関数
E=Σ[m=1:n]e^(m)
⇒刺激の組の全体に関する二乗誤差の和を評価関数とみて重みを変更する
⇒Eの値がεxnよりも小さくなれば学習を終了する
⇒修正回数、学習時間としては逐次学習より少ないことが多い
⇒統計モデルとしては自然
※実際のデータ解析では予め設定した基準を満たせないことも多い
⇒予め設定した学習回数あるいは学習時間で打ち切ることもある
_◇学習パラメータと最急降下法、慣性法
※学習パラメータ
重みw_iklを縦につないで
θ={w_111, … , w_ikl …}’(転置)
と母数ベクトルとして表現する
⇒学習開始時点では、乱数などが入っている 初期値θ1
⇒関数の最小値を与える変数の値に近づけるために添え字hの値を増加させながら
θ_h+1 = θ_h + Δθ_h
のように更新する。
⇒ニューラルネットの場合(最急降下法)
Δθ_h = -η*g_h
g_hは目的関数のθによる導関数をθ_hで評価した値。
η=学習係数あるいはステップサイズ、変化量に関数の傾きをどれだけ反映させるか
⇒ηが小さすぎるとなかなか収束しない。大きすぎると解の周辺を漂う。
最急降下法は解の近傍で振動を起こしやすい
※慣性法
Δθ_h = -η*g_h + αΔθ_h-1
⇒一つ前の変化量もα(モーメント、慣性項)を乗じて加える
※導関数
逆伝播では、下層の導関数が上層の導関数によって再帰的に表現される
_◇判別モデル
※入力層=第1層のユニット層
予測変数の数によって決まる
※出力層
解こうとしている課題によって決まる
例)真偽の判定ならユニットは一つ
※教師信号
例)真偽の判定なら真偽値
※中間層(隠れ層)
分析者の裁量
⇒ユニット数が少ない⇒学習成績悪いが学習結果は安定
⇒ユニット数が多い⇒複雑な関数を表現できる⇒過学習の懸念が生じる
※学習係数η、慣性項α
※予測変数の選び方
⇒当該の実質科学的理由によって予測変数を選ぶ(回帰分析と同じ)
⇒ニューラルネットにはある要因が基準変数と関係していることが主観的にもあきらかならば、具体的な関係が分からなくても予測精度が向上する特徴がある⇒ネットの非線形フィッティングによる
⇒分析に利用可能なデータが多い場合:予測変数を多くする
⇒データが少ない:予測変数を精選した方が分析結果が安定する
_◇前処理
理由の明らかな特異データなどを除く
◆予測モテルと予測課題
_◇ゼロサム予測
一定の富を奪い合う行為の予測
※安定的に成功する再現可能な科学的命題というものは存在しない
_◇非ゼロサム予測
※ゼロサム予測と比べて結果が安定
_◇時系列モデル作成の要点
※訓練期間のデータ
⇒推定用、交差妥当化用に分ける
例)推定7、交差妥当化3になるように無作為抽出
⇒推定データの割合高ければ標準誤差小、しかし訓練データへの過剰適応ありえる
⇒推定データの割合低ければ母数推定不安定
⇒一般の統計モデルはデータの構造(母集団)が変化しなければ推定データが多いほど精度がよくなる
⇒時系列モデル⇒母集団変化(状況が大きく変化したら前のデータは使わない方がよい。)⇒小変化の連続⇒絶えず訓練期間のやりなおし(期間は長すぎても短すぎても×)
※検証、評価、モデル使用期間
モデル作成後の一定期間
◆自己組織化マップ
※分類やポジショニングに利用される数理モデル
※ニューラルネットの一種
※コホーネンネットとも呼ばれる
◆連関規則
◆決定木

☆ノイズの解析

※多次元正規分布

☆情報理論

◆エントロピー
平均情報量
ある文字系A1,A2,…,Anでそれぞれの文字が使われる確率をp1,p2,…,pnとすると、それぞれの文字が持つ情報量は、
-log(2)p1, -log(2)p2, … , -log(2)pn
あるいは H = log(2) (1/p) ビット
平均 E は、
E = p1*(-log(2)p1) + p2*(-log(2)p2) + … +
pn*(-log(2)pn)
これをエントロピーという。確率が全て等しい(1/n)のとき、エントロピーは log(2)n となる。
※物理におけるエントロピー
「ありえる状態数の対数」
(システムの無秩序さの程度を表す)
※確率が1に近い事象の情報量は0に近い
⇒確率が1である事象の情報量は0である。
⇒確率が0に近い事象の情報量は大きい
情報量 I(P = -log(2){P} ビット
◆ランダム現象
◆シャノンの基本定理
文字系による通信に必要な1文字あたりの平均ビット数は、エントロピーより少なくすることはできない。(近づけることはできる。)
ある文字系の各文字を0と1の組み合わせで表すとき、1文字あたりのビット数の期待値Lはその文字系の平均情報量Hより小さくできない。

☆画像数学

◆信号検出
仮説検定の考え方の応用
信号なのか、雑音なのかを判定する問題。
つねに雑音は存在する。
信号とは信号+雑音であり、雑音は雑音のみのこと
_◇感度と特異度
※真の陽性
信号を信号であると正しく判定すること
※真の陰性
雑音を雑音であると正しく判定すること
※感度 sensitivity
感度(%)=(真の陽性数/信号数)*100
※特異度 speciality
特異度(%)=(真の陰性数/信号数)*100
※感度、特異度の両方が高い方が良いか、一般に、一方が高くなると他方が下がる
⇒2つの分布は若干の重なりを持つ分布となる
※縦軸に度数、横軸に判定基準につかう値をとったグラフを描くと、雑音と信号の分布は若干の重なりをもった形となる。
⇒横軸のある位置kを判断基準の位置とすると
信号であるにもかかわらず雑音と判断される誤り⇒偽陰性
雑音であるにもかかわらず信号であると判定する誤り⇒偽陽性
偽陰性(%)=100%-感度=(偽陰性数/信号数)*100
偽陽性(%)=100%-特異度=(偽陽性数/信号数)*100
_◇刺激、反応行列と条件つき確率分布
反応
YESNO
刺激 信号 [真の陽性 偽陰性]
雑音[偽陽性真の陰性]
※信号が与えられたときの条件つき確率密度関数
f(x|s)
※雑音が与えられたときの、条件つき確率密度関数
f(x|n)
判断基準位置kにより
A=∫[k:∞]f(x|s)dx=P(S|s) 真の陽性の確率
B=∫[-∞:k]f(x|s)dx=P(N|s) 偽陰性の確率
C=∫[k:∞]f(x|n)dx=P(S|n) 偽陽性の確率
D=∫[-∞:k]f(x|n)dx=P(N|n) 真の陰性の確率
P(N|s)=1-P(S|s)
P(N|n)=1-P(S|n)
※基準位置kをとる位置によって4つの確立の大きさがかわる
※尤度比
f(x|s)
——=λ(x)
f(x|n)
xにはSまたはNが入る。
⇒ROC曲線の傾き
◆ROC
Receiver Operating Characteristic
受信者動作特性
⇒雑音が含まれる信号の中から、ある特定の弱い信号を検出する目的に使われる

☆決定理論

decision theory

☆数理計画法


☆OR

◆在庫モデル
inventory
◆配分
allocation
_◇線形計画法
_◇ダイナミックプログラミング
◆順序づけ、経路
sequencing & routing
※巡回セールスマン問題
◆取替え
replacement
◆待ち行列
queuing
◆競合のあるモデル
competition
※ゲーム理論
◆探索モデル
searching
◆シミュレーション
simulation

☆ゲーム理論

◆ミニマックス定理

☆暗号

◆用語
平文(ひらぶん)plaintext
暗号文(あんごうぶん)ciphertext
共通鍵暗号(Symmetric-key Cipher)
暗号化と復号化の鍵が同じ。鍵が送信者と受信者の間で共有されている必要がある。
公開鍵暗号(Public-key Cipher)
非対称鍵暗号。暗号化と復号化に異なる鍵を用いる。閉める鍵(公開鍵,public key)とあける鍵(秘密鍵,secret key)が異なる。
8 + 9 ≡ 5 (mod 12)
「8プラス9は、12を法として5に合同」
_◇伝統名
暗号を送る人。。。アリス
暗号を受け取る人。。。ボブ
暗号を盗み見る人。。。イヴ
◆暗号の役割
①守秘 情報を秘密に伝える
②認証 相手の身元を確かめる
◆歴史上の暗号
①スキュタレー暗号(前500年ごろ、スパルタ人)
②シーザ暗号(Julius Caesar考案)
c=x+n;
③ドイツのエニグマ暗号
英Turingにより解読されたとの話があるが、実はそうでない?
④日本の紫暗号(97式欧文印字機)
装置が行き渡らなかったために、同じ内容の文を、既に解読されていた前世代の赤暗号でも送っていた。そのため多数のサンプルがあり解読が進んだ。
_◇文学上
黄金虫暗号。。。エドガー・アラン・ポー
踊る人形暗号。。。コナンドイル
◆Vernam暗号
Shannonにより暗号化に使われる数列を知らなければ絶対に解読できないことが証明されている。
c[i]=x[i]+n[i];
※ワンタイムパッド法
◎ブロック暗号
◆DES (Data Encryption Standard)
1974年に米商務省標準局(NBS)が公募し、IBMがFeistel設計によるLucifer暗号で応募、1977に正式採用され、1981年にANSI標準となる。
※デスと発音するのが普通
※共通鍵暗号
※歴史上初めて商用利用可能となった画期的な暗号化方式(それ以前は、暗号アルゴリズムを非公開にすることによって安全性が確保されるという考えだった)
※DESのアルゴリズム
①平文8文字=64ビットをブロックとする。
②基本演算は二つ
加算:右32ビットと1段の鍵48ビットからから
S-BOXを使って値をつくりこれを
左32ビットにXORする。
転置:左右32ビットを交換
③上記の基本演算を16回繰り返す。
④上記の基本演算の前後に桁の入れ替えを行う。
⑤鍵は各段48ビットで計768ビット必要である
これは56ビットから桁を並び替え抽出するビットを
変えることで鍵を生成する。
※2008年の技術レベルではDESの56ビットのキーサイズを解読に必要な時間は24時間以下。
→トリプルDESにより実用強度をなんとか保つ
◆複数ブロックの暗号化モード
FIPS PUB-81
SP800-38A
①ECB(Electrnic Code Book)モード
単純に64ビット毎に暗号化。同一平文がつづくと同一暗号文がつづいてしまう。
②CBC(Cipher Block Chaining)モード
最初の平文64ビットに対して初期ベクタ64ビットをXORしてからDESをかける。次からは前のブロックのDES結果をベクタとして使う。同一平文でも暗号文が異なるが、途中誤りがあると復号できなくなる。
③CFB(Cipher FeedBack)モード
平文を任意のビット数(1~64)ずつ暗号化する。DESはXORする値を生成するために使われる。初期ベクタを暗号化し、その結果から事前に決めたビット数を平文にXORして送信する。送った暗号文をさらにベクタにして次の値を作り出す。
④OFB(Output FeedBack)モード
平文を任意のビット数(1~64)ずつ暗号化する。DESはXORする値を生成するために使われる。初期ベクタを暗号化し、その結果から事前に決めたビット数を平文にXORして送信する。CFBとの違いは、送る暗号文はDESに反映しないので、ビットエラーがあっても次の復号には影響しなくなる点。しかし、暗号文の数が抜けると全て復号ができなくなる。
⑤CTR(Counter)モード
1979年にディフィーとヘルマンによって提案される
ブロック毎の完全並列化処理できる
_◇CTRモード
カウンタ系列T1,…Tnにより
暗号化:
Oj = Ek(Tj) j=1,…,n
Cj = Pj ^ Oj j=1,…,n
Cn = Pn ^ MSB_u(On)
復号化:
Oj = Ek(Tj) j=1,…,n
Pj = Cj ^ Oj j=1,…,n
Pn = Cn ^ MSB_u(On)
uは最後の平文、暗号文のビット長
※カウンタ系列の生成
mビットのデータ。。。2^m未満の数で表現できる
mビットのxに対して
(x+1) mod 2^m
を標準インクリメント関数とする
bビットを1ブロックとするブロック暗号に対して、下位m(m<b)を標準インクリメント関数の値とし、残りb-mビットをナンスとする。
ナンス(message nonce)
セッションをユニークにするための一時的なデータ
◆3-DES
DESのままで、鍵のビット数を増やすために、
第1の鍵でDES暗号化
第2の鍵でDES復号化
第1の鍵でDES暗号化
する方法。第1と第2で同じ鍵を使うと前2段が相殺して、単なるDESとなる。
◆AES (Advanced Encryption Standard)
ブロック暗号で、平文は128ビット、鍵は128ビット、192ビット、256ビット。(入力は固定長だが、鍵長は3種類)
NBSの後継NIST(米商務省標準技術協会)が1997年に公募し、2000年10月2日に決定、翌年11月26日に連邦情報処理標準となった。
※NIST FIPS 197
※ベルギーのDaemen(Banksys社)とRijmen(レーベンカトリック大)が設計したRijndaelが元になっているが、入力文のサイズが固定となり、鍵長も3種類限定となった
※共通鍵暗号
_◇基本構成
入力をばらして、鍵と混ぜ合わせる操作を所定の回数繰り返す。
※入力文のサイズ
128ビット固定
※鍵長とラウンド数
1ワードは4バイト
Nk:鍵長
Nr:ラウンド数
Nr=Nk+6
AES-128 Nk=4 Nr=10
AES-192 Nk=6 Nr=12
AES-256 Nk=8 Nr=14
※暗号化部
ラウンド処理-Nr回繰り返す
①平文を初期処理に入力
初期処理用鍵RK0
②第1ラウンド処理~第Nr-1ラウンド処理
第1~第Nr-1ラウンド鍵RK1~RKNr-1
③第Nrラウンド処理
第Nrラウンド鍵RKNr
最終ラウンドのみ構成異なる
※鍵拡張部
共通鍵からRK0~RKNrを生成する
_◇暗号化処理
①初期処理
AddRoundKey <- RK0
②第1~Nr-1ラウンド
SubBytes
ShiftRows
MixColumns
AddRoundKey <- RKn
③第Nrラウンド
SubBytes
ShiftRows
AddRoundKey <- RKNr
_◇復号化処理
①第Nrラウンド
AddRoundKey <- RKNr
InvShiftRows
InvSubBytes
②第1~Nr-1ラウンド
AddRoundKey <- RKn
InvMixColumns
InvShiftRows
InvSubBytes
③最終処理
AddRoundKey <- RK0
◆他のブロック暗号
① MULTI2 日立 BS,CS加入者むけスクランブル
② IDEA (International Data Encrypt Algorithm)
1991 スイスLai, Messey + Ascom
個人利用は無料。PGPでも使われる
③ RC5 Rivest開発, RCシリーズ5番目。柔軟性。
④ MISTY1,2 三菱電機、松井
⑤ KASUMI MISTYの改造版, W-CDMA
⑥ SC2000 富士通
⑦ Hierocrypt-3 東芝
⑧ Camellia NTT+三菱
◎ストリーム暗号
アルゴリズム非公開の軍事分野では古くから使われているが、現代暗号としては研究があまり進んでいない。
RC4 WWWデータの暗号化
A5 GSMの音声秘匿技術(Shamirにより解析される)
KASUMIに代わる
SEAL IBM
MULTI-S01 日立(米国製PANAMA理論)
◎公開鍵暗号
1976 DiffieとHellmanによって発案
Diffie-Hellman Key Exchange
1777 RSA暗号として発明(Rivest, Shamir, Adleman)
1979 Rabin暗号発明さる
1982 Elgamal暗号発明さる
1985 楕円曲線暗号発明さる
公開鍵で暗号化した暗号文は、対応する秘密鍵でしか復号できない。これにより事前に暗号鍵を双方で持ち合う必要が無くなる。
※公開鍵暗号による認証
秘密鍵で暗号化した暗号文は、対応する公開鍵でしか復号できない。これにより送った平文を公開鍵で復号できる相手は秘密鍵を持っていることを認証できる。
※公開鍵暗号の計算量問題
巨大な数の巨大な回数のべき乗、巨大な数を法とするmod計算が頻出するので、素のままでは計算不能。算法を工夫して計算量と桁数を落とすがそれでも計算時間がかかる。
※共通鍵暗号とのハイブリッド方式
共通鍵を公開鍵暗号を使って暗号化しておくり、通信内容は共通鍵暗号による。
※公開鍵の所有者問題
公開鍵と持ち主の対応を信用できるようにCA(Certificate Authority)をもうけ、ここの公開鍵だけを絶対に信用できるような方法で公開することで、後はCA経由で公開鍵を入手することで認証する。
◆RSA暗号
素数どうしの掛け算が容易であるのに、逆の素因数分解が困難であることを利用した公開鍵暗号。
_◇原理
異なる二つの素数を掛けた数を法(modをとる)とする世界では、数はべき乗されるたびに予想できない数に変化しながらも、あるべき乗数になると突然全ての数が自分自身に戻る。
このべき乗数は、用いる二つの素数P-1,Q-1に対して
(P-1とQ-1の最小公倍数+1)乗
で最初におき、(P-1とQ-1の最小公倍数)を足す度に起きる。
(P-1とQ-1の最小公倍数)*n+1 乗
P*Qを法とする世界で、平文の数値をある適当な回数だけべき乗する。これを暗号化とし、べき乗の回数を公開鍵とする。復号は自分自身に戻るようにさらにべき乗(このべき乗の数が秘密鍵となる)する。
異なる二つの素数を掛けた数を法(modをとる)とする世界では割り算が単純にできないことが、暗号の背景としてある。※暗号化のためには、法とする値P*Qと、公開鍵Eを公開する必要がある。P*Qを公開してもPとQに素因数分解することが困難であることが安全性を担保している。
※現在のRSA暗号では、P,Qは150~300桁の素数であり、300~600桁のP*Qを使っている。
_◇別解説
送信者A
受信者B
①Bは2つの大きな素数p, q(p≠q)を用意し、
N = p * q
および
L = lcm(p-1, q-1)
を計算しておく。
※p, q は2008年では512~1024ビット程度の長さ
※lcm(a, b) : least common multiple
さらに
e * d ≡ 1 (mod L)
となるような e, d を選ぶ。
※e * d ≡ 1 (mod L)とは、ed – 1 が L の倍数であることを意味する。
②(e, N)を公開鍵として公開する
N を公開モジュラス
e を公開指数
と呼ぶ
※一方 d を秘密指数 (d, N)を秘密鍵と呼ぶ
③Aは、1≦M<Nを満たす整数で表されたメッセージMを用意し、Mを公開鍵(e, N)で暗号化した暗号文Cを作って送付する。Bは、秘密鍵(d, N)で復号する
C = M^e mod N
M = C^d mod N
※このような計算をべき乗剰余計算という。
※復号処理がうまく行くためには
gcd(M, N) = 1
である必要がある。
※gcd(M, N) : greatest common divisor
数値例)
p = 7, q = 11
N = 7 * 11 = 77
L = lcm(7-1, 11-1) = lcm(6, 10) = 30
公開指数eと秘密指数dとして
e=7, d=13
を選ぶ
7 * 13 – 1 = 91 – 1= 90 = 3 * 30
より、このe, dはLの倍数である。
よって公開鍵は (e, N) = (7, 77)
秘密鍵は(d N) = (13, 77)
メッセージはgcd(M,77)=1を満たす必要あり
M=17とする。
C = M^e mod N
= 17^7 mod 77 = 410338673 mod 77 = 52 … 暗号文
C^d mod N = 52^13 mod 77 = … = 17
※gcd(M,N)=1でなければ復号できないが、Nは巨大な素数の積なので、gcd(M,N)=1とならない確率は非常に小さい。
_◇モジュラー演算
① a ≡ b (mod m) とは、a – b が m の倍数であること。
② a mod m とは、a を m で割った余り(剰余)のこと
※余りとしては、0以上 m 未満の数を表すとする、と処理しやすい。
※足し算、引き算、掛け算は自由にできる
a ≡ c (mod m)
b ≡ d (mod m)
のとき
M1) a + b ≡ c + d (mod m)
M2) a – b ≡ c – d (mod m)
M3) a * b ≡ c * d (mod m)
※いつでも割り算ができるわけではない
※a の法 m における逆数
a * x ≡ 1 (mod m)
となるようなxがもしあれば、aの法mにおける逆数といい、
a^-1 (mod m)
と書く。
※a が法 m のもとで逆数を持つための必要十分条件は、
gcd(a, m) = 1
※公開指数と秘密指数は
e * d ≡ 1 (mod L)
という関係式であるので、法Lのもとで互いに逆数の関係になり得る。したがって、e, dは、
gcd(e, L) = 1
gcd(d, L) = 1
であるものを選ぶ。
_◇必要な算法
①512ビット、1024ビットといった大きな数の計算
②乱数の生成
③素数p,qの生成
④最大公約数の計算
⑤最小公倍数の計算
⑥公開指数、秘密指数の計算
⑦べき剰余計算
※a,b の最大公約数gcd(a, b)と最小公倍数lcm(a,b)の間の関係
lcm(a, b) = a*b/gcd(a, b)
_◇ユークリッド互除法
すべて正の整数であるとする。
※アルゴリズム
Input: a, b
Output: gcd(a, b)
[STEP 1]aをbで割った余りをrとし、r≠0である間、以下を繰り返す
[STEP 1-1]a=rとする
[STEP 1-2]aとbを入れ替える
[STEP 2]bを出力して終了する
_◇バイナリ・ユークリッド互除法
割り算を使わず、偶奇判定とシフトにより同等な処理を行う
①a,b がともに偶数なら、gcd(a,b)=2*gcd(a/2, b/2)
②aだけが偶数で、bが奇数なら gcd(a,b)=gcd(a/2,b)
③a,bがともに奇数のときは、 a-bは偶数になる
※アルゴリズム
Input: a, b
Output: gcd(a, b)
[STEP 1]g=1とおく
[STEP 2]a>0が満たされる間、以下を繰り返し:
[STEP 2-1]aが偶数であり、かつbも偶数であるとき
a=a/2,b=b/2,g=2*gとして[STEP 2]に戻る
[STEP 2-2]aが偶数、かつbは奇数であるとき
a=a/2とし[STEP 2]に戻る
[STEP 2-3]aが奇数、かつbが偶数であるとき
b=b/2とし[STEP 2]に戻る
[STEP 2-4]aが奇数であり、かつbも奇数であるとき、
t=|a – b|/2に対し、
もしa≧bであれば a=t,
もしa<bであれば b=tとして[STEP 2]に戻る
[STEP 3]g=gbを出力して終了する
aをbで割った余りをrとし、r≠0である間、以下を繰り返す
[STEP 1-1]a=rとする
[STEP 1-2]aとbを入れ替える
_◇拡張ユークリッド互除法
公開指数 e と秘密指数 d を計算するために用いられる。
e*d ≡ 1 (mod L)
例)p=11,q=7ならば L=lcm(11-1,7-1)=30
より e * d ≡ 1 (mod 30)
となる組は
(e,d)=(7,13),(11,11),(13,7),(17,23),(19,19)
※セキュリティ上はgcd(e,L)=1だけでは十分安全ではない。
d を求めるためには
e*d = 1 + L * k
k:整数
なる不定方程式を解かねば成らない。(不定方程式なので、答えは一つに定まらず、また、無いこともある)
拡張ユークリッド互除法は、ゼロでない2つの整数a, bに対し不定方程式:
a*x + b*y = gcd(a,b)
を満たす整数x,yとa,bの最大公約数gcd(a,b)を同時に求めるアルゴリズムである。
※無限にある組み合わせのうちの一つが求まる
※a,bは正とするが、例えば負のyが得られた場合もz=-yとおいてzで書き直せばよいので、正負は制約とはならない。
e * d + L * k = gcd(e,L) = 1
で、eとLが判明しているとき(a, bに相当)d, k(x, y)を求める。
※アルゴリズム
Input: a, b
Output: x, y, gcd(a, b)
[STEP 1]x0=1, x1=0, y0=0, y1=1, r_0=a, r_1=b, j=0
[STEP 2]r_j+1=0でない間,jを1ずつ増加させつつ、以下を繰り返し:
[STEP 2-1]r_jをr_j+1で割ったときの商をq_j+2,余りをr_j+2とする。
[STEP 2-2]以下を計算する。
x_j+2=x_j – q_j+2 * x_j+1,
y_j+2=y_j – q_j+2 + y_j+1
[STEP 3]gcd(a,b)=rj, x=xj, y=yjを出力して終了
※実際にdを求めるときにはyは不要。gcd(a, b)も1になるような値を選ぶので計算不要。
※xが負の数のなった場合は、Lの倍数を足して正の値にすればよい。
※指数計算(逆数計算)のアルゴリズム
Input: e, L (L=lcm(p-1,q-1))(gcd(e,L)=1)
Output: d = (e^-1) mod L
[STEP1] d0=1, d1=0, r0=e, r1=L, j=0
[STEP2]r_j+1=0でない間,jを1ずつ増加させつつ、以下を繰り返す
[STEP2-1]r_jをr_j+1で割ったときの商をq_j+2,余りをr_j+2とする
[STEP2-2]d_j+2=d_j-q_j+2*d_j+1を計算する
[STEP3]d=d_j+1を出力して停止。ただし、dが負であればLの倍数を加えて正の値としてものを出力。
※公開指数として所定の小さな数を使うものがあるが、危険性があり、大きな乱数を使う。その際、gcd(e,L)=1となるように選ばなければならないが、
L=lcm(p-1,q-1)は、偶数となる
ので、eとして奇数をとればよい。
◆素数
_◇素数の発見方法
①順番に調べる
②素数を生み出し易い式を使う。(必ず素数を生み出す式は無い。)
n^2+n+41
4*n^2+4*n+59
4*n^2+170*n+1877
③適当に浮かんだ数が素数かどうかチェックする。
_◇素数判定法
①フェルマーの小定理
「ある数nが素数なら、nを法とする世界の全ての数がn-1乗で必ず1になる。」
全ての数について調べるのは現実的ではない。たまたま素数ではないのに、特定の数のn-1乗が1になる擬素数があるが、複数個しらべれば、まずは見破れる。
※カーマイケル数
素数そっくりに多くの数でフェルマーの小定理を満たすもの。例561。
②Miller-Rabin法
※2,3,5,7を使って誤判定する250億以下の唯一の数
3215031751
◆素因数分解
素因数分解は難しい(多大な計算時間がかかる)
_◇RSA factoring challenge
※RSA-640 … 640bitの数
2005/11に解かれたが、一般数体ふるいというアルゴリズムを実装した80個の2.2GHz opteronプロセッサで5ヶ月を要した。
http://mathworld.wolfram.com/news/2005-11-08/rsa-640/
◆一方向関数
one way function
今のところ、一方向関数であると数学的に証明されたものは知られていない。
一方向関数だと信じられているもの
素数どうしの掛け算(容易)
素因数分解(困難)
◆Elgamal暗号
※離散対数問題
素数Pを法とする世界には、べき乗すると全ての数に変化できる原始元と呼ぶ数が存在する。(原始元ではべき乗結果とべき乗数が1対1の対応になっている)原始元のべき乗結果から何乗したかを求める問題を離散対数問題と呼ぶ。
双方で、素数Pを法とする世界で原始元をそれぞれの秘密鍵をつかってべき乗し、その結果をそれぞれの公開鍵として交換する。それぞれ相手の公開鍵を自分の秘密鍵でべき乗することで共通の鍵とし、送信側は平文に共通の鍵を乗じることで暗号化し、、受信側は共通鍵で割ることで復号する。
◆PKCS (Public-Key Cryptography Standards)
PKCS#1 RSA暗号署名に関する標準
PKCS#3 Diffie-Hellman鍵共有に関する標準
PKCS#5 パスワードベースの暗号標準
PKCS#6 拡張証明書の形式に関する標準
PKCS#7 暗号メッセージの形式に関する標準
PKCS#8 秘密鍵情報の形式に関する標準
PKCS#9 属性タイプに関する標準
PKCS#10 証明書要求(CSR)に関する標準
PKCS#11 暗号トークン(ユーザ認証データ)のインタフェースに関する標準
PKCS#12 個人情報交換の形式に関する標準
PKCS#13 楕円曲線暗号に関する標準
PKCS#15 暗号トークンのフォーマット標準
◆楕円曲線暗号
y^2 = x^3 + αx + β
Weierstrass型の楕円曲線上の点についての、点と点との間の計算に離散対数問題と同様の問題が存在する。従来の離散対数問題より難しい。
◎攻撃法
◆ブロック暗号の攻撃法
_◇差分解読法
1989年, BihamとShamirが発見。
※しかし、DES設計者は1974年に既に発見し、DESに対策を組み込んでいた。
※差分=排他的論理和
未知の鍵データKがデータa,bに排他的論理和されたとき
(a ^ K) ^ (b ^ K) = (a ^ b) ^ (K ^ K) = a ^ b
となって、鍵Kが消えてしまう。
※暗号文の差分を調べ、これに偏りがあると、それを手がかりにして鍵の候補を絞っていくことができる
_◇線形解読法
1993年, 三菱電機松井充が発見。1994年に世界初のDES解読に成功した。
◆サイドチャネル攻撃
暗号理論でなく、暗号処理する際の処理時間や消費電力などの情報をつかって行う攻撃
①SPA (Simple Power Analysis)
②DPA (Differential Power Analysis)
ICカードに記録されたDES鍵を求める実験に成功
※対策:計算時間や消費電力を一定にしたり、ノイズをのせる。
◎乱数
統計的一様性 出現頻度のかたよりがない
無相関性 ある数が他の数の出現に影響しない
非線形性 数の予測が不可能
長周期性 出現パターンの繰り返しが短くない
真性乱数 truly-random numbers
自然界の揺らぎを利用して作られた乱数。
擬似乱数 pseudo-random numbers
なんらかのシードから順々に作られるもの、初期値が決まれば出力を予測可能。通常、長い周期を持つ周期列。周期が短いと暗号用の乱数としては役に立たない。
※暗号用乱数
出力ビットから続くビット列を計算するには、多大な計算時間がかかるようなものでないと、暗号用乱数として役に立たない。
※数値実験に使う乱数
⇒素性の良さを把握できるとよい
◆一様乱数
_◇線形合同法
linear congruential method
単純な方法で、全体としては乱数に見えるが、下位ビットの周期が短いので、規則性が簡単にわかってしまう。
⇒出力ビットから続くビット列を簡単に予測できる
Xn = (A*X_n-1 + B) mod C
乗数A, 法(modulus) Cは正整数
加数B 非負整数
B=0…乗算型合同法
B≠0…混合型合同法
の形の漸化式でビット列を作り出す。
⇒連続する出力を代入して連立方程式を解けば、A,B,Cを求めることができる。
⇒Xnのとりうる値は,0…C-1
⇒周期列となるので、Cには
2^計算機のビット数
2^(計算機のビット数-1)
上記を越えない最大の素数
例)適当な初期値に69069次々と掛け、2進で表したものの下位32ビットを取る。
※定理
線形合同法が最長周期Cを持つための必要条件
以下全てがみたされること
i) BとCが互いに素
ii)A-1がCの全ての素因数で割り切れる
iii)Cが4の倍数ならばA-1も4の倍数である
※RANDU
⇒昔のポピュラーだったが、悪い例
C=2^31, A=65539, B=0
⇒3次元単位立方体内に点列{(Xn, Xn+1, Xn+2)}をプロットすると、15枚の平行で等間隔の平面
9*x-6y+z=k (K=-5…9)
にのってしまう。
※合同法乱数列の他次元疎結晶構造
s次元空間内に点列をプロットすると、(s!*m)^(1/s)毎のs-1次元超平面の上にのってしまう
※超平面間の間隔(1/νs)を計算することで生成される乱数列のよさを判定する
⇒スペクトル検定
νs:s次元精度
_◇M系列にもとづく方法
M系列
Maximum length linearly recurring sequence
0と1からなる周期列。
⇒シフトレジスタ系列
a_n=c1*a_n-1+c2*a_n-2+…+cp*a_n-p (mod 2)
ここで
ci(1≦i≦p-1)は0または1
cp=1
初期値a0…a_p-1、少なくとも一つが0でない限り任意
ここで周期が最大の2^p – 1 であるものをM系列とよぶ
※通常は
f(x)=1+x^q+x^p (q<p)
⇒pが1000以下で、周期2^p – 1 が素数となるものの例
p q
89 38
127 1,7,15,30,63
521 32,48,158,168
607 105,147,273
1279 216,418
2281 715, 915, 1029
3217 67, 576
4423 271,369, 370, 649, 1393, 1419, 2098
9689 84, 471, 1836, 2444, 4187
◎ハッシュ関数
Hash Function
(Hash 細切れにする)
自由な大きさの数を、ある一定の大きさ以下の数に変換する数式。出力となるハッシュ値は偏らないことが重要。
⇒任意のバイト列を入力として、その入力を代表する固定長の出力を返す関数
一方向性
衝突困難性
①メッセージダイジェストから入力データを推測できない
②衝突するような入力データを容易に作成できない
③衝突が発生する可能性が非常に低い
※衝突 異なるメッセージに対して同一のメッセージダイジェストが発生すること。メッセージダイジェストのサイズよりも大きいデータに対しては必ず衝突が発生する。
衝突が起きるのに必要なサンプル数は、mではなく√(m)に比例するので、ハッシュ関数の強度は、メッセージダイジェストのビット数の半分
※2つのデータが同じであるかどうかの検証を高速化する。
例)公開鍵暗号の処理は遅いので
ドキュメント→ハッシュ関数→メッセージダイジェスト
これを公開鍵暗号でドキュメントの署名とする
※ハッシュ関数例
①CBC-MAC (ブロック暗号のCBCモードを使う)
②MD5 RSA
md5sum
③SHA-1 アメリカ標準
④RIPEMD160 ヨーロッパ標準
※メッセージダイジェスト(改ざんを発見するための要約値)として使う。
◆暗号的に安全なハッシュ関数
cryptographically secure hash function
①異なる入力値に対して同じ出力値が返る可能性がとても低い
②似た入力値から似た出力値が返らない
③出力値が均一に分布
④出力値から入力値が推定できない
◆MD2, MD4, MD5
Message Digest 2, 4, 5
リベスト氏考案。
MD5
メッセージダイジェストのサイズ 128ビット
※RFC1320
※2^64程度のサンプル数で衝突が起こる可能性がある
◆SHA-1, SHA-256, SHA-384, SHA-512
Secure Hash Algorithm 1, 256, 384, 512
NSA(米国家安全保安局)考案ハッシュ関数
メッセージダイジェスト長
SHA-1 160ビット
SHA-256 256ビット
SHA-384 384ビット
SHA-512 512ビット
※SH-1:衝突を見つけるのに必要なメッセージの数が理想的な場合と比べ約13万分の1まで減らせるという結果が既に知られている(2005/02)
◎鍵共有法
①公開鍵暗号
②Kerberosセンタによる共通鍵の生成
③Diffie-Hellman鍵共有
参考)Elgamal暗号
④ID-NIKS
ID-based Non-Interactive Key Sharing
あらかじめID(のハッシュ値など)から暗号に使える乱数値を対象行列にしたものを用意し、各対応の1行をそれぞれに配布(秘密)しておく。通信する場合、それぞれの行から特定の相手と通信する場合の値が得られるので事前通信なしでの暗号化が可能になる。
◎認証
◆相手認証
①パスワード
②ワンタイムパスワード
S/Key, OPIE, OTP
親パスワードCと認証できる回数Nを決めておく。センター側は親パスワードCをハッシュ関数hにN回入れた結果だけを覚えておく。認証時には、認証できる残り回数N-1を伝え、認証をうける側はハッシュ関数にN-1回いれた結果を子パスワードとする。センタ側では届いたパスワードを1回ハッシュに通せば記憶した結果と一致することで認証できる。
③ゼロ知識対話証明
パスワードを教えないがパスワードを知っていることを証明できる。
暗証番号M、素数P,Qを生成しておく
法とする数P*Q、暗証番号の二乗M^2を公開しておく
ユーザーは認証時には乱数rを発生し、r^2を送信する。
センタ側はそれについて白か黒かを問う
ユーザーは白ならr,黒ならr*Mを回答する
センタは白のときr^2, 黒の時r^2*M^2になるか検証する。
※Mを知らない偽者は、白か黒か一方に備えると他方に備えられず2分の一の確率でしか質問に正解できず、この対話を20回も行えば100万分の1の確率でしか破れない認証ができる。
④チャレンジ&レスポンス
APOP
センタでは乱数rを発生し、これをユーザに送る。ユーザではパスワードCにrを加えた値をハッシュに通し、子パスワードとしてセンタへ返す。センタでは、同様にパスワードCにrを加えてハッシュを通したものとレスポンスを比較して認証する。
◆データ認証
①ハッシュ関数、MAC
②ブラインド署名
③デジタル署名
④電子透かし
◎暗号化アプリケーション
◆CSS
content scramble system
DVDの映画タイトルなどを不正コピーから守るための暗号技術
DVD CCA(Copy Control Association)による
Master Key – Disk Key – Title Key の3階層
DVDプレーヤは機種毎に固有のMater Keyを保持する
Master KeyはCCA管理で、DiskKeyはすべてのMaster Keyで暗号化し、Master Key数分のDisk keyセットとしてDiskに格納されている。機種固有のMaster KeyでDisk keyセットからDisk keyをとりだし、そのDisk KeyでTitle Keyを解読し、Title Keyを使って再生する。
◎量子暗号
◆量子ビット(キュービット)
スピンのように2つの状態が可能な系を2状態系という
⇒量子力学の重ね合わせの原理により、2つの状態のどちらか一方ではなく、両方が重なった状態である。
※1量子ビットで0と1を同時にあらわすことができる
◆ショアのアルゴリズム
量子コンピュータを使った素因数分解のアルゴリズム
①素因数分解をしようとする数Nより小さい数xを選ぶ
②x^r÷Nの余りを探す。余りのリストは繰り返すので、繰り返しの周期pを求める
③x^(p/2)-1、x^(p/2)+1を計算する
これらとNの最大公約数は、高い確率でNの素因数になる
※②のステップを量子コンピュータで並列計算する。しかし、結果を読み取ろうとすればデコヒーレンスにより1つに収束してしまうので、干渉を使って読み取る
◆量子暗号システム
量子通信で共通鍵を、古典通信でデータを送る
_◇量子暗号の特徴
①解読できない
②盗聴は検出できる
_◇光子の偏光をつかう
不確定性関係から両立できない2種の偏光を使う
①アリスはランダムに2種の偏光方式を選び、それぞれの方式で0か1かに判定できる光子を送る
②ボブはランダムに2種の偏光方式を選び、データを解読する。たまたま方式が一致すれば答えは合うが、不一致ならば答えは合ったり、あわなかったりする。
③古典通信を使って、選択した偏光方式を相互に伝える。方式が一致したデータを残して、他は捨てると、アリスとボブは共通鍵を得たことになる。
④共通鍵を使って暗号化したデータを古典通信で送る
※途中でイブが盗聴すると、アリスとボブの方式が一致しているのにイブの方式が違うケースでは、光子の偏光を壊してしまう。⇒結果が一致しない可能性がでてくる。
※共通鍵として残した変更のうち、いくつかについて答え合わせをすると、誰かが盗聴していると分かる

☆参考資料

◆面積、体積公式
①球 sphere
表面積 S=4πr^2
体積 V=4πr^3/3
②直円錐 right circular cone
母線の長さl
側面積 S’=πrl
表面積 S=πr(l+r)
体積 V=πr^2h/3
③正四面体 tetrahedron
S=(√3)*a^2
V=(√2/12)*a^3
④正六面体 cube
S=6a^2
V=a^3
⑤正八面体
S=2√3a^3
V=(√2/3)a^3
⑥直円柱 Cylinder
側面積S’=2πrh
S=2πr(h+r)
V=πr^2h
⑦正三角形 equilateral traiangle
S=((√3)/4) a^2
⑧三角形 triangle
S=(1/2) ah=(1/2) bc sinA
=SQRT(s(s-1)(s-b)(s-c))
2s=a+b+c
⑨扇型 sector
s=rθ
s=r^2 * θ/2  (θは中心角ラジアン)
⑩円 circle
l=2πr
S=πr^2=lr/2
◆内接・外接正多角形の一辺の長さ
①内接正多角形
a_n+1 = √(2 – √(4-(a_n)^2))
a_0=1
②外接正多角形
(b_n+1/2)=√(1+(2/b_n)^2) – (2/b_n)
b_0=2/√3
◆カオスが現れる数列
X0 = c (0 < c < 1)
X{n+1} = d * x{n} * (1 – x{n})
d=2のときは、単調に0.5に近づく。
d=3.3では振動
dが4に近づくとカオスが現れる。
※図形的には上に凸なy=d*x(1-x)なる2次関数とy=xなる1次関数について、x軸から2次関数のyをもとめ、それをy=xでx軸に投影し、それを繰り返す操作になる。
◆黄金比
※黄金長方形
辺の比が黄金比になっている長方形。この長方形から正方形を切り取ると残りの長方形が再び黄金長方形となる。
よって、
x:1=1:(x-1)
となるので、
x^2-x-1=0
の根の一つが黄金比を与える。
1 : (1+√5)/2   (1 : 1.6180…)
※黄金数は通常Φで表される。
◆開平法
例)
27.31
+—————-
2 |745.8361
2 |4
— |—
47 |345
 7 |329
— |——
543 | 1683
  3 | 1629
—— |——–
5461 |   5461
   1 |   5461
|——–
|      0
◆開立法
例)
   8 .  3   2
+—————-
8 8*8 |575 .930 368
8 8*8 |
8 8*8  (*8) |512
+—— |—
24 192 | 63  930
——- |—
243 19200 |
(243*3=)729|
+—-|
3 19929 (*3)| 59  787
3 (3*3=)9 |
+—————|—————-
249 (729+19929+9=)2066700
+—————|—————-
2492 2066700 |  4  143 368
(2492*2=)4984
——–|
2071684 (*2)|  4  143 368
+—————-
0
◆和算 塵劫紀による命数法
10^4 万
10^8 億
10^12 兆
10^16 京
10^20 垓 ガイ
10^24 禾予 ジョ
10^28 穰 ジョウ
10^32 溝 コウ
10^36 澗 カン
10^40 正 セイ
10^44 載 サイ
10^48 極 ゴク
10^52 恒河沙 ゴウガシャ
10^56 阿僧祇 アソウギ
10^60 那由他 ナユタ
10^64 不可思議 フカシギ
10^68 無量大数 ムリョウタイスウ
10^-1 分
10^-2 厘
10^-3 毛
10^-4 絲
10^-5 忽
10^-6 微
10^-7 繊
10^-8 沙
10^-9 塵
10^-10 挨
10^-11 渺 ビョウ
10^-12 漠 バク
10^-13 模糊 モコ
10^-14 逡巡 シュンジュン
10^-15 須臾 シュユ
10^-16 瞬息 シュンソク
10^-17 弾指 ダンシ
10^-18 刹那 セツナ
10^-19 六徳 リットク
10^-20 虚空 コクウ
10^-21 清浄 セイジョウ
◆googol
1の後に0を100個並べた数
※googleは、googolのスペルを間違えたスポンサーの小切手から名づけられたらしい
◆平均律音階
ドからシまで半音入れて12音階
ドから次のドまで1オクターブ、振動数2倍
r^12 = 2
半音上がると振動数は
r = 2^(1/12) ≒ 1.06倍になる
◆記号
∀ すべての
例)
∀n∈NFor all n in N (Nは集合)
<すべてのNの要素nについて>
∃ 存在する
例)
∃n∈Nn exists in N (Nは集合)
<nが存在する>
※この後に、式を書き、
such that …
∂/∂x 偏微分
複数の独立変数を持つ関数において、∂/∂xは他の変数は定数とみなしてxだけで微分すること
∇:ベクトル微分演算子(ナブラ)
∇=(∂/∂x,∂/∂y,∂/∂z)
  =ex*∂/∂x + ey*∂/∂y + ez*∂/∂z
≡ 合同、もしくは定義する
[]ガウス記号
任意の実数xに対して、xを越えない最大の整数を[x]であらわす。
例)
[3.14] = 3
[3] = 3
[0] = 0
[-1] = -1
[-1.5] = -2
※小数第2位以下切捨て
[10x]/10
※端数切り上げ
-[-x]
※4捨五入
[x + 0.5] あるいは [2x] – [x]
∨ 離接、選言(論理和) disjunction
∧ 合接、連言(論理積) conjunction
¬ 否定
⇒ ならば
⇔ 論理的同値(真偽が一致すること)
◆アルゴリズム
ある結果を得るための手順、有限回で必ず終わる。
_◇n個の数値を比較の繰り返しで小さい順に並べ替えるとき、どんな方法でも平均比較回数はlog(2)n!より小さくできない。
◆チェビシェフ多項式
http://blog.livedoor.jp/seven_triton/archives/51179507.html
①任意の自然数nに対して,cosnθはcosθのn次多項式で表されることが予想される。
②x=cosθとすると、多項式は各次数に対して1つずつ存在し,n次のチェビシェフ多項式をTn(x)と表す。
Tn+1(x) = 2 x Tn(x) - Tn-1(x)
T1(x) = x
T0(x) = 1
※厳密には,まずはこの式のxがcosθと表される場合,つまり-1≦x≦1の場合が示され,その後で,両辺多項式なので全ての実数xに対して成立することが分かる
③n次のチェビシェフ多項式は,nが偶数のときはxの偶数次の項しかなく,またnが奇数のときにはxの奇数次の項しかない
nが偶数ならTn(x)は偶関数
nが奇数ならTn(x)は奇関数
④全係数の和が1。チェビシェフ多項式にx=1を代入すると1になる
Tn(1)=1

☆文献

図解雑学 指数対数 佐藤敏明 ナツメ社 2006/10/24
数学ガール 結城浩 ソフトバンククリエイティブ 2007
BB 素数入門 芹沢正三 講談社 2002/10/20
算数・数学百科 数学教育協議会 日本評論社 2005/8/10
http://www.nikonet.or.jp/spring/aporo_3/aporo_3.htm
数学超入門 郡山彬 日本実業出版社 2001/01/25
パラドックスの哲学 1993/04/10, R.M.セインズフリー,一ノ瀬訳 勁草書房
http://hawaii.naist.jp/~shige-o/cgi-bin/wiki/wiki.cgi?%C6%FE%CC%
ヒルベルト空間論 保江邦夫 日本評論社 2000/05/15
極限の深み 志賀浩二 岩波書店 1994/4/5
岩波講座 応用数学14 Fourier-Laplace解析 木村英紀 1993/9/8
Javaで作って学ぶ暗号技術 神永,山田,渡邊 森北出版 2008/5/12
岩波講座 応用数学9 論理と計算 萩谷昌己
ケプラー予想 ジョージ・G・スピーロ 青木訳 新潮社 2005/4/30
素数に憑かれた人たち ジョン・ダービーシャー 日経BP社 2004/8/30 1版1刷
よく分かる量子力学 2005/12/04 夏梅,二間瀬 ナツメ社
ポアンカレの贈り物 南、永瀬 講談社 2001/3/20
天才数学者はこう解いた、こう生きた 木村俊一 2001/11/10 講談社
信頼性の基礎数学 高木、斎藤 昭和47/6/20 東京電機大学出版局
統計解析 2003/3/26 丹慶勝市 ナツメ社
ピタリとわかる統計解析のための数学 2006/1/30 涌井良幸、涌井貞美 誠文堂新光社
これならわかる!統計学 2010/10/28 涌井良幸、涌井貞美 ナツメ社
統計 1999/4/5 今野紀雄 ナツメ社
http://www.i-juse.co.jp/statistics/jirei/sympo/10/arima-model.html
http://www.gms-jp.com/
http://laputa.cs.shinshu-u.ac.jp/~yizawa/InfSys1/basic/chap4/index.htm
岩波講座 応用数学11 確率的方法とシミュレーション 伏見正則 1994/3/24 岩波書店
画像数学入門 1995/3/31 福田覚 東洋書店
プログラミングのための線形代数 平岡、堀 オーム社 2004/10/25
図解でわかる回帰分析 2002/6/20 涌井良幸、涌井貞美 日本実業出版社
Excelで学ぶ統計解析 涌井良幸、涌井貞美 ナツメ社
社会人1年生のための統計学教科書 2014/2/25 浅野晃 SBクリエイティブ
金鉱を掘り当てる統計学 2001/3/20 豊田秀樹 講談社