AppliedMath_DATA

☆最小二乗法

※全ての測定値と直線との誤差が最小になるような方程式を求める手法

※実測値と予測値との差の二乗和が最小となるように予測値の式や値を決定する方法

⇒n次元の放物線(面)の最小値を与える係数を求めることに帰着する

◆平均値

平均値は誤差の二乗和を最小にする値

◆回帰曲線(直線)/最小2乗法
サンプルを(x1,y1)…(xn,yn)とするとき、従属変数yが独立変数xのn次式
y = f(x) = Σ[k=0;n] ak * x^k
= a0 + a1*x + a2*x^2 + … + an*x^n
として表されると仮定して、その仮定による理論値と、サンプル値の差の乗の和
Σ[i=1;N](f(xi) – yi)^2
が最小になるように係数a1,a2,…,anを定める。

このときグラフ y = f(x) を回帰曲線(n=1のとき回帰直線)という。

推定値の標準誤差は、

√((1/(N-n-1))*Σ[i=1;N](f(xi)-yi)^2)

※独立変数の値をあらかじめ対数関数などを用いて変換した変数をあらためてxとしてもよい。)

☆時系列分析

◆概要

_◇問題の構造

X(t) = Xuv(t) + ε(t)

Xuv(t):基底変動(サンプリング間隔よりも十分長い変動)
⇒時系列データの長さを長くすることで、より長周期のモードが基底変動のモードとして評価される可能性がある

ε(t):ゆらぎ、変動(fluctuation)
①決定論的ダイナミクス
②非決定論的ランダム雑音

※決定論的ダイナミクス部分
⇒さらに Xuv_i(t)+ε_i+1(t) のような多重構造を持つ
⇒フラクタル性がある

※孤立系でなく相互作用系
⇒無限の連鎖の相互作用は一般に非線形となる

_◇解析手法

①周波数領域解析(スペクトル解析)
A) FFT
窓に問題がある
B)自己回帰(AR)法
ゆらぎに問題
C)最大エントロピー法(MEM)

③時間領域
A)正弦振動関数の直接あてはめ
⇒反復⇒非線形最小二乗法(LSM)
⇒雑音、多重同期性に弱い

_◇時系列データの特徴

※定常性を解析の前提にすることは、現実の時系列解析では得るところが少ない
⇒非線形、非平衡、非定常

※時系列データへの統計の応用は目安でしかない
⇒時系列データの観測値の間には統計的独立性が仮定できない

_◇Bogoljubovマップ
ゴボリューホフマップ

線形  非線形
∞┌──┬─────┐
│  │     │初期カオス課程
├──┼─────┤
↑│  │     │運動論的過程
ω├──┼─────┤
│  │     │流体力学的過程
0●──┴─────┘
0 →      ∞
熱平衡からのずれの振幅
●は熱平衡

_◇アンサンブル平均とエルゴート的信号

※アンサンブル(集合)平均

M台の測定器から、t共通の時刻に
x_1(t)~x_M(t)を得る

M→∞なら
^x(t)=lim[M→∞](1/M)∑[s=1,M]{x_s(t)}

定常的⇒
どの瞬間においてもアンサンブル平均が変化せず一定である信号

※エルゴート的信号
ある一台の測定器のT→∞の時間平均
xバー=lim[T→∞](1/T)∫[0,T]x(t)dt
と、アンダンブル平均~xが等しいならば、このような信号はエルゴート的である。

_◇パワースペクトラム密度(PSD)

※時系列データに対する唯一の完全なスペクトルを得ることは原理的に不可能
離散的観測、有限長⇒誤差
変換方法に由来する誤差

※PSD(Power Spectral density)
観測値の単位の二乗/Hz
⇒スペクトルの振幅表示の場合:PSDの平方根をとって
観測値の単位/Hz

※トータルパワーは0から∞の積分
⇒観測値の単位の二乗の単位となる
⇒時間平均Ptでもある
⇒通常、∞でなく計算できる全周波数範囲で積分し、近似値をとる

◆自己回帰モデリング

_◇定常時系列モデルと非定常時系列モデル

定常時系列モデル
AR 自己回帰モデル
MA 移動平均モデル
ARMA 自己回帰移動平均モデル

非定常時系列モデル
ARIMA 自己回帰和分移動平均モデル

※時系列解析における定常化
大きさnの時系列 {y1, y2, …, yn} に対して

平均値
μ_t=E[y_t]=μ=constant
1≦t≦n
分散
var(y_t)=E[(y_t-μ_t)^2]=constant
1≦t≦n
自己共分散
cov(y_t, y_t+k)=E[(y_t-μ_t)(y_t+k-μ_t+k)]=constant
1≦t≦n

※非定常なデータ
⇒差分変換、対数変換、平方根変換。。。
⇒定常化する

_◇AR
Auto Regressiveモデル

確率過程 y_t (時系列 y1, y2, …, yn)が
y_t=φ1*y_t-1+φ2*y_t-2+…+φp*y_t-p+ε_t
ε_t:期待値ゼロ、分散一定のホワイトノイズ
φj(j=1,2,…,p)は係数

のとき⇒ytはp次の自己回帰過程/AR過程

_◇MA
Moving Averageモデル

時系列上の各データは、過去の誤差(ランダムショック)に影響される、と考えるモデル

y_t=ε_t-θ1ε_t-1-θ2ε_t-2-…-θqε_t-q
ε_t:期待値ゼロ、分散一定のホワイトノイズ
θj(j=1,2,…,q)は係数
⇒ランダムな誤差の線形結合

_◇ARMA
Auto Regressive Moving Averageモデル
p次の自己回帰家庭において、残差εtがq次の移動平均過程であるとき
y_t=
φ1*y_t-1+φ2*y_t-2+…+φp*y_t-p+ε_t
-θ1ε_t-1-θ2ε_t-2-…-θqε_t-q

⇒次数(p,q)の自己回帰移動平均過程(ARMA過程)
⇒ARMA(p,q)
q=0 ARモデル
p=0 MAモデル

_◇ARIMA
Auto Regressive Integrated Moving Average

※定常性
⇒モデル自身が発散しない

※時系列での平均値変動(平均値揺動)
⇒取り除くことでARMAモデルに

①時系列の差分をとる
②階差時系列に対してARMAモデルを適用する
⇒ARIMA

元の時系列データ
{y_t:t=1,2,…,n}
1次階差時系列
{x_t:t=1,2,…,n-1}
x_t=y_t-y_t-1
2次階差時系列
{z_t:t=1,2,…,n-2}
z_t=x_t-x_t-1=(y_t-y_t-1)-(y_t-1-y_t-2)

d階差の時系列にARMAを適用
⇒ARIMA(p,d,q)
⇒トレンドの平均値揺動が存在するか否かで階差をとり終わるdを決めるが、
時系列プロットを見る
自己相関関数の様子を見る

◆自己相関

_◇自己相関関数 acf

自己相関γhをh(時差、ラグ)の関数とみなしたもの

※自己相関コレログラムともいう

※以下ではτを遅れ時間(τは積分に関して定数と考える)
自己相関関数 A(t) は
A(t)=v(t)*v(t+τ)
の時間平均である

A(t)バー=lim[T→∞](1/T)∫[0,T]A(t)dt

R(t)=lim[T→∞](1/T)∫[0,T]v(t)*v(t+τ)dt

※τ=0のとき、二乗平均、R(t)の中で最大となる
⇒自己相関関数は、τ=0のときの値を1として規格化すればよい

_◇偏自己相関
Partial Autocorrelation

時刻t-hとtの間のh-1個の観測値の影響を除去した後のyt-hとytの相関関数

※偏相関係数
例えばx,y,zが対称であるとき、zの影響を除去した後のxとyの相関係数

◆DFA
Detrended Fluctuation Analysis
トレンド除去ゆらぎ解析

http://www3.bpe.es.osaka-u.ac.jp/~nakamura/DFA.htm

※モノフラクタル解析
時系列を1つの指数αで特徴づける

※マルチフラクタル解析
多くの指数

※生理学データなど非定常的データの解析
※時系列の長期相関特性
⇒Root mean square解析の応用手法
⇒トレンドをのぞいた残りのRMSを見る

◆FFT,DFT

_◇背景
周期Nの離散信号 x(0)~x(N-1)
から
周期Nの離散スペクトルX(0)~X(N-1)
を求める

※DFT
周期Nの離散フーリエ変換
⇒複素数演算N^2回

※FFT
Nを2^mに制限することで
⇒演算回数 N*log_2(N)/2回とすることができる

※暗黙の周期性の仮定がある

※フーリエ変換とその逆変換の間には双対性がある

※線形性

_◇窓

※切り出したデータの両端
⇒歪、高調波

①方形窓

②ハニング窓

③ハミング窓

④ガウス窓

☆データマイニング

予測変数の入手コストと基準変数の精度の利得とのバランスを考えてシステムを作る

◎概念

◆KDD
Knowledge Discovery in Databases

「有用で、かつ既知でない知識をデータから抽出する自明でない一連の手続き」

◆非線形性

線形、非線形にとらわれることなく、しかも特定の関数形に限定することなく、変数間の関数関係を発見できるということ

◆視覚化
data visualization

※多変量の背後に存在する知識を発見するための方法ではない
※分かり易く、客観的に示すためのプレゼンテーションの道具

◆交差妥当化
cross validation

※モデルの評価を行う場合に、そのモデルの母数の推定に用いたデータは利用せずに、それとは別に得られたデータへの当てはまりの良さを利用する方法

※母数の推定
平均値も母数の推定
⇒標本が多ければ安定、少ないと不安定
⇒母数の推定に十分な標本数以上があれば、交差妥当化は威力を発揮

※交差妥当化で選んだ最適モデルの予測、判別精度を別の検証用データで評価する場合は第3のデータセットが必要

_◇過剰適応、過剰訓練

過剰適応 over fitting
過剰訓練 over training

※母数の推定に利用したデータに関しては、複雑なモデルは単純なモデルよりも予測や判別の見かけ上の精度が高くなる。。。一般的性質
⇒いざ実践使用するとそれほどでもないことが多い

_◇交差検定

※generalization ability
新しい未知なるデータに対して正しく分類できる能力を汎化能力という
⇒汎化能力について評価を行うためには訓練に使用しなかったデータを用いなければならない。
⇒ホールドアウトデータを用いる。
⇒ホールドアウトデータを用いて評価を行うと訓練データを用いた場合よりも正答率は低くなる。

※訓練誤差 training error
⇒楽観的するぎる結果となる

※テスト誤差 testing error
⇒評価時には、訓練時に使用しなかったデータを用いて評価したテスト誤差を用いる

※交差検定
cross validation

①leave-out-out法
訓練データから一つデータを選び、それを取り除いたデータ集合でモデルを学習、訓練に用いなかったデータで評価する

◆最適性、一意性の保証の無さ

※BLUE
Best Linear Unbiased Estimator
⇒伝統的回帰モデル、線形な解の中では得られる解が最適であることが保証されている

※多くのデータマイニング手法には最適性、一意性の保証がない
⇒データマイニングでは、発見された知識が持つベネフィットが、その知識を発見するのに要したコストを上回れば分析は成功

◆データウエアハウス

_◇データウエアハウスの基本的性質

※用語
統計 データウエアハウス
変数(variable) 属性、列、フィールド
観測対象(observation) レコード、行

①時間的依存性
time dependent
時間に依存しないデータ以外には必ず時間を含める

②不揮発性
non-volatile
データを破棄することはない
データを書き換えることもない

③サブジェクト指向
subject oriented
データをサブジェクトごとに蓄積し、データへのアクセスをしやすくする
常にオンラインで保持し、即時的に利用できるようにする

④統合(integrated)
単位とフォーマットの統一
メタデータ(meta-data)=データの種類、場所、変数などを用意

_◇データの準備

※データの前処理
data preprocessing

データウエアハウス内の全データ⇒必要な部分のコピーを分析
⇒データマート data mart
⇒ほとんどの時間はこちらの処理に費やされる

①データ選択
data selection
分析目的に応じて変数を選択

※予測される変数(基準変数)と予測する変数(予測変数)の区別をするか否か
※具体的にどの変数を利用するか

②レコード再集計
データウエアハウス内のレコード=最小観測単位
⇒分析目的にあわせて再集計⇒レコード数は減少

※時間、空間、対象の観点で

③データの洗浄
data cleaning

※外れ値、欠測値、不整合データの除去、修正プロセス

※外れ値:そのまま残すか、レコードごと削除するか、予め決めたMAX/MINに変換する
※欠測値:レコード毎削除、平均値で補う
※不整合:修正、削除

④データの補強
data enrichment

※分析中のデータマートに外部から変数を加える
data merge

※ラグ付き変数の作成
別の時期(過去)の変数を加える

⑤データのコード化
data coding

分析目的に合わせて変数の表現を変える

◆決定木
decision tree

根(ルート)
ノード

判断はルートから一方方向
⇒決定木の中の部分木=枝、ブランチ
⇒ブランチの終点=ターミナルノード

親 ancestor
子 descendant

※決定木では、ルートに近い分岐を生じさせている変数が基準変数に対して強い影響力をもっていると解釈する。

※決定木は、その全体を用いて、各オブザベーションをターミナルノードに位置づける
⇒常に決定木全体を参照しなくとも断片的な知識でも有効な場合がある
⇒ルール生成、ルール抽出
⇒ルートのノードからターミナルノードに辿りながら抽出。
⇒ターミナルノードの数だけルールが生成される

_◇モデルの系譜

※オブザベーションの分類(classification)を目的とした

AID (Automatic Interaction Detector)
モーガンとソンキスト
当初は予測変数も基準変数も2値⇒質的変数
枝の分岐も2叉(2進木)
CHAID (Chi-squared AID)
カス
カイ2乗値
SIMS, C&RT, QUEST, CART, CID
※予測変数、基準変数が多値のカテゴリカル変数が分析できるようになった
※連続変数も分析できるように改良

_◇キンランのモデル
J. Ross Quinlan

ID3 Iterative Dichotomiser 3

※利得基準
⇒複雑すぎる分岐を促すため、利得比基準に改良された
⇒C4.5に改名。

_◇利得基準と情報量

決定木の分岐が生じる場所で計算される
⇒親ノードと子ノードの間

親ノードが有するオブザベーションの集合:S
推定用データのオブザベーション:J個の水準を持つカテゴりカルな基準変数Cによってc1,…,c_jに分割

事例集合Sから任意の事例をひとつ選んで、それがc_jである確率は、

p(S, c_j)= |S, c_j| / |S|

| | 集合の事例数を表す関数
|S| Sに含まれるすべての事例の数
|S, c_j| Sに含まれるc_jの事例の数

※情報量
底が2の対数で確率を変換し、-1をかけた値
例)8種類の等確率の情報
-log_2(1/8) = 3
⇒情報量の単位はビット
⇒ビットとは0か1の値をとる1個のダミー変数
⇒同じ状態を表現するなら情報量が小さいほうがゆおい
⇒情報量はエントロピーと呼ばれる

親ノードの集合Sにおけるc_jの情報量(定義により)
I(S, c_j) = -log_2(p(S, c_j))
集合SにおけるCの情報量⇒期待値をとる
I(C)=E|I(S,c_j)|=Σ[j=1:J]{p(S,c_j)*I(S, c_j)}
⇒予測変数を考慮しない場合の親ノードの平均情報量

予想変数を考慮した場合の平均情報量
親ノードのオブザベーションの集合がI個の水準をもつカテゴリカルな予測変数Tによってt1,…,t_i,…,t_Iのように分割され、それぞれが子ノードの候補となるとき
子ノードtiにおけるCの情報量は
I(t_i, C)=Σ[j=1:J]{p(t_i, c_j)*I(t_i, c_j)
集合SにおけるCの情報量は
I(C)_T=Σ[i=1:I]{p(S, t_i)*I(t_i, C)
ただし、
p(S, t_j)= |t_j|/|S|
⇒予測変数を考慮した場合の親ノードの平均情報量

※予測変数を考慮した場合と考慮しない場合の差を利得基準とする
G(C)_T = I(C) – I(C)_T
G(C)_Tを候補に挙がったすべての予測変数に関して計算し、値が最大になった予測変数で分岐を行うようにして決定木を成長させる

◎ニューラルネット

※心理学における「学習」の定義
「生体の、経験にもとづく比較的持続的な行動の変容」

※ニューラルネット
事例を参照し、自らの構造を変化させて自分で賢くなることができる

◆脳の神経細胞の概要とモデル

_◇神経細胞
neuron

細胞体 soma
演算部
樹状突起 dendrite
入力部、通常、一つの細胞体から数十本
軸索 axon
出力部、末端にシナプス(synapse)。
シナプスから他の細胞に情報がわたされる

※閾値(threshold)
神経細胞が興奮する臨界の膜電位

※興奮か平静化という離散的な情報を伝える

※シナプス
軸索側。。。プリシナプス
シナプス間隙(神経伝達物質)
樹状突起側。。ポストシナプス―シナプス後膜―レセプター

※プリシナプスには興奮性と抑制性がある
⇒放出する伝達物質が異なる
興奮性⇒電位上げ
抑制性⇒電位下げ

_◇脳の学習

※神経細胞間の結合の変化

構造は変化しないが、変化頻度が高いプリシナプスは伝達物質を多く放出するようになり、後方への影響が大きくなる⇒結合強化。

_◇マッカロとピッツのモデル

ニューロンに入力された刺激の重みつき和が
ニューロンの閾値よりも大きい場合は1
そうでない場合は0

┌──┐     wi1 ┌──┐
│β1├─y1─────→┤  │
└──┘     wi2 │  │ yi1
┌──┐    ┌───→┤βi├─→
│β2├─y2─┘wij │  │
└──┘    ┌───→┤  │
。。。     │    └──┘
┌──┐    │
│βj├─yj─┘
└──┘

β:閾値
w:重み
y:0か1の出力信号

xi=Σ[j]w_ij*yj
yi= {1, xi≧βi
{0, xi<βi

※線形閾値関数
⇒不連続なのでシステム全体を微分できない

※論理演算を実現可能だが、マッカロ、ピッツモデルでは重み固定であったので学習法則は示せなかった
⇒ヘブが「使われる結合は強化される」という考えの学習法則を取り入れた
⇒実際に問題解決に使うことができるモデルはローゼンプラットのパーセプトロン(1958)
⇒パーセプトロンは線形分離可能問題しか解けないことが判明する

_◇階層型ネットワークモデル

※階層型(feedforward)ネットワークモデル
現代パーセプトロン

①層状の複数のユニットとそれらのユニットのつながりによって構成される。
②情報は第1層から第a層まで順にデータの変換の形で伝達され、逆戻りしない。
③第2層から第a層での変換はシグモイド関数で行われる
⇒第1層は入力層
⇒第a層は出力層⇒その値が出力信号
④ユニット内部での信号変換は区間(-∞,+∞大)から区間(0,1)への非線形写像

※入力データ
刺激信号、入力信号
統計学的には
予測変数、独立変数、説明変数

※出力信号
統計学的には
規準変数、従属変数、被説明変数

※シグモイド関数による信号変換
⇒S字関数
⇒ロジスティック関数(など)
i 層
j 第i層を形成する個々のユニット
第i層のユニットの数はb_i個
β_ij ユニットijの閾値
y_ij = 1 / { 1 + exp{-x_ij – β_ij}

※隠れ層(hidden layer)
中間層
⇒第2層から第a-1層まで

※ユニット間の信号変換
①同一層内のユニット間では情報の伝達はない
②第i-1層のユニットから出力された信号は
x_ij = Σ[k=1:b_i-1]w_ijk*y_i-1_k
上記式のように第i層のj番目のユニットの入力信号となる
⇒w_ijkはユニットkとユニットjの結びつきの強さを表す重み

※ネットワークトポロジー
層の数a,各層内のユニット数b_iで表現する

例)
A(a=3, b1=2, b2=5, b3=1)
⇒層数3, 入力層ユニット数2、中間層ユニット数5、出力層ユニット数1
⇒第1層と最終層をユニット数は学習課題によって決定される。

_◇階層型ネットワークモデルの構造モデルとその例

a(a=3, b1=2, b2=5, b3=1)
中間層は1、一つの隠れ層をもつモデル
⇒多変量解析における非線形な重回帰モデル
⇒判別モデル

b(a=3, b1=3, b2=8, b3=2)
中間層は1、一つの隠れ層をもつモデル
⇒基準変数が複数あるネットワーク
⇒非線形な多変量重回帰モデル

c(a=4, b1=2, b2=5, b3=5, b4=1)
2つの隠れ層をもつ

d(a=5, b1=3, b2=5, b3=2, b4=5, b5=3)
3つの隠れ層を持つ
⇒砂時計型(ワイングラス型)ネットワーク
⇒多変量解析における非線形主成分分析
⇒情報縮約⇒第3層が非線形主成分
⇒第2層がインコード、第4層がデコード

※通常は隠れ層1層の利用が太井
⇒非線形の程度が激しい場合は隠れ層2層のモデルが用いられる

_◇逆伝播学習
BP, back propagation

※一般化デルタルールとも呼ばれる

※教師刺激(あるいは教師信号)
z_aj (j=1,…,ba)
⇒統計学的には母数の推定に利用する基準変数
⇒教師刺激にできるだけ似た反応を得るため⇒最小二乗法

※ネットワークモデルに適用する最小二乗法

※逐次学習 incremental learning
e^(m) = (1/2)*Σ[j=1:b_a](y_aj-z_j)^2
⇒m番目の出力刺激と教師刺激の組毎の誤差を小さくする
⇒最小化される関数を評価関数、目的関数という。
⇒発達モデルとしては適する

①最初の刺激の組に関して正確度や収束基準と呼ばれる設定値εよりも小さくなるように重みを変更する
②2番目以降n番目まで順に重みを変更する(前の値は悪くなるかもしれない)
③①と②の過程をn個の評価関数の全ての値がεより小さくなるまで繰り返す

※一括学習 batch learning
評価関数
E=Σ[m=1:n]e^(m)
⇒刺激の組の全体に関する二乗誤差の和を評価関数とみて重みを変更する
⇒Eの値がεxnよりも小さくなれば学習を終了する
⇒修正回数、学習時間としては逐次学習より少ないことが多い
⇒統計モデルとしては自然

※実際のデータ解析では予め設定した基準を満たせないことも多い
⇒予め設定した学習回数あるいは学習時間で打ち切ることもある

_◇学習パラメータと最急降下法、慣性法

※学習パラメータ
重みw_iklを縦につないで
θ={w_111, … , w_ikl …}’(転置)
と母数ベクトルとして表現する
⇒学習開始時点では、乱数などが入っている 初期値θ1
⇒関数の最小値を与える変数の値に近づけるために添え字hの値を増加させながら
θ_h+1 = θ_h + Δθ_h
のように更新する。
⇒ニューラルネットの場合(最急降下法)
Δθ_h = -η*g_h
g_hは目的関数のθによる導関数をθ_hで評価した値。
η=学習係数あるいはステップサイズ、変化量に関数の傾きをどれだけ反映させるか
⇒ηが小さすぎるとなかなか収束しない。大きすぎると解の周辺を漂う。

最急降下法は解の近傍で振動を起こしやすい

※慣性法
Δθ_h = -η*g_h + αΔθ_h-1
⇒一つ前の変化量もα(モーメント、慣性項)を乗じて加える

※導関数
逆伝播では、下層の導関数が上層の導関数によって再帰的に表現される

_◇判別モデル

※入力層=第1層のユニット層
予測変数の数によって決まる

※出力層
解こうとしている課題によって決まる
例)真偽の判定ならユニットは一つ

※教師信号
例)真偽の判定なら真偽値

※中間層(隠れ層)
分析者の裁量
⇒ユニット数が少ない⇒学習成績悪いが学習結果は安定
⇒ユニット数が多い⇒複雑な関数を表現できる⇒過学習の懸念が生じる

※学習係数η、慣性項α

※予測変数の選び方
⇒当該の実質科学的理由によって予測変数を選ぶ(回帰分析と同じ)
⇒ニューラルネットにはある要因が基準変数と関係していることが主観的にもあきらかならば、具体的な関係が分からなくても予測精度が向上する特徴がある⇒ネットの非線形フィッティングによる
⇒分析に利用可能なデータが多い場合:予測変数を多くする
⇒データが少ない:予測変数を精選した方が分析結果が安定する

_◇前処理
理由の明らかな特異データなどを除く

◆予測モテルと予測課題

_◇ゼロサム予測
一定の富を奪い合う行為の予測

※安定的に成功する再現可能な科学的命題というものは存在しない

_◇非ゼロサム予測

※ゼロサム予測と比べて結果が安定

_◇時系列モデル作成の要点

※訓練期間のデータ
⇒推定用、交差妥当化用に分ける
例)推定7、交差妥当化3になるように無作為抽出
⇒推定データの割合高ければ標準誤差小、しかし訓練データへの過剰適応ありえる
⇒推定データの割合低ければ母数推定不安定
⇒一般の統計モデルはデータの構造(母集団)が変化しなければ推定データが多いほど精度がよくなる
⇒時系列モデル⇒母集団変化(状況が大きく変化したら前のデータは使わない方がよい。)⇒小変化の連続⇒絶えず訓練期間のやりなおし(期間は長すぎても短すぎても×)

※検証、評価、モデル使用期間
モデル作成後の一定期間

◆自己組織化マップ

※分類やポジショニングに利用される数理モデル
※ニューラルネットの一種

※コホーネンネットとも呼ばれる

◆連関規則

◆決定木

☆ノイズの解析

※多次元正規分布