Sensing_Image

☆イメージセンシング

◆イメージセンシング

_◇イメージングの流れ

①光源

②被写体

③光学系

④イメージセンサ
光学像⇒信号

⑤信号処理

⑥蓄積、伝送

⑦出力

_◇光学像情報

※光学像情報の4要素
「強度、位置、波長、時間」
(i, r, λ, t)

被写体:3次元⇒光学像:2次元
r:2次元
λ:人間の視覚系RGB3原色近似で3次元
⇒合計7次元の情報

※光強度の検出
光センサ部での光電変換、電荷蓄積
※画素座標の同定
走査部のアドレシング、信号電荷転送、シフトレジスタ、デコーダ
※電荷両の検知と変換
信号電荷量もしくは信号電流を電圧、電流、周波数、パルス幅などに変換

_◇画像情報にかかわる制限

①システムの取り扱える信号の取り扱い範囲
光強度のダイナミックレンジ
扱える波長の範囲
②信号情報の分解能
強度情報に対する雑音
偽解像など位置情報のエラー
残像などの時間解像度のぼやけ

◇イメージセンサにおける離散化

※本来、強度、位置、波長、時間は連続分布

※ハードウエアとして、位置、波長、時間は結像前からデジタル化されている
位置=画素の情報
波長=画素上のカラーフィルタの分光分布情報
時間=露光期間の情報
⇒システムでデジタル化されてしまっているため、その要素の雑音としては発生せず、光強度情報への偽信号として反映される

各画素が出力するのは光強度のみ
光学像強度分布x分光分布x感度分布を開口領域、波長領域、露光時間で積分した値

※i,r,λ,tは
s:信号電荷量
ra:画素アドレス
c:カラー
tfr:フレーム
により
s(ra, c, tfr)
というセットとして通常シリアル出力される
⇒4要素、7次元の信号が光強度の1次元情報となる

_◇空間サンプリング
開口をサンプリング点として空間サンプリングする

※標本化定理により、センサ2画素の距離が1周期となる周波数がナイキスト周波数となり、センサが正確にとらえられる上限周波数を与える。

注)ナイキスト周波数でもたまたま白と黒の50%点がセンサ中央にくると、各点は同じ出力となり、信号振幅がゼロとなることがありえるので、位相にも依存する

※MTF
modulation transfer function
変調度伝達関数
空間周波数依存性を示す比

白黒交流入力に対する振幅応答
――――――――――――――――
直流白入力に対するセンサ出力振幅

※開口が狭い場合は高いMTFで細部の情報が得られるが、開口が広いと画素内での光量の変化が大きくなり、平均化されてMTFは低下する

※MTF特性の評価チャート
CZP: circular zone plate
サーキュラゾーンプレート

※画素配置とナイキスト周波数
縦横斜めなど、画素配置の方向性で規定される解像度の方向性がある
⇒人間の眼は垂直、水平方向の感度が、ななめよりも高いという理論もあり
⇒センサアレー部を45°回転、あるいは千鳥配置で画素補間すると
⇒正方配列よりも縦横解像度を高くできる(p/√2)
⇒白黒カメラや3板カラーカメラには有効
1画素1色の単板カラーでは有効でない

_◇時間サンプリング

※センサは所定の露光時間について信号を積分する蓄積型
⇒時間開口も空間サンプリングと同様な構造
⇒フレームレートが高ければより高い時間解像度
⇒露光時間が短ければ高いMTFの鮮鋭な映像
⇒時間軸でも折り返しによる偽信号が発生する

例)動画中で、周期的な運動物体が、本来周期よりゆっくりと動いてみえたり、逆回転してみえたりする現象

※特殊な目的のイメージングシステムでは、非同期非蓄積型のセンサなども提案されている。

※電子シャッタ
露光期間を決定する
⇒信号電荷をリセット

※残像
信号電荷がセンサ部に残ると発生する
CCD⇒完全転送
CMOS⇒スイッチで定電圧に接続

_◇波長、色サンプリング

色は人間の網膜でうけた刺激で脳で発生する感覚。
⇒光の波長と色とは同じ物理量ではない。
⇒客観的な確認が困難
⇒照明環境も多様
⇒物理量的に正確な色再現は困難
⇒主観的な色表現

※より正確な波長情報を得るためには、マルチバンドカメラが適する
高いサンプリングピッチ
より狭い開口

※DSCで一般的なベイヤー配列のカラーフィルタ
サンプリング点は3点だけ
開口は広く、互いの重なりも大きい
⇒人間の眼が、RGBに相当する信号のセットで色として感知することを利用
⇒色は、RGBの原刺激の1次関数で表現できる

※ベイヤー配列(正方配列)
Bayer array
┌─┐┌─┐
│G││R│
└─┘└─┘
┌─┐┌─┐
│B││G│
└─┘└─┘
画素間の垂直、水平ピッチp

※色解像度
ベイヤー配列
RとBの水平垂直ピッチ2p
⇒ナイキスト周波数 1/4p
Gの水平垂直ピッチp、斜め45°方向√2p
⇒ナイキスト周波数1/2p、ななめ 1/(2√2)p

※クロストーク
ある画素に対応する信号が隣接画素の信号に混入する現象
⇒MTF低下
⇒カラー信号としては混色

※混色
クロストーク以外に、カラーフィルタの波長のオーバラップ起因もある
⇒色補正するが、混色が多いと色補正後の色SN比が降り

※カラーフィルタの波長オーバラップ
色相の弁別のためには必要
⇒オーバラップが大きすぎると、彩度が低下する

※原色フィルタ
RGB

※補色フィルタ
Cy=G+B
MG=R+B
Ye=R+G

_◇TIPS

※画像の明るさには緑の成分が大きく寄与
⇒濃淡画像処理ではGだけ扱うようにしてもよい

◆イメージセンサの基本

_◇イメージセンサの基本特性

※強度、位置、波長、時間の4要素の精度(分解能とレンジ)が特性のすべて
※うち位置、波長、時間の要素はシステムの「座標点」としてデジタル的に決定済なので、雑音が入る余地はすくない
⇒強度の特性がほとんど

①感度
Sensitivity
単位光量あたりのセンサ出力

※感度の表記
[ V / (lx*s) ]
アンプで増幅する前のセンサ部
[ 電子数 / (lx*s) ]

※シリコンの光吸収、波長依存性あり
※照明にも波長分布あり
⇒lxが定まっても状態は一義的に規定できない

※量子効率 quantum efficiency η
感度の指標
⇒センサの1画素の信号電荷数を1画素面積に照射された光子数で割った値

②雑音
noise

※発生モードによる分類
ランダム雑音 temporal noise
固定パターン雑音 fixed pattern noise (FPN)

※発生原による分類
光雑音
光ショット雑音(光強度のゆらぎ)
⇒光子はポアソン分布に従う⇒その分散が揺らぎ
⇒光子数をnとすると√nが雑音
電子雑音
kTC雑音(回路雑音)
容量に対するスイッチのON/OFF、オン抵抗は有限なので
⇒電圧表現としての雑音の2乗 kT/C
⇒イメージセンサでは信号量や雑音を電子数で表すのでkTC雑音も電子数表現
トランジスタ雑音(デバイス雑音)
1/f雑音 低周波域で大きなノイズパワーを示す
熱雑音 周波数に依存しない(thermal noise)
暗電流(熱エネルギー)
非平衡状態で、界面準位や結晶結果によるものを介して熱的に発生
分布はFPN
時間揺らぎはランダム

※RTS (random telegraph signal)
特定の画素の出力が2~3個程度の量子化された値を行き来する
⇒ランダム雑音とFPNの両方ある

※リセット雑音、ソースフォロアの1/f雑音対策
CDS(相関二重サンプリング)が有効
⇒雑音だけの状態とそこに信号電荷の入った状態での差分を得る

③SN比
⇒もっとも重要な特性
20*log(SN比)のdB表示

※相関のない雑音niの総和である全雑音電子数は、niの2乗和の平方根

④ダイナミックレンジ
※飽和特性
照度とセンサ出力が比例する範囲
⇒飽和レベルと暗示雑音の比のdBで定義

※撮像可能照度範囲
非線形の場合の拡張

_◇半導体の光吸収
シリコンに光 hν照射
シリコンのバンドギャップEgよりも高く、かつ準位が空いていれば価電子帯から伝導帯への電子の遷移が起こり吸収される
⇒荷電子帯にはホールが残る
⇒Egよりもhνが低ければ吸収されず透過する

Eg≒1.1eV hν的には約1100nmの赤外線
⇒可視光はSi自身が感光材料となる

※光の吸収係数(単位距離を進む間に吸収される確率)αは強い波長λ依存性がある
dλを照射された光量が吸収により1/eに減衰する距離とし
αλ=1/dλ
とすると
青(λ=435~480nm) 約0.2um
緑(λ=500~560nm) 約1um
赤(λ=610~750nm) 約4um

_◇フォトダイオード
Photo-diode PD
p型を接地電位としてn型に正電位を印加
逆バイアス状態のまま電気的に切り離して浮遊状態とする
光により電子正孔対が発生
⇒電界で分離
電子:n領域に蓄積
ホール:p領域に移動、素子外へ

※埋め込みフォトダイオード
pinned-PD
pn接合フォトダイオードの表面側にp+を浅く形成
(正孔を信号とする場合は逆)
⇒界面準位の影響を排除し、かつn領域の電位を安定化し、高画質化
埋め込みフォトダイオードのn層
⇒信号電荷が読み出された状態で完全に空乏化する不純物濃度と深さ
⇒信号電荷の読み残し電荷があると、残像が発生する

※界面準位
電子が価電子帯と伝導体を行き来する飛び石になる
⇒荷電子帯の電子が熱的に励起⇒光がないのに伝導帯へ
⇒暗電流の発生

_◇浮遊拡散層アンプ
floating diffusion amplifier: FDA

浮遊拡散層
転送電極を介して信号電荷に接続
リセット電極を介してリセットドレーンと接続
ソースフォロアアンプのゲート入力にも接続
①まずリセットドレーン電位Vrdに設定
②電気的に切り離しフローティング状態
③転送電極下のチャネルを通じて信号電荷を導入
④ソースフォロアアンプのVout出力
⇒再びリセット

※ソーフフォロアアンプ
高入力インピーダンス、低出力インピーダンス

1電子あたりの出力Vout/Ns
Vout/Ns = Gsf * q/Cfd [uV/e]
⇒変換利得(conversion gain)
一般にGsf=0.6~0.9程度

◇基本動作
①光電変換
画素行列に光エネルギーが入射し、電子が励起される
それぞれの画素は色フィルタにより特定の波長の光に反応する
ゲート電極に電圧をかけることで空乏層ができ
そこに光が入射することで電子-正孔対が発生する
p型の場合、正孔は基板に捨てられ、表面付近に電子が溜まる
電子の充満帯から伝導帯への励起にはシリコンの禁制帯幅Eg=1.1eVから決まる限界光波長がある
λc=h*c/Eg=1240/1.1=1.1um (hはプランク定数)
※短波長は表面付近で九州されるが、長波長は基板奥まで入る。これにより人間の目の感度がない不要な赤外感度は減衰する

②電荷蓄積
※表面では雑音源にさらされるので、埋め込み層のポテンシャル井戸に蓄積される

③信号処理
雑音低減処理、新お具増幅

④信号読み出し
所要のフォーマットの信号として出力

_◇デジカメ用イメージセンサのサイズ

①コンパクト型 1/2.33インチ
6.2mm x 4.6mm
35mm換算50mmの実焦点距離と視野角:8.9mm, 46.6°
35mm換算200mmの実焦点距離と視野角:37.7mm, 12.3°

②フォーサーズ
17.3mm x 13.0mm
35mm換算50mmの実焦点距離と視野角:25mm, 46.8°
35mm換算200mmの実焦点距離と視野角:100mm, 12.3°

③一眼レフフルサイズ
36mm x 24mm
35mm換算50mmの実焦点距離と視野角:50mm, 46.8°
35mm換算200mmの実焦点距離と視野角:200mm, 12.3°

_◇画素数と解像度

画素数≒撮像素子の阻止数
解像度:本来画素の密度を表現する(200画素/mmなど)
⇒撮像素子の面積で代替

※MTF 変調伝達関数 Modulation Transfer Function
撮像システムとしての解像力を示す
システムに正弦波信号を入力したときの周波数と入出力波形の振幅比率(レスポンス)の特性
X軸に周波数
Y軸にレスポンス=出力画像振幅/入力画像振幅
をとる。低い周波数では100%だが、周波数が高まると落ち、あるところで0%となる

※レンズの中央から周辺に至る解像特性の比較のためには
横軸をレンズ中心からの距離、縦軸をレスポンスとするグラフもある

※解像度の限界
①サンプリング定理による限界
再現可能な濃淡変化は撮像素子の画素ピッチの2倍以上の周期
②光の回折限界
光の周波数による
546.1nm光、F4.0レンズ
素子面で1.75um周期の濃淡正弦波のMTF20%
1.0um周期ではMTF0%
⇒画素ピッチ1.0um辺りに限界がある
2400万画素(6000×4000)では
35mmフルサイズのセルサイズは6x6umだが、コンパクト型では1.03×1.15um

_◇撮像部の構造

①光学フィルタ
光学ローパスフィルタ
水晶の複屈折性を利用
入射光の半分を水平、垂直にずらし、入射光に重畳
⇒光像の高周波成分を減衰させる
赤外カットフィルタ
赤外線を除去
②撮像素子
マイクロレンズアレイ
光束をフォトセンサに集光⇒実質的な開口率を稼ぐ
カラーフィルタ
光像を3原色に色分解する
⇒RGB原色ベイヤー型が普通
(CMY補色フィルタは再現できる色域が狭い)
フォトセンサアレイ

_◇カラー画像の取得方式
①単板式
1個のセンサの各画素上にカラーフィルタを形成
⇒コストとサイズで有利

※人間の視覚特性を利用し、解像度と色生成を両立
輝度に敏感⇒輝度成分にもっとも寄与するG成分を多くする
水平、垂直感度が高い⇒斜め方向より垂直、水平にG成分を密に

②三板式
ダイクロイックプリズムにより、特定波長の光のみを反射し、3原色に分解
⇒構造が複雑だが、同じ画素数でも実質解像度は高い
R画像 600nm付近
G画像 550nm付近
B画像 450nm付近
⇒三個のセンサの位置合わせは画素レベルの精度が必要
⇒色フィルタのように特定の領域を通すために他を遮断するわけではない
⇒光の利用効率高く、感度が高い
⇒各画素のRGBが直接得られるので、色補間処理不要で高画質
⇒しかし、プリズム+3センサで高コスト

_◇色空間

通常sRGB色空間が使われる⇒CRT表示用の規格
AdobeRGB色空間もつかわれている

_◇色補間処理
demosaicking

ベイヤーフィルタ利用の単板カラー
⇒各画素はR,G,Bのうちひとつだけ
⇒他の色は、色補間で生成する
⇒色の境界となる画素は偽信号が発生しやすい

_◇色温度

※色の異なる光源(分光分布が異なる)をあらわす方法
※黒体放射⇒プランクの輻射式の波長分布
⇒ある温度の黒体放射と光源の放射が一致⇒そのときの温度を色温度とよぶ
⇒実際には一致しないので、もっとも近い温度で近似

_◇被写体照度と面照度

光源⇒被写体で反射⇒光学系⇒センサ表面
※センサ表面の照度を面照度という

E0 被写体照度
R 反射率
T 撮影レンズの透過率
F レンズF地
m 結像面倍率
Ep 面照度

R*T*E0       R*T*E0
Ep=-----------------≒------
4*(F^2)*((1+m)^2) 4*F^2

_◇撮像素子のダイナミックレンジ
一つの画素の蓄積できる最大電荷量とノイズとなる電荷量の比率SN
⇒20*log(電荷量の比)

※通常50~70dB

※撮像素子の出力ビット(量子化)数でダイナミックレンジ内の信号を表現
8ビット: 20*log(255)=48.1dB
12ビット: 72.2dB
14ビット: 84.3dB

_◇ノイズ

①インパルスノイズ
フォトダイオードの暗電流による
固定パターン的
②1/fノイズ(増幅器)
③ランダムテレグラフノイズ
④リセットノイズ
⑤回路的なノイズ

◆CMOSイメージセンサ

光センサ部:
pn接合フォトダイオード
フォトゲート型フォトダイオード
走査部;
シフトレジスタまたはデコーダ、MOSFETスイッチ
電荷量検知変換部:
浮遊拡散層アンプ
各画素に1個

※CMOSセンサはMOSセンサのCMOS版ではない

※CMOSセンサは駆動回路や信号処理回路をオンチップに集積できる
<>CCD

_◇埋め込みMOS構造

※プリミティブなMOS構造
ゲートに正電位を印加
⇒シリコン内では表面の電位が最も高くなる
⇒電子はSi-SiO2界面に集まる

※Si-SiO2界面には界面準位が存在⇒問題
1/f雑音
RTS(random telegraph signal)
暗電流の発生源

※チャネルの極大電位を界面ではなく基板内部に形成する構造
⇒埋め込みMOS
p型シリコンの表面側に濃度が低いn-層を形成
⇒n-層に正電圧を印加し、n-層ないの動ける電子を全て排除して空乏化

_◇CMOSセンサの構造

※アクティブピクセル構造(APS)
active pixel sensor
⇒画素部に画素アンプを持つ
⇒信号電荷量は電圧に変換されて出てくる
⇒画素アンプにより増幅されるため、見かけ上kTC雑音はゲイン分の1に軽減

なお、画素内に増幅器を持たないセンサ
PPS(passive pixel sensor)

※フォトダイオードにつながった読み出しTRを垂直、水平アドレスで指定
⇒垂直、水平走査の機能はMOSセンサと同様

※垂直と水平の間にFPN除去回路が存在

※FPN(fixed pattern noise)
固定パターン雑音
画素毎のアンプの特性バラツキなどに起因するオフセット性の雑音

※携帯向けの安価なカメラモジュールと一眼レフ向けの高級向けに分化

_◇シャッタコントロール

※グローバルシャッタとローリングシャッタ
CCD、信号電荷のリセット、蓄積は全画素同一時刻=グローバルシャッタ
CMOS、各行で1水平期間ずれる=ローリングシャッタ

※ローリングシャッタの欠点
①高速に動く物体の歪
②ストロボ発光タイミング
③信号電荷蓄積時間を変更する場合の無効フレームの発生

_◇読み出し方式
CCDはハードウエアの特性上で読み出しの順番は固定的
CMOSは画素選択後は、読み出し方式の自由度高い

※ブロック読み出し
画面の一部を切り出す

※スキップ読み出し
行、列を間引く
⇒出力画素数を落としてフレームレートをあげる

※ビニング読出し
隣接する2x2画素の出力を加算もしくは平均化して出力する
画素共有化により電荷ドメインで行ってしまう
列並列回路でアナログドメインで加算
デジタルドメインで加算
⇒カラーの場合は同色画素どうしでビニング
⇒空間解像度は低下するがSN比は向上する

※単純なスキップ読み出しでは、モアレが発生しやすいがビニング処理ではモアレの発生が低減化される

_◇画素補間配置素子

_◇超高速出力化
秒1000フレーム

_◇グローバルシャッター
全画素同時露光終了。シャッター不要。

_◇広ダイナミックレンジ

_◇背景ボケ

_◇湾曲化

_◇3次元化

◆CCDイメージセンサ
Charge Coupled Device

光センサ部:
pn接合フォトダイオード
フォトゲート型フォトダイオード
走査部;
CCD
電荷量検知変換部:
浮遊拡散層アンプ
各画素共有チップに1個

動作:
フォトダイオード⇒垂直CCDへ全画素同時転送
垂直CCD⇒水平CCDにより順次出力

※CCD
完全転送を行う(電荷は完全になくなる)
⇒走査領域でkTC雑音発生しない⇒低雑音
昔:画質はCMOSより優れていた
現在:コストと画質のバランスからコンパクトデジカメ向け

※CCDの場合、CMOS回路を作りこむとプロセスが複雑になりすぎる
駆動パルス発生回路、CDS回路、AD変換などは別IC

_◇CCDの原理

電極を複数隣接にならべる
電極の一方は共通接続
シリコン基板=共通電極
SiO2, Si3N3などの絶縁層
ポリシリコンなど=他方の電極
他方は転送電極として相の異なるクロックを与える
例)重なりのある4相駆動
電子に対する電位の井戸を電極化のチャネルに形成
印加される電極が順次シフトするにつれて、電位の井戸も移動
⇒電荷も移動

※CCDセンサ全体が大きな容量
⇒素子面積が大きいほど電力的に不利
⇒CMOSセンサの方が駆動すべき容量が小さいので優位となる

_◇CCDの方式

①FT-CCD
frame transfer CCD
フレーム転送CCDセンサ
素子構造単純
CCD構造が、露光期間中は光センサとして機能
露光終了後は、蓄積部にフレーム転送する走査部として動作

※CCD電極のポリシリコンは短波長の透過率が低いので、そのままでは青感度に課題が残る

②IT-CCD
interline transfer CCD
インターライン転送CCDセンサ
センサ部と走査部を独立形成
信号電荷は、一斉に垂直CCD(VCCD: vertical CCD)に送られ
後、1行ずつ水平CCD(HCCD: horizontal CCD)内を転送される

※80年代後半から10数年ほどCCDの主力となる

③FIT-CCD
framce interline transfer CCD
フレームインターライン転送CCDセンサ

IT-CCDの撮像部(VCCD含む)とHCCDの間にFT-CCDの蓄積部を設けたもの
VCCD内に電荷滞在する間に入射光などにより電荷が混入するとスミアを発生する
このためVCCDから蓄積部への転送を高速におこなってVCCDの滞在時間を1~3桁短縮する
⇒放送用テレビカメラなど向け

_◇相関二重標本化法
CDS(Correlated Double Sampling)
アンプ雑音、リセット雑音の除去回路
CCDから出力される信号の
リセット期間、フィード・スルー期間、信号期間のうち
クランプパルスDS1により、フィード・スルー期間をクランプ
クランプパルスDS2により、信号期間をクランプ
差動アンプにより両期間の電圧の差分を取る

◆MOSセンサ

光センサ部:
pn接合フォトダイオード
走査部;
シフトレジスタまたはデコーダ、MOSFETスイッチ
電荷量検知変換部:
オフチップJFETアンプ

外部のJFETの特性に左右され、CCDとのSN比競争に敗れた

_◇水平読み出し素子
TSL素子
transversal signal line sensor
第3世代MOSセンサ
それまでのMOSセンサは大きな寄生容量を持つ垂直信号線をリセットするときにkTC雑音が発生していた⇒TSLでは信号の読み出し期間でkTC雑音が発生しない

センサ自体の雑音は大きく低減されたが、外部のJFETの特性には左右される

◆CIGSイメージセンサ

◆MgZnO紫外線センサ

◆SOI紫外線センサ

◆赤外線イメージセンサ

_◇レンズ材料
通常のレンズに使われる石英ガラスは遠赤外線を投下しない。
可視光は感度低下要因となるので、可視光は透過しない方がよい。

①ゲルマニウム(Ge)
遠赤外線に対して、高い屈折率と透過率を持つ
⇒希少金属のため高価、かつ加工難しい。
⇒温度上昇で屈折率下がる

②カルコゲナイト
ヒ素(As) セレン(Se) 硫黄(S)の化合物
⇒ゲルマニウムより若干性能は劣るが、原料費やすく、モールド成形できる。
⇒温度変化に強い
⇒原料は毒物、劇物取締法の規制にかかる

③ZnS
⇒ゲルマニウムより性能は劣る。
⇒原料安く、モールド成形可能、温度変化に強い。

_◇パッケージの真空度

1~1x10^-2 Pa程度

真空管並み、中真空~高真空の境目くらい

_◇プラズモニック吸収体
Au膜のumオーダのデコボコの凹の周期に等しい特定の波長の光を選択的に吸収する。

◆3D深度センサ

☆デジタルカメラ

◆デジカメの概要

_◇デジカメ方式

┌─レンズ一体型(コンパクト)
└─レンズ交換式
├─ ミラーレス一眼
└─ 一眼レフ

※一般的なレンズの焦点距離(一眼レフ)
35mm以下 広角レンズ
50mm程度 標準レンズ
100mm以上 望遠レンズ

◆デジカメ処理の流れ

_◇デジカメの画像処理パイプライン

撮像部生画像
デモザイク
ノイズ除去
階調補正、色補正
顔検出
歪み補正など幾何変換
高域強調やぶれ補正
画像の圧縮伸長
画像の表示、保存

_◇DSC信号処理フロー例


┌─┐┌─┐   ┌─┐
┌─┐┌─┐┌┤3├┤4├───┤5├───→Y
│1├┤2├┤└─┘└─┘   └─┘
└─┘└─┘│┌─┐┌─┐┌─┐┌─┐┌─┐ R-Y
└┤6├┤7├┤8├┤9├┤A├→
└─┘└─┘└─┘└─┘└─┘ B-Y
1:ベイヤーフィルタのイメージセンサ
2:AD
3:輝度生成
4:輪郭補正
5:γ補正
6:色補間
7:色変換
8:ホワイトバランス
9:γ補正
A:色差変換

_◇画像の補間とデモザイク

撮像部の生画像(CFA画像)
各画素の値は、R,G,Bいずれかの値
⇒主としてCFAには原色ベイヤー配列が使われることが多い
グリーンを斜めに
レッドとブルーはグリーンの半分の数を千鳥に
※画像を補完し、各画素にRGBの値を持たせる

①バイリニア補間
4近傍の画素v1~v4を補完に用いる
補完する画素vに対し、以下の図の面積をつかった加重平均を行う
v1     v2
●━━┯━━━●
┃d │c  ┃
┠──●───┨
┃  │   ┃
┃b │ a ┃
┃  │   ┃
●━━┷━━━●
v3     v4

v=(a*v1+b*v2+c*v3+d*v4)/(a+b+c+d)

②バイキュービック補間

③超解像度処理
簡単なもの:エッジ方向の考慮など

※偽色
原シーン⇒CFA画像⇒デモザイク⇒RGB画像の家庭で、原シーンにない色が発生してしまう現象
⇒鮮鋭なエッジ、激しい濃淡変化部などで発生しやすい

※色相関補間方式デモザイク
局所的な領域では色信号の変化が一定であると見なして補間する
①G成分は密にサンプリングされているので、これだけで画像を補完しておく
②Gについては①の補間画像をLPF、R,Gについても補間+LPF
③Rについては②のLPF結果とGのLPF結果の比を①のG補間画像に乗じることで値を得る
④Bについても、Rと同様に計算する

_◇ノイズ除去

①古典的ノイズ除去、平滑化フィルタ
⇒加重平均、重みはガウス分布、均一分布

※小領域での形状や重み分布を、画素の局所的な性質で適応制御するとノイズ除去性能を改善できる。

②メディアンフィルタ
小領域の画素の中央値を出力⇒インパルスノイズ除去に効果あり

※原シーン情報の保全
⇒エッジ保存が重要

③バイラテラルフィルタ
Bilateral Filter
エッジ保存型平滑化フィルタ
⇒注目点からの距離に応じたガウス分布重みと、注目点との値の差に応じたガウス分布重みからなる2つの重み係数を設定し、掛け合わせて用いる

④画像の統計的な性質を用いた方法

⑤ウェーブレット変換

⑥ブロックマッチング

※ノイズ除去の評価
PSNR (Peak Signal-to-Noise Ratio)
単位dB, 画像一致すれば無限大、40dB以上あれば区別がつかない
原画像 S(i,j), ノイズのある画像N(i,j)

PSNR=10*log{255^2 / (1/(m*n))Σ[i=1..m]Σ[j=1..n](S(i,j)-N(i,j))^2*

※ノイズモデル
加法性白色ガウスノイズを仮定
⇒周波数パワーが等しい=白色
⇒ノイズ分布はガウス分布
例)8ビットの濃淡画像に標準偏差20の白色ガウスノイズを加えると22dBほどの劣化画像となる。バイラテラルフィルタでは29dBほどの画像に修復される

_◇光学的、幾何学的劣化補正

①シェーディング補正
周波数の低い濃淡むら
cosθ4乗則の周辺減光
口径食(けられ)
※装置に固定⇒画素位置に応じた係数で補正可能

②歪曲収差
幾何的歪

たる型
いと巻き型

※画素位置に応じた変位量で補正可能

③倍率色収差

※色収差:レンズの屈折率が光の波長によりことなるために像位置がずれる現象

※倍率色収差
画像周辺部
青色像は緑像より拡大方向
赤色像は緑像より縮小方向
⇒3色の画像が正確に重なるように青色、赤色を移動させることで補正する

_◇階調と色の補正

①トーンマネジメント

※γ特性
標準ディスプレイ(ブラウン管)の基本特性
入力信号の2.2乗に比例した明るさで表示される
⇒LCDなどでも、過去のシステムと互換性を保つためにガンマ特性を持たせてある

※撮像素子
像の明るさに比例した信号を出力
⇒デジカメ内部でガンマ補正(階調補正)を行う
例)撮像素子γ=0.45、ブラウン管γ=2.2

例)10x10程度に分割した領域で測光
全体的な輝度分布から、露光量や階調特性をする

※ニー補正
あるレベル以上の明部の信号を圧縮する

※ヒストグラムを使った階調補正
画素値が密集する階調近傍を伸長し、疎な階調近傍を圧縮する
⇒視認性が改善されることがある。

②高ダイナミックレンジ画像の取得

※現実世界の輝度
夜空 10^-2 cd/m^2
太陽光 10^9 cd/m^2
⇒撮影されるシーンのダイナミックレンジが100dB以上となることもある
⇒一般的コンパクトデジカメ50dB
⇒一眼レフデジカメ70dB

※高ダイナミックレンジ HDR(High Dynamic Range)画像の取得
同じシーンに対して露光量を変化させて複数枚の画像を取得し、合成
⇒表示にも問題あり、HDRを直接表示できない場合は、トーンマッピング処理を行う

③ホワイトバランス補正

◆デジカメ画像処理

①画像のノイズ除去、歪み補正、色、階調補正
⇒基本写真画像処理

②オートフォーカス、オートアイリス
⇒カメラ制御技術
⇒顔検出や、動被写体の追跡などのCV技術を含む

③ブレ、ボケの補正、コンピュテーショナルフォトグラフィ技術

_◇オートフォーカス
AF: Auto Focus
被写体に自動的に焦点を合わせる機能

①位相差方式
一眼レフで一般的
撮影レンズの端部の光線をセパレータレンズで分離、
AFセンサ上に2つの像を結像
像の位置の差(位相差)から被写体までの距離を求める
⇒位相差からレンズ位置を調整
※主要被写体の位置を判断するため、多くの測距点について距離を求める
※直接距離をもとめるので、高速

②コントラスト方式
コンパクトデジカメで一般的
複数の焦点位置の異なる画像のコントラストの評価値から評価値最大となるようにレンズを制御する
※複数の画像を必要とするので、合焦に要する時間が長いが、精度は良い。

※単純方式では画像の中心に焦点を合わせていたが、顔オートフォーカスが一般化
移動体に追随するオートフォーカスもあり

_◇自動露出 AE
オートアイリス
Auto Exposure

人間の視覚を模擬するように光の絶対量を補正する機能

※コンパクトデジカメでは撮像素子自身の出力を光センサとして使う

※画面の平均的明るさだけでなく、小領域の測光量にもとづいて逆光や、主要被写体の光量を測定することが行われる

_◇ホワイトバランス

色のバランスを補正する機能
⇒人間の視覚は環境光の違いによらず、被写体本来の色を(あるていど)知覚
⇒デジカメ画像は環境光の影響を直接受ける
⇒人間にとって自然な画像に補正する操作をホワイトバランスという

※ホワイトバランスの手動設定
晴天、くもり、電灯、蛍光灯などから選択
環境光の色温度を指定できるものもある

※オートホワイトバランス
①環境光センサ

②撮影された画像からの推定
⇒輝度が高く彩度が低い部分の色信号を積算
⇒これにカメラの焦点距離、露光量などを付加して推定
RGB->YUV変換
画像の中の明るい部分のUV信号を積算し環境光を推定
UV信号を補正

_◇ISO感度

※ISO感度
写真フィルムの感光感度の規格
感度が2倍になれば半分の光量で同じ濃度の画像

※デジカメでのISO感度
撮像素子から読み出される信号ゲインをあげる
⇒ノイズが目立つ

_◇シャッター
①メカニカルシャッター
CCDのスミア(電荷転送中の光の漏れ込みによる筋状の白とび)対策など

②電子シャッター
⇒撮像素子内で電荷蓄積モードと廃棄モードを切り替える
※CCD
グローバルシャッター
⇒全画素同一タイミング
※CMOS
ローリングシャッター(フォーカルプレーンシャッター)
⇒行ごとに時間がずれる
⇒フォーカルプレーン歪みの発生

_◇ぶれとぼけ

①ピンボケ
本来の焦点位置からはずれた位置にフォーカス
②ぶれ
1)被写体ぶれ
シャッターが開いている間に被写体が動いた
2)手ブレ
シャッターが開いている間にカメラが動いた

※いずれも映像の記録前に発生を抑えるのが基本
※ボケ対策
オートフォーカス
※被写体ブレ対策
高速シャッター、高感度撮影
※手ぶれ対策
光学式手振れ補正

※記録前に抑えきれない場合
⇒画像処理による補正、修復

※手ぶれ補正
①光学式
レンズと撮像部を機械的に制御し、光像を安定化
レンズシフト方式(レンズ内蔵方式)
撮影レンズの一部を上下左右に移動させて安定化する
⇒一眼レフの光学ビューファインダー像も安定化できる

センサシフト方式(ボディ内蔵方式)
撮像素子を移動させて安定化する
⇒一眼レフの場合、交換レンズの選択しやすい

②電子式
撮影されてしまった画像を画像処理によって補正

※手ぶれ補正の性能はシャッター速度の段数換算で表す
例)3段分⇒8倍遅いシャッター速度でも同程度のテブレ

※動画の場合
連続するフレーム間の動きを計算し、画像を位置あわせし、画像表示枠を再設定する
⇒ジャイロ不要
⇒2画像の位置合わせ方法
テンプレートマッチング
フレーム1のある矩形領域と最も類似度の高いフレーム2の位置を探す
勾配法(オプティカルフロー)
2波形のズレ量を勾配から推定

※静止画
加算合成式
高速で連写⇒ここは露光時間短くノイズ多いが手ぶれは小さい
⇒位置合わせして加算合成
画像復元式
点広がり関数をジャイロセンサなどで推定
長短露光2画像合成
加算合成に近いが、平たん部は長露光、エッジ部は短露光で合成

_◇点拡がり関数
点光源に対する撮影画像の輝度分布を表した関数
⇒点像分布関数、点応答関数

※ボケやブレのない画像にN個の点像が含まれるとする
n番目、座標(xn, yn),輝度f(xn,yn)
点拡がり関数h(x,y)
⇒ボケ、ブレ発生後の輝度分布
g(x,y)=Σ[n=1:N]{h(x-xn,y-yn)*f(xn,yn)}

※2次元で画素間隔Δx,Δyを無限小とすれば
g(x,y)=∬d{h(x-x0,y-y0)f(x0,y0)}dx0dy0
⇒畳み込み積分、コンボリューション

畳み込み演算子「*」をつかって
g(x,y)=h(x,y)*f(x,y)

※空間シフト不変性
点拡がり関数が画像全体で一定
⇒広角レンズでは中心と周辺ではボケがことなり厳密にはなりたたない

※線形性
ぼけやブレの重なりを加算できること

※空間シフト不変で線形であれば、複数の点拡がり関数を
h(x,y)=h2(x,y)*h1(x,y)
と計算できる

_◇ぼけ、ブレの周波数解析

※2次元フーリエ変換
空間周波数の異なるさまざまな正弦波パターンに任意の画像が分解できる
F(ωx,ωy)=∬D{f(x,y)e^(-j(ωx*x+ωy*y))}dxdy

ωx 横軸周波数
ωy 縦軸周波数
ωy/ωx 横軸からの傾き
√(ωx^2+ωy^2) 傾き方法に沿った周波数

画像のフーリエスペクトルF(ωx,ωy)
複素数
絶対値が各空間周波数(ωx,ωy)の振幅スペクトル
Arg[F(ωx,ωy)]が基準パターンからのずれ量(位相スペクトル)
⇒中心が直流成分、周辺へ行くほど空間周波数が高くなる
⇒逆フーリエ変換
各空間周波数の正弦波パターンe^(j(ωx*x+ωy*y)をF(ωx,ωy)で重みづけして足し合わせれば、もとの画像が再生できる

※点拡がり関数の2次元フーリエ変換(伝達関数)
H(ωx,ωy)=∬{h(x,y)e^(-j(ωx*x+ωy*y))}dx,dy
により、ぼけブレ画像g(x,y)が, 被写体f(x,y)=e^(j(ωx*x+ωy*y))に対して

g(x,y)=H(ωx,ωy)*e^(j(ωx*x+ωy*y))

のように係数倍を除いて不変な関数e^(j(ωx*x+ωy*y))を固有関数
そのときの係数H(ωx,ωy)を固有値とよぶ
⇒振幅、位相は変化するが同じ周波数(正弦波)が表れる
⇒MTF(変調伝達関数),|H(ωx,ωy)|の直流成分を1に規格化したもの

※ボケ、ブレ画像
元画像の各正弦波にHにより振幅、位相が変化させられ、それらが重ねあわされたもの
⇒ボケブレ後の画像スペクトルは元の画像スペクトルに伝達関数の利得を乗じたもの

※コンボリューション定理
畳み込み∬が、周波数領域では単に各成分の乗算で表せること

◇ぼけブレの補正、修復

ボケぶれ画像G(ωx,ωy)、点拡がり関数H(ωx,ωy)が計算できれば

F(ωx,ωy)=G(ωx,ωy) / H(ωx,ωy)

これを逆フーリエ変換すれば、ぼけぶれの修復されたf(x,y)を求めることができる
⇒逆フィルタ、デコンボリューション
⇒ぼけブレによる高周波成分の減衰H(ωx,ωy)を打ち消すには、
逆に増幅 1/H(ωx,ωy) してやればよい

※問題点
H(ωx,ωy)は高周波で0に近い値をとるので、逆数は非常に大きくなることがある
⇒わずかな雑音が大きく増幅される
H(ωx,ωy)が0となる遮断帯域については逆数をとれない
⇒不良設定問題

※疑似逆フィルタ
遮断帯域を0としてしまう
⇒情報は消失する

※正則化逆フィルタ
雑音の増幅を抑制しながら」の修復


^         H (ωx、ωy)
F(ωx、ωy)=--------------・G(ωx、ωy)
|H(ωx、ωy)|^2+Γ

*は複素共役演算
Γは正値のパラメータ(逆フィルタと雑音抑制の調整パラメータ)
H(ωx、ωy)が0の場合は0
H(ωx、ωy)が十分大きい場合はΓは無視でき、逆フィルタとして働く
中間の場合は、効果を弱めた逆フィルタとして働く

※パワースペクトル
⇒スペクトルの二乗平均

※ウィナーフィルタ
Γの値を以下の式で決めたもの
Sn(ωx、ωy) 画像に加わる雑音のパワースペクトル
Sf(ωx、ωy) 元画像のパワースペクトル

Sn(ωx、ωy)
Γ=---------
Sf(ωx、ωy)

⇒周波数によりパラメータが変わる
⇒雑音が小さい帯域では逆フィルタ、雑音が大きくなると遮断フィルタとなる
⇒ただし、通常は各周波数での雑音の寄与比が分からないことが多いので、手動のΓ調整となることも多い

※フーリエ変換を必要とせず画像領域での繰り返し演算により修復する方法
①Lucy-Richardson法
②Iterative Back Projection法

_◇ブラインド・デコンボリューション
点拡がり関数が不明の場合

※確実な方法は存在しない
⇒事前知識をつかう

※ボケの修復
①点拡がり関数の情報をボケ画像から得る
例)天体画像⇒星は点光源とみなせる
一般の風景、人物⇒物体境界のエッジに着目
エッジ=ステップ関数⇒ステップ応答
点光源の1次元インパルス関数はステップ関数の1次微分
ステップ応答の1次微分が点拡がり関数

②Ayers-Dainty法
画像と点拡がり関数についての事前知識を使って、画像と点拡がり関数を交互に推定、事前知識で修正しながら絞りこんでいく

_◇各種手ぶれ補正方式

①加算合成方式
手振れが無視できるような短い露光時間で連写、フレーム間の位置ずれを修正し加算

②長短露光2画像合成方式
露光時間の長い画像を画像平たん部に、短い方をエッジ部につかって画像合成

③画像復元方式
通常の露光時間の撮影⇒点拡がり関数により修復
A)ブラインド・デコンボリューション相当
手振れ画像一枚の点光源などを細線化処理、軌跡を抽出
B)ジャイロセンサからの角速度情報⇒軌跡を算出
⇒光学式手振れ補正同様ジャイロセンサを用いるが、補正は画処理なので低コスト

_◇リンギング
修復画像の輪郭付近に現れる波打ち状の模様

※高周波を遮断した伝達関数により高周波成分がなくなり、平たん領域を形成するときに打ち消すべき高周波成分が残ったままになる

※雑音が重畳する場合には、雑音の増幅が問題となる
⇒リンギング低減とは相反

※バイラテラルフィルタなどで輪郭を残したまま、近傍のみを平滑化する
⇒一種の非線形フィルタ、超解像法ともいえる

_◇ブレの測定、補正性能

①静止画テストチャート
理想画像からの歪みや劣化を測る

※手ブレ計測
点光源の撮影⇒軌跡(点拡がり関数)⇒定量化
水平 ヨー
垂直 ピッチ
輝線パターンに対するフーリエスペクトル解析
縦方向、横方向
縦軸:振幅、横軸:規格化周波数
⇒空間周波数領域では微小な手振れでも高域は大きく減衰
⇒直接画像領域で測るより高感度

②動画テストチャート
高速に切り替わるパターンを撮影
例)格子パターン⇒手振れがまったくなければ等間隔
手振れがあるとパターンが移動、回転
⇒乱れからずれ量を時系列にもとめられる
⇒専用のLEDディスプレイが使われる

※撮影画像一枚一枚のテブレ軌跡を求めても偶然性高い
⇒平均的傾向をみる

_◇反射鏡の跳ね上がりによるカメラ内部振動

_◇規格化周波数

画素を大きさΔxの正方形とすると、坐像の波形はΔxの間隔で標本化される

正規化角周波数ω
角周波数Ω

※画像をピクセル単位で考えれば
Δx:サンプリング周期=画素の大きさ(1ピクセル)
正規化角周波数と標本化前の角周波数は等しい
ω=Ω

※画像解像度がD(PPI: Pixcel per inch)のとき、mm単位で考えると
サンプリング周期Δx(mm)は
Δx=25.4/D (mm)

ω=25.4Ω/D

標本化前の角周波数は
Ω=2πf

f:を空間周波数とよぶ

※2次元の周期信号(振幅0~255)
g(x,y)=(255/2)*sin(ω1*nx+ω2*ny)+(255/2)
ここで
ω1=Ω1*Δp
ω2=Ω2*Δp

ω1,ω2 標本化された信号の正規化角周波数
例)256ピクセルで1周期の信号ならω=2π/256
Δp:サンプリング周波数(画素の大きさ)
Ω1、Ω2:標本化前の角周波数
nx,ny=0,1,2…

_◇人間の視覚特性
人間の視覚特性は、デジカメの入出力デバイスの特性とは大きくことなるので、人間の視覚による見え方に近づけるように画像処理するのが基本

※人間の眼の構造
角膜、虹彩、水晶体、網膜

外界からの光は、角膜と水晶体により網膜上の中心窩に結像。
虹彩は瞳孔の大きさを調整(絞り)

網膜、2種の視細胞。
杆体 暗い条件下、明るさのみ
中心窩から離れた方が多い
錐体 明るい条件で、3種存在、異なる波長応答性⇒色彩知覚
中心窩近傍に分布

神経接続、4つの神経細胞
双極
水平
アマクリン
神経節

※画像生成のしくみ
光源
分光エネルギー分布
物体
分光反射率
⇒視角系への入力
反射光分光分布⇒光沢の無い場合
⇒光沢やハイライトを含むと⇒鏡面反射の成分が加わる
⇒人間の可視光、400nm~700nm
錐体の分光感度

※階調特性
人間の環境
夜空の星の明るさ 10^-4 cd/m^2
太陽の明るさ 10^9 cd/m^2
ディスプレイ
1~1000強、レンジ100~1000と狭い
⇒人間は10000程度のレンジに対応可能
⇒人間の明るさの間隔は非線形
⇒Weberの法則:弁別可能な輝度差は環境光の輝度に比例する
⇒Fechnerの法則:明るさ感覚Rは輝度の対数に比例する
R=k*log(L/L0)
L:入射光の輝度、L0:明るさ間隔の無くなるときの輝度
k:比例定数
⇒Stevensの式(心理物理学)
R=k*(L-L0)^n
n=1/3
⇒生理学的な動物網膜の光応答(Rは電圧)
R=Rmax*(L^n/(L^n + L_1/2^n))
L_1/2はRがRmax/2となるときの光強度

※色恒常特性
人間の視覚系は、照明変化に対して物体の色の見えが大きく変化しない
⇒色恒常性、カラーコンスタンシー

※色順応特性
明るさの変化への対応⇒明暗順応
照明光の変化による色彩の順応⇒色順応現象

※色の見えの空間特性
等色でも、人間は画像の空間構造に依存して、異なる解釈をする

_◇デジカメにおける画像獲得

①量子化特性
入射する光の強度:連続的アナログ量
⇒量子化⇒必ずしも線形な量子化特性ではない

②分光感度
デジカメの分光感度曲線は錐体の分光感度曲線とは直接一致しない
⇒ホワイトバランス
例)赤みの強い白熱灯下では、昼光モードより、赤センサの感度を下げ、青センサの感度をあげる

③HDR
人間の視覚系約10^4:1の明暗比を見分けることができる
⇒デジカメのレンジは狭く、ハイライト部分では容易にレンジを超える
⇒白飛び、画素値の飽和

※HDR(High Dynamic Range)画像
⇒センサレベルでの実現が難しい
⇒複数のシャッタースピードの画像を合成し、ダイナミックレンジの広い画像とする
⇒たとえばシャッタースピードを半分、4分の1などとする

④出力デバイス特性
非線形

※CRTの場合
L=I^γ
L:ディスプレイ輝度値
I:画像デジタル値
γ:ディスプレイのγ、2.0~2.5

※液晶ディスプレイではS字曲線となる

※キャリブレーション⇒ルックアップテーブル

_◇画質改善

※多くの被験者をつかった主観評価
⇒人間の視覚による見え方に近づける

※トーンマネジメント
画像の階調特性を制御して画質を改善すること
⇒その操作=トーンマッピング

※階調変換曲線
TRC:Tone Reproduction Curve
⇒最適な曲線は画像に依存
⇒ルックアップテーブル処理

※レティネックス(Retinex)モデル
古典的な視覚モデル
⇒カメラ画像から照明光の影響を除去することで画質を改善

①空間不変法
画像全体に単一の階調変換を適用する
⇒線形圧縮法
入力輝度レンジをディスプレイの輝度レンジに均等に割り当てる
コントラストが小さくなる
⇒ヒストグラム平坦化法
画像の輝度値の分布に偏り⇒画素値のヒストグラムを平坦化する
輝度値Y(R,G,Bからの変換)
Y=0.299*Ir + 0.587*Ig + 0.114*Ib
Yのヒストグラムで平坦化
特定の領域や輝度レベルで階調性に問題が残ることがある。計算コストが高い。
⇒Weber-Fechnerの法則
⇒Stevensらの指数関数式
⇒ニー(Knee)関数
カメラ内部のダイナミックレンジ圧縮に用いられる
白飛び抑制
低~中輝度の階調レベルは不変
ニーポイント(Knee Point)と呼ばれる閾値以上で高輝度を圧縮
区間的には線形
ニーポイントの設定が重要
⇒シャドーアップ関数(Shadow-Up)
写真撮影のレフ板にあたる
被写体の影部分の黒つぶれを防ぐために低輝度部分を持ち上げる
暗部だけを集中的に明るくするので不自然さを生じる場合があり、局所領域毎に階調カーブを変化させるなどの方法がある

②レティネックス
空間可変のトーンマッピング
局所的な特徴量に応じて、画素毎に異なる階調変換をする
人間は、照明光の影響を排除し、反射率を知覚する

※撮影画像I、反射率画像R,照明光分布L
I(x,y)=R(x,y)*L(x,y)
⇒なんらかの方法でLを推定すればR=I/Lより反射率画像Rが復元できる

※C/Sモデル(Center/Surround)
局所的な照明光をガウス関数の畳み込みによって推定
⇒注目画素の輝度と周辺の平均輝度の比から相対的な反射率画像を得る

※SSR(Single-Scale Retinex)
各画素の処理時に単一のSurround情報のみを使用
⇒勾配の大きい領域の境界で不自然な帯状妨害(Halo)が発生する
対数空間

※MSR(Multi-Scale Retinex)
周辺領域の広さが異なる複数のSSRに加重をかけて合成
⇒出力値が不安定、カラーバランス崩れやすい
対数空間

※線形SSRモデル
σ小だと、照明光推定の意味が薄れる。σ大だとHaloが発生する
⇒ここでもMSR化
⇒パラメータ多く、自動化難しい
⇒計算量大

③HDR、視覚系の順応効果を考慮した方法
網膜応答の関係式(Rmax=1で正規化、L_1/2をパラメータ化)

R=I^n / (I^n + σ^n)
I:シーンの輝度
n:感度コントロールパラメータ、0.7~1.0 Hunt順応モデルでは0.73
σ:半分応答のパラメータ。シーンの輝度に対する順応値、大きく変動する。

※順応モデルの逆変換式からディスプレイ輝度を求める
I=((R/(1-R))^(1/n))*σ

※バイラテラルフィルタの利用

_◇バイラテラルフィルタ
Bilateral Filter

2つのガウシアンフィルタ
①標準空間フィルタ:注目画素と近傍画素の距離を荷重として演算
②輝度に関するガウスフィルタ:注目画素と近傍画素の輝度差で荷重を決める

◆画像認識

_◇シーン分類
撮影時のカメラパラメータの最適化
撮影済画像の検索

※被写体までの距離やシーンの測光値などの情報も加味

_◇パノラマ画像合成
3脚などでカメラの投影中心が移動しなければ継ぎ目なく合成可能
手持ち撮影などでは限界がある

※仮想投影面への射影
円筒、球、平面
⇒投影面により合成画像のしあがり異なる

※動画像の場合には合成条件緩和
⇒しかし、カメラの動きによって複雑にゆがむ

_◇超解像度処理

※一般的バイリニア補間、バイキュービック補間
⇒元画像に存在しない高周波成分は生じない

※超解像度処理
⇒元画像に存在しない高周波画像を生成

※複数画像を用いた超解像処理
同一被写体の任意方向に若干位置連れさせた複数の画像
⇒サブピクセル精度で位置合わせ⇒画像復元

※一枚の画像による超解像処理
⇒サンプリング定理の枠組みを超える
⇒画像の性質になんらかの仮定を置く推定
事例ベースの超解像
フラクタル性を利用した超解像

_◇3D処理

①2組の撮像系

※対物レンズ1枚でも、レンズの左側の画像と右側の画像を光学的に分離すれば可能

※平行移動しながらの動画像から3D化も可能

※完全に1枚の画像からは、シーンに対する仮定が必要

◆顔認識技術関連

_◇顔画像センシング技術の概要

┌顔検出:オートフォーカス、オートアイリス
│    オートフレーミング、インデキシング
└顔トラッキング───顔器官検出+顔向き推定
│├顔認証
│├年齢推定
│└笑顔度推定
├顔器官開閉トラッキング
└肌領域検出、顔輪郭検出

_◇顔検出

※顔の多様性、変化、付加物
※撮影環境
※実装課題

①顔の局所的な領域の明暗差を特徴量とし、多数組み合わせる
②検出は階層構造とする

※Haar-like特徴
2つの矩形領域の平均輝度の差を特徴量とする
⇒顔のさまざまな①に共通する明暗差が存在
⇒非常に少ない情報量で顔の特徴を表現

※積分画像
左上からその画素までの輝度累積値をその画素の値とする
積分画像があると
⇒矩形領域の大きさに関わらず3回の加減算で輝度値の合計を求めることができる
A┌─────┐B
│     │
C└─────┘D
A-B-C+D

※AdaBoost
顔検出に有効な特徴量を選び出す統計的学習手法
投票型の学習アルゴリズム

※階層的な検出器構造
着目する位置をずらしながら顔を探索
⇒顔を大まかにとらえる構造を先に配置、細部は階層構造の深い位置におく
⇒非顔を高速に落としながら、精度も確保

※大きさ、向き、傾き
大きさ:複数の大きさの画像を用意、小さい画像から判定
向き:例0、45°、90°など複数の検出器を用意
傾き:やはり角度の異なる複数の検出器

_◇顔器官検出技術

※手順
3次元の顔のモデルを作成
それを2次元画像上の顔画像にフィッティング
⇒顔の向きなどによらず、より正確な器官の位置と形状を検出

①3次元顔モデル
マルチアングルカメラで多数の顔を多数の角度から撮影
特徴的な点(目尻、目頭、鼻の両端。。。)を人手で入力
⇒平均3次元座標間を結ぶ
⇒注目点から放射状にサンプリング点を配置
Retinotopic Sampling
各点でHaar-like特徴
⇒3次元顔モデルは回転、縮小拡大など自在

②2次元画像へのフィッティング

※べたなトライ&エラー

※誤差相関学習

_◇笑顔度推定技術

笑顔になったときの特徴を検出

※Haar-like特徴は、顔表面のしわの情報を豊富に含む

※笑顔度=事後確率

※学習
スパースプロビット回帰で人間が100%の笑顔と識別した画像を学習させる
⇒重み係数はラプラス分布

_◇年齢推定技術

おおまかな流れ
①顔検出
②顔器官を見つける(3次元モデルフィッチング)
③エリア毎に特徴を抽出
④これを数十万人の顔画像と実年齢情報から統計学習したものと識別
⑤エリア毎の推定を統合し、推定年齢を算出

※各年齢クラス別の特徴ベクトルが写像された線形空間
入力画像を上記空間に写像、入力特徴ベクトルと各クラスの平均距離算出
⇒両隣のクラスも考慮

_◇顔認証

あらかじめ登録しておいた顔画像と、あらたに入力された顔画像を照合
⇒十分に類似度が高ければ本人と認識する
⇒顔画像の登録が少ない中で特徴の変動範囲を予測、マッチングを行う

※ガボールフィルタ
周波数領域での解析用の特徴量
Haar-like特徴より精度が良いが、速度が遅い

※Haar-like特徴

_◇顔最適撮影
顔の位置を検出し、自動的に商店や、露出、構図をあわせる

①顔オートフォーカス
顔の領域に最適な焦点をあわせる。
画像内での位置、複数顔の処理など

②顔オートアイリス
顔の領域が最適な明るさや色合いになるように露出を合わせる

③特定個人優先 顔オートフォーカス、オートアイリス
登録特定個人を優先して処理

④赤ちゃん、こども優先 顔オートフォーカス、オートアイリス
画像中から検出した顔のうち、年齢推定により赤ちゃんや子供を優先して処理

⑤顔オートフレーミング
顔が最適な位置に来るように、画像をクリッピング

_◇顔最適タイミング撮影

①笑顔最適撮影
画像から検出された顔で、最も笑顔度の高い瞬間を自動記録

②目つむり防止
対象の顔や全員が目を開いている瞬間を自動的に記録

※類似
顔の向きを推定し、正面に近いタイミングを記録
タイマ撮影者が1名増えたら記録

_◇顔最適補正

①美肌補正
肌領域を認識し、ソフトフォーカスをあて、シミ、ソバカスなどを目立たなくする

②美白補正
肌領域を認識し、より白く+美肌補正

③赤目補正
フラッシュにより発生する赤目などを認識し、本来想定される目の色に補正する

④小顔補正
検出した顔を、つなぎが違和感ないようにしつつ、顔を小さく細く補正する

⑤瞳補正
眼を少し大きく補正、あるいは瞳の中に光をいれてアイキャッチを目立たせる

_◇顔画像検索

①顔インデキシング
人の顔画像の検索用意か

②顔検索
指定の顔が写っている画像を検索
人物別にフォルダ分類

_◇OKAO Vision
オムロン

大量の画像データが基礎
①機械学習で生成
顔、人体、手などの特定パターン
⇒認識時には統計的識別手法を使う
②モデル化
顔や手などの3次元形状モデル
⇒認識時には3次元モデルを2次元画像に適合
(モデルフィッテング)

◆物体追跡技術
与えられた動画像の中で指定対象が、各画像間でどのように移動したかを推定する

※事前に(タッチパネルなどで)指定された追跡対象を後続フレームにおいて探索する

_◇物体追跡の分類

①逐次処理
被写体の初期x0が次フレームにおいて移動量Δx移動したことを順方向に逐次処理

②一括処理
既にある動画像を時空間として、順、逆の両方向から追跡
⇒物体の重なりによるオクルージョン(隠れ)に対して頑健
⇒動画像の撮影後に利用

※双方向追跡
初期フレームと最終フレームで追跡対象を指定
初期フレームから順方向
最終フレームから逆方向に追跡
オクルージョン時には双方の結果から軌跡を推定

_◇物体追跡の応用

※領域ベースの追跡
①オートフォーカス
②オートアイリス
③オートフレーミング

※特徴点ベースの追跡
④パノラマ写真

_◇領域ベースの追跡手法

※同一物体と特定するための特徴量
⇒カラーヒストグラムが多い

※全探索
⇒全領域で、類似度が最大となる位置を見つけ出す
処理量大
⇒アクティブ探索
テンプレートとある領域の類似度が低ければ、周辺の重なりをもつ領域の類似度も低いとして、計算量をはぶく
⇒領域Aと領域Bの重なり率と領域Aとテンプレートとの類似度がわかれば、領域Bとテンプレートとの類似度の上限も判明する
⇒追跡対象に近いところでは密な探索、そうでないところでは疎な探索となる

※局所探索
物体①を推定し、局所を探索
⇒Mean Shift
追跡対象領域のカラーヒストグラム情報をより多く持つ方向に追跡
次のフレームと前のフレームの対象領域のヒストグラムの頻度の比率で重みをつける
同じなら1、
増えるなら1以下(新たに入ってきた別なもの由来)
減るなら1以上(対象領域から対象物が出て行ったから)
⇒重みから移動方向を推定
⇒大きな移動や、オクルージョンの発生に弱い

※確率的探索
⇒Particle Filter
物体の移動位置をあらかじめ予測し、周囲にパーティクルを散らして対象物体と似たカラー情報を持つ領域を観測する
⇒パーティクルの数が多ければ精度が高いが、計算量は増大する

※カラーヒストグラム
フレーム間で変動の多き、アピアランスの変化
⇒カラーヒストグラムは姿勢変化の影響を受けにくい
⇒しかし照明変化でRGB値は変化しやすい
⇒階調数を減らして減色
分割数Qのときの色番号
i=R*Q*Q+G*Q+B
⇒あるいはHSIで明度を除き、色相と彩度をつかう
⇒対象物の面積が異なると頻度が変化するので合計が1となるように正規化する
⇒類似度の算出方法
ヒストグラムインタセクション
Bhattacharyya係数

※ヒストグラムインタセクション
p:テンプレート
q:対象領域
ρ(p,q)=Σ[i=0,n]min(pi, qi)
⇒各色番号の頻度の小さい方の総和を求める

※Bhattacharyya係数
ρ(p,q)=Σ[i=0,n]√(pi*qi)
⇒色番号数が多いときには、ノイズの影響を受けにくい

_◇特徴点ベースの追跡手法

※パノラマ写真
画像上の特徴点を抽出
複数画像間の対応点を複数求めて、点と点を重ねてつなぐ

※特徴点検出
輝度分布(濃淡パターン)の情報を用いる

_◇SIFT(Scale Invariant Feature Transform)
画像の回転や拡大縮小に強い
⇒スケールと回転を整えた状態で領域間の類似度を計算する

※SIFT応用
Photosynth
いろいろな角度で撮影した複数枚の写真を3次元空間に並べる
⇒SfM(Structure-from-Motion)により撮影位置と対応点の3次元位置を計算する
http://phtosynth.net/

◆コンピュテーショナルフォトグラフィー
Computational Photography

「画像認識に不可欠な前段の処理を実行した上で出力するイメージ・センサがあれば、プロセッサは後段の処理に集中できる。」
―――ソニー(日経エレ2012.8.20,P.39)

※画像処理と光学設計の組み合わせ
⇒画像処理を前提にレンズを設計しなおす

※そのまま人間が認識できる画像らしい画像を記録するわけではない

_◇プレノプティック関数とカメラによる記録

※3次元空間を満たす光の分布=プレノプティック関数
I=P(X,Y,Z,θ,φ,λ,t)
⇒干渉、量子的効果は無視
⇒このような光線で埋められた3次元空間をライトフィールドという

※カメラによる光線の記録
⇒画素の面積はゼロではないので、一つの画素がとらえる光の方位(θ、φ)には幅がある。
⇒絞りを絞り過ぎても記録できず
⇒シャッターにも速さの制限があり
⇒波長も狭くしすぎると感度が低下
⇒カメラはプレノプティック関数Pの値を直接得るのではなく、ある範囲の値を積分した値を出力する
⇒積分の工夫がポイントとなる

_◇ライトフィールドカメラ

空間の中の光の位置や向きなどを記録
⇒プレノプティック関数Pを記録する装置
⇒プレノプティック関数の7パラメータをそのまま取り込むのは難しいので減らす
⇒光は減衰せず、直進すると仮定
⇒幾何学的パラメータ(X,Y,Z,θ,φ)を4つに減らす
通過位置(x,y), 傾き(u,v)
⇒λとtは別に考える
⇒カメラ用のライトフィールド表現
I=P0(x,y,u,v)

※通常カメラの2次元⇒4次元(通過位置+光線の傾き)

※古典的カメラアレイ
⇒イメージベーストレンダリング
⇒ViewPlus ProFUSION 25

※主レンズ以外にレンズアレイあるいはマスクで主レンズの特定領域の光だけに感度を持つようにする
⇒コサインマスクを用いたヘテロダインカメラ

※Lytro
センサは通常のCMOSセンサだが、保護ガラス兼用のマイクロレンズアレイが特殊。
撮像素子半径5画素にたいしてマイクロレンズ1個の割合
マイクロレンズアレイはハニカム
撮像素子画素:3280×3280
マイクロレンズアレイ:330×380
生成する画像:1080×1080
⇒ライトフィールドレンダリング?で解像度を上げている

※カメラによる画像撮影過程
①光源
色、配光、強度、配置
②対象
形状、配置、色、反射特性、動き
③反射
⇒光エネルギーは、3次元空間をうめる
⇒カメラはその一部を記録する
④撮影
レンズ特性、撮像素子特性、配置、動き

※空間中の光線の記述
①光線が通過する位置
⇒三次元座標3パラメータ
②3次元空間中の向き
⇒オイラー角3パラメータで表されるが、方向を軸とする回転は無視
2パラメータで表す
③色
⇒物理的には色の概念はないので波長をそのままパラメータとする
④時刻
⇒物体や光源の動きに連動

_◇インテグラルフォトグラフィ

ディスプレイ面のそれぞれの位置から、さまざまな方向へ異なる強さの光を照射
⇒立体視できる

※ライトフィールドカメラが取り込む光線をインテグラルフォトグラフィ方式で投影できれば、立体(窓を通して外を見る感じ)が見える
⇒光線再生方式

_◇コンピュテーショナルフォトグラフィの画像生成

ライトフィールドカメラ

インテグラルフォトグラフィによる再生

通常カメラによる再撮影

※これをコンピュータ内で演算で代替すれば画像となる

_◇デジタルリフォーカス
撮影後に、被写体の任意の部分にピントを合わせなおす

※対象物体が静止していれば、デジタルカメラを上下左右に平行移動させながら多数の画像を撮影することで、原理的にはライトフィールドを取得するこはできる
⇒素直にやれば装置は大がかりとなる
⇒特徴点追跡から、カメラの位置や姿勢を推定

※ボケ生成技術
小口径のレンズで主要被写体の背景などをぼかさせる技術

_◇符号化撮像法

※露光量を減らすと
画像暗くなる、ノイズが相対的に増える
※露光量を増やす(絞り大、シャッター長)
ボケ、ブレ

※積分による情報の喪失
区間一定
⇒積分区間の幅に周期が一定する信号とその整数倍は失われる
⇒ブレ除去などの処理のときに、特定信号が元からないので復元できない

※露光量を保ったまま、細かな情報を取り出したい
⇒符号化撮像法
重みを付けた積分により、信号の喪失がなくなる
(積分の符号化により情報の損失を防ぐ)

①符号化露光
露光時間中にシャッターを難度も開閉
(液晶シャッターなど利用)
⇒照明の明滅でも可能
⇒通常の露光では、露光時間に対応する空間周波数で情報が失われ、空間周波数特性に多数の谷ができてしまうが、符号露光では情報の損失が抑制される

②符号化開口
位置のパラメータX,Y,Zに符号化を適用
※レンズにより画像をぼかす⇒点光源は円形に広がる
⇒この円の半径に対応した元からある信号は失われる
⇒絞り付近に設置したマスクにより符号化開口を行う
⇒点拡がり関数が変化
⇒ボケ除去などに効果あり

※符号化開口技術はX線天文学で発達していた
⇒天文学では対象が無限遠と仮定できた
⇒カメラでは、カメラから被写体までの奥行を求める必要がある

※分光計測(昔から)
⇒アダマール変換分光法。いくつかの波長の組み合わせを計測しておいて、逆変換から分光分布を求める

※正方形画素
⇒その画素の形にぴったり収まる正弦波の情報を失う
⇒微妙にずれた画像を多数用いて解像どを向上させる超解像度処理では、失われたものが復元されるわけではない。
⇒画素をコード化すれば、画像が多数集まれば解像度を高められる

※Wavefront Coding
ボケを得られる光学系だが、対象物体までの奥行によって性質が変わらない

※露光中に撮像素子を光軸方向に移動される
ボケた情報とどこかにピントがあった情報が重ねあわされている
⇒ボケ復元処理により全体にピントが合った画像を得られる

_◇符号化絞りカメラ
Coded Aperture Imaging

符号パターンを入射光に付加することで空間の中の光の位置や向きなど記録
⇒時間軸情報をもった静止画

※絞り形状の変更
LCOS (liquid crystal on silicon)

_◇フォーカス・スウィープ・カメラ

撮像素子を動かすことでさまざまなポイントに焦点の合った複数画像を記録

_◇透明物体認識

※LFD
Light Field Distortion特徴
透明物体による光線の屈折をライトフィールド上でモデル化

_◇Smart Headlight
Carnegie Mellon University

雨粒をカメラで撮影、将来の軌跡を予測して、雨粒がある場所だけ抜けたパターンを投影する
⇒雨粒に反射せず、見通すことができる

_◇3D

_◇超高フレームレート

_◇スペクトラム拡大

_◇距離情報の取得

※ToF
time of flight
距離計測法
光源から対象物に照射した光の反射光から対象物の距離を算出する
①直接到達時間計測
②光源変調、反射光との位相差から算出

_◇ほけ関数
PSF
point spread function
点広がり関数

点光源のにじみの強度分布を関数として把握

◆空間認識技術

_◇ステレオ測距

①個体ごとの補正情報により画像を補正
レンズ位置、ひずみ、向き
②左右の画像の画素同士を照合
⇒視差からカメラとの距離を算出する
⇒各点の3次元座標を生成

_◇SmartAR

SONY
①特徴点抽出
②特徴量算出
③前フレームとの照合
④カメラの動き推定(因子分解法)
⑤カメラの動きにあわせて仮想物体を描画

_◇因子分解法
3次元空間の物体を撮影した複数の画像
⇒物体の3次元座標
⇒カメラの位置、向き
を推定する

※この問題の安定的近似解法

_◇LK法
Lucas-Kanade法
物体の動きをベクトルで表す「オプティカル・フロー」を求める手法の一種