AppliedPhysics_Sound

□音響、音声

☆音の性質

◆減衰
①拡散減衰
遠くに行くほど単位面積あたりの音のエネルギーが小さくなることによる減衰
②吸収減衰
媒質そのものによって音のエネルギーが吸収される。一般に周波数が高いほど大きくなる。

◆散乱
波長と同程度かそれよりも大きな障害物により散乱される。

◆抵抗
波長以下の大きさの障害物の場合、粘性が高いほどエネルギー損失が大きい。

◆反射
入射した音のうち、反射されない現象が吸音。壁により吸収され熱エネルギーとなったり、壁を通過してしまう部分。入射エネルギーと反射エネルギーの比を反射率と言う。

◆音響インピーダンス
√媒質密度*弾性率
または
媒質密度*音速
音響インピーダンスの差が大きい媒質ほど反射率は高くなる。音響インピーダンスをそろえると音波のエネルギーは透過する。

◆音圧レベル
ある音の音圧の実効値をP [Pa]とし、基準となる音圧の実効値P0 [Pa]とすると、音圧レベルL P[dB]は次式で表される。ここで、基準音圧は正常聴覚者の1kHzの純音に対する最小可聴値に相当する。

Lp=10 log10 (P^2/P0^2) dB
P0=20mPa=2e-5 N/m^2

20uPa 基準音圧

◆オクターブ

※オクターブ
ある周波数に対して周波数の比率が2倍になる音程

※オクターブバンド
ある周波数を中心として上限と下限の周波数の比率がちょうど1オクターブになる周波数の幅(帯域幅)

※中心の周波数をオクターブバンドの中心周波数という。

中心周波数foのオクターブバンドはfo/√2の下限周波数からfo・√2の上限周波数までの帯域と定められる。その他にもオクターブバンドを分割した、1/2オクターブバンド、1/3オクターブバンドなどがありそれぞれ帯域幅が定められている。

◆ノイズ

_◇ホワイトノイズ
単位周波数帯域(1Hz)に含まれる成分の強さが周波数に無関係に一定の雑音

※周波数を横軸にエネルギーを縦軸にとると
フラットなグラフ

※オクターブバンドパスフィルターで測定した場合
オクターブバンドの中心周波数が高くなるにつれて右上がりの特性になる。

_◇ピンクノイズ
ホワイトノイズに-3dB/oct の低域通過フィルタを通す

※周波数を横軸にエネルギーを縦軸にとると
高い周波数帯域に行くにつれて右下がりのグラフ

※オクターブバンドパスフィルターで測定した場合
どのオクターブでみてもエネルギーが均一でフラット(平坦)な特性になる。どのオクターブの帯域でみても音の大きさが同じ音であるため音響調整や測定ではピンクノイズがよく使用される。

_◇バブルノイズ
背景の人々の声など。

☆音声

◆音声の生成機構と音素

①音源:声帯の振動(周期信号)、声道の狭めに伴う乱流(雑音信号)、声道の閉鎖開放に伴う破裂(インパルス信号)。
②音響的なフィルタ:ハイカラ、声帯、あご、舌、唇等の調音帰還の位置や動き

※音声は、音声言語の最小単位である音素に区分して表記することが可能だが、音声波形を音素に対応する区間に分割できるわけではない。

_◇モデリング
3種の入力信号を調音フィルタに入力した際の出力信号としてモデリングできるが、離散的には調音フィルタは、その伝達関数がIIRフィルタの中でもフィードバックループのみで構成される全極形のフィルタとして

b0
H(z)=-------------------
1-a1Z^-1-...-apZ^-p

により与えられる、とするのが音声認識分野における妥当な仮定として受け入れられている。

※全極形フィルタは、特性を可変に実現しようとする場合に優位性がある。

_◇音声認識
音声信号から調音フィルタの振幅伝達特性|H(z)|を抽出し、音素の標準的な音響特徴と比較照合する。

◆ホルマント周波数 (Formant Frequency)

発音するときは、喉頭と気管の境にある声帯(二枚の粘膜)が原音をつくる

声を出すとき、声帯は緊張し閉じた状態となり、呼吸流により断続的な振動を起こす

⇒声帯原音
男声  100-150Hz
女声  250-300Hz
※これをピッチ周波数と呼ぶ

※声帯で生じた音(喉頭原音)
声道および口は発声する母音に応じて形を変え、共鳴の特性を変化させる。

⇒共鳴周波数をホルマント周波数と呼ぶ
低い周波数から順に第一、第二、第三…ホルマントと名付けられ、第一および第二ホルマントの周波数の組み合わせで、どの母音かが決まる

※ホルマント周波数=声道の共振周波数
第1ホルマント周波数、第2ホルマント周波数をF1、F2のように略して記述する。

※第三ホルマント(F3)の周波数が高く変動も大きいとよく通る
⇒三〇〇〇~四五〇〇ヘルツ域は、人間の耳にもっとも働きかけやすい

※ホルマント周波数は、口の開きの度合いや、舌の狭めの位置等により変化する

例)/a/広母音、/u/狭母音、/i/前舌母音、 /u/後舌母音⇒F1を口の開きの度合い、F2を舌の狭めの位置に、近似的に対応させることができる。

※成人男性アナウンサー10名が発声した日本語5母音のホルマント周波数の平均値

F1=794Hz, F2=1296Hz
母音/a/

母音 第1ホルマント周波数
F1 第2ホルマント周波数
F2 第3ホルマント周波数
F3
/a/ 780Hz 1200Hz 2520Hz
/i/ 310Hz 2300Hz 3080Hz
/u/ 330Hz 1120Hz 2350Hz
/e/ 470Hz 2040Hz 2550Hz
/o/ 420Hz 710Hz 2530Hz

◆ケプストラム
cepstrum

※スペクトラム(spectrum)からのアナグラムによる導出語。

※考え方
音声の場合、調音フィルタの振幅伝達特性と、音源信号のパワースペクトルを比較すると、フィルタの振幅伝達特性は、周波数に対して滑らかに変化するのに対して、音源信号はより微細な構造を持ち、周波数に対して細かく変動する。ここで、音声信号のスペクトル(振幅の)は、音源信号とフィルタの特性を掛けあわせたものとして与えられるが、、対数をとることで、両者の和として考えることができる。そこで、周波数を時間に見立てて、2つのスペクトルを時間信号に置き換えてしまうと、音源信号は高い「周波数」にエネルギーが集中し、フィルタの特性は低い「周波数」に集中することになるので、低次項で打ち切ることでフィルタの特性を抽出することができる。

※ケプストラムとは、フーリエ変換によって求められたパワースペクトルの対数値をさらにフーリエ変換(逆フーリエ変換となる)したもの。(元に戻した形になるので)ケプストラムの横軸は、ケフレンシーと呼ばれる時間の次元の値をとる。

※ケプストラム分析を行なうことで、スペクトル包絡とスペクトルの微細構造を近似的に分離することが可能。つまり、声道の共振特性と、声帯での音源の特徴を分離することが可能。

※周波数に対応する変数をケフレンシ(quefrency = frequencyからのアナグラムによる導出語)と呼ぶ。ケフレンシの単位は秒。 高時間部に現れるピーク位置のケフレンシはピッチ長を表すので、F0を導出することも可能である(スペクトル法に分類)。

※ある系に入力される信号が周期性を持ち、その周期が長いとき、その周期が長ケフレンシー部の線ケプストラムになって現れ、基本周期として抽出することができる。また、短ケフレンシー部には、系の伝達特性を表す情報が集中し、この部分を逆フーリエ変換することにより、パワースペクトルのエンベロープ(包絡線)が求まる。(リフタードエンベロープ)このエンベロープは系特有のもので、入力信号のスペクトルには依存しない。

※応用として、音声波、生体波などからの基本周波数およびスペクトルエンベロープの抽出などがある。

◆音声基本周波数F0とピッチ

_◇音声基本周波数F0
F0とは、いわゆる「声の高さ」を数値化したもの。単位は Hz。老若男女でダイナミックレンジが大幅に異なるが、おおよそ 50~500Hzの範囲で変動する。声帯振動による。音韻的情報とは独立して変化するとされているが、口腔の形状変化が声帯の変形に影響を与えることから、これらが全く独立しているわけではない。アクセント、イントネーションを生成するのに不可欠である。

F0値の抽出は、波形法、相関法、スペクトル法などの算出方法に分類される。狭帯域スペクトル分析により表出するのはスペクトル法による。

※ピッチとは、
(1) いわゆる「声の高さ」。ただし、ケプストラム分析などによって解析的に求められるF0とは違って、知覚される声の高さを指す。
(2) 有声音声での音声波形の1周期分 (ネジの「ピッチ」に相当)。1ピッチの長さ (単位:秒) の逆数がF0となる

_◇ピッチ周波数
ピッチとは声の高さの事で、声帯の振動周期で決まり声帯の振動周期が短いと声の高さは高くなり、振動周期が長いと声の高さは低くなる。 語頭や語尾において声帯振動が完全な周期性を持たないことなどから、ピッチ抽出は難しく、今なお決定的な方法は確立されていない。これまでの代表的なピッチ抽出法は、「波形処理、相関処理、スペクトル処理」に大別される。

例)自己相関法
音声のディジタル信号処理において最も広く用いられている抽出法である。なぜなら相関処理は波形の位相歪に強く、またハード化においても比較的簡単な構造で表現できるからである。

◆モーラ
モーラとは、仮名文字単位に相当し、音節とはやや異なっている。モーラ情報には、モーラ数、モーラ位置があり、モーラ数とは、モーラの数(単語に含まれる母音とnの個数)、モーラ位置とは、単語中のモーラの位置を表す。 例を表1、2に示す。表1は、音素記号列が「akai」の場合で、音素記号列に含まれる母音とnの数は3つなので、モーラ数は3、モーラ位置は、「a」は1、「ka」は2、「i」は3となる。また、表2の音素記号列が「kimari」である場合は、モーラ数3、モーラ位置は、「ki」は1、「ma」は2、「ri」は3となる。

※音声=音韻+韻律+声質
音韻とは,母音や子音であり,言葉を伝えるために必要な情報である.母子音がはっきりと聞き取れる音声は明瞭性が高い音声と呼ばれる.
韻律は,声の高さの上げ下げによるアクセントやイントネーション(抑揚)と,音韻の長さによるテンポとがある.
声質とは,男性・女性の声の差,個人がもつ声の特徴などである.

◆A特性(周波数補正特性)
人間の聴感特性は、低音域で感度が低下するA特性に近いために、この特性に従って騒音計などの周波数特性を補正することが必要

※超音波
JIS用語辞典(電気編)に定義
「正常な聴力を持つ人に聴感を生じさせないほど周波数(振動数)が高い音波(振動波)」

※境界周波数については、弾力的
通常、人間の耳で聴くことのできる音は20Hz~20kHz位
これより高い周波数の音波を超音波と呼ぶが、工学的には聴くことを目的としない音波という定義も一般的

☆信号処理など

◆サンプリング周波数

サンプリング周波数(サンプリングレート、サンプルレート)とは、音声など信号を時間的に量子化する際に、1秒間にどれだけの頻度でデータを取得するかを表す値である。
単位は Hz。
音声などでは通常,8kHz~48kHzでサンプリングが行われる。

◆グラニュラ雑音
ADPCM音声では、サンプリング周波数の1/2のグラニュラ雑音が発生
することがあります。もとのPCM音声にきわめて小さいレベルでかつ低周波の
正弦波を重畳した上でADPCMに変換すると、このグラニュラ雑音を軽減でき
る場合があります。

granular noise
granular distortion

※Dither/ディサ法
(Dither:震える、おののく の意味)
アナログ信号のデジタル化において、アナログ信号のレベルが
小さくなった時、量子化雑音が一様な分布でなくなり、入力信号
の高調波成分が目立つようになり、グラニュラ(Granular)雑音
が発生する。この量子化雑音を白色化するための方法。

グラニュラ雑音と白色雑音を比べると人間の耳には、白色雑音
の方が聞き易く聴感上改善される。
ディサ法は、信号レベルが小さくなった時、前もってディサと
呼ばれる小振幅の白色雑音を入力信号に重畳して量子化する。
こうすることで、量子化した信号のスペクトルには、広帯域の
ノイズはあっても、高調波成分が表われないことを利用する。

◆μ-law(mu-Law)

音声信号符号化技術の一つである。
ITU-T勧告でG.711として標準化されている。
音声信号では,その分布はほぼ指数分布で与えられることが知られている。従って、音声信号を線形 (リニア) な尺度ではなくその対数値を扱うことにより、効率的に信号情報を表現できるようになる。

定義は以下の通り:
v = sign(x) * V * log(1 + |x| * μ / V) / log(1 + μ)
v: 量子化された値
x: 入力信号の振幅
μ: 圧縮比.大きいほど圧縮率が高い.
V: 通信路の許容最大信号振幅

◆隠れマルコフモデル(HMM
Hidden Markov Model

時系列の確率モデルである。複数の定常信号源の間を遷移することで、非定常な時系列信号をモデル化する。

①信号の生成に対して定常と見なされる状態をHMMの状態と呼ぶ。

例)
S0:操作が開始されていない状態
S1:Rの出力確率0.7, Wの出力確率0.3の状態
S2:Rの出力確率0.2, Wの出力確率0.8の状態
S3:操作が終了している状態

②状態ごとに定められた信号が出力される確率は、出力確率と呼ばれる。上の例では、

例)
P(R|S1)=0.7, P(W|S1)=0.3
P(R|S2)=0.2, P(W|S2)=0.8
※状態S0,S3では出力はない。

③状態間の遷移も確率事象であり、状態S1からS2への遷移をP(S1S2)のように表記する。状態間の遷移に関する確率を遷移確率と呼ぶ。例の場合では、

例)
P(SiSj)=4行4列の行列で表現できる。

※遷移確率は遷移元の状態によって異なってよい。

例の場合、出力RとWの任意の並びが生成され得る上に、同一の並びが複数の異なる状態遷移から得られることになる。
⇒信号を観測しただけでは状態遷移の系列を決定できない。

_◇HMM(隠れマルコフモデル)は、モデルの出力シンボルが与えられても、状態遷移系列が唯一つに定まらないモデルの事である。よって、観測できるのはシンボル系列であることだけから隠れマルコフモデルと呼ばれている。HMMには、ある状態から全ての状態に遷移できる全遷移型(Ergodic)モデルや、 状態遷移が一定方向に進む left to right モデルなどがある。

_◇簡単なHMM(left to right モデル)
HMMとはある入力事象Xが、あるマルコフモデルMで起きうる確率を受理確率として表現できるモデルの事である。

HMMは幾つかの遷移状態をもつオートマトンであって、各状態に移る遷移確率と、その遷移時に入力事象が発生する出力確率をもつ。このモデルに入力事象が入力されると、入力事象ごとに状態がさまざまに変化する。最終の事象のときに最終状態となる遷移過程で得られる確率の合計を受理確率と呼ぶ。

認識動作ごとにマルコフモデルを作成し、各マルコフモデルの遷移確率と出力確率を認識すべき事象が入力された時に、最も受理確率が高くなる様に設定する。これにより、ある入力事象が与えられた時、各モデルの受理確率の違いから、入力事象の識別が可能となる。学習過程を通して統計的にパターンを処理でき、データゆらぎに強いが、使用前に予め遷移確率や出力確率を「学習」という形で決定する必要があり、大量のサンプルデータが必要となる。

参考1)マルコフモデル
マルコフモデルとは, 現在の状態が過去のある時点までの状態に依存する確率構造をとるモデルである.

参考2)DPマッチング法(他のパターンマッチ手法)
動的計画法(Dynamic programing)に基づいて各パターン間の距離を定義し、辞書中のパターンと入力パターンの間の距離を計算して最も距離の小さいものを選ぶ方法

_◇HMMの3つの基本問題
モデルλ = (状態遷移確率行列 A, 観測シンボル確率分布 B, 初期状態分布π)、
観測系列Y = (y1y2:::yT )

問題1 モデルλに対する観測系列Yの確率P(Y|λ)の計算
モデルλが観測系列Yに対してどの程度適応しているか
ex. Forwardアルゴリズム

問題2 最適な状態系列q = (q1q2…qT )の発見
観測系列Yがどの状態系列qから生成されたと考えられるか
ex. Viterbiアルゴリズム

問題3 P(Y|λ)を最大とするようなモデルパラメータλの調整
観測系列Yを生成するためのパラメータλの最適化
ex. EMアルゴリズム、Baum-Welchアルゴリズム

◆音声認識アルゴリズム

◆EM(Expectation-Maximization)アルゴリズム

◆Baum-Welchアルゴリズム
EMアルゴリズムをHMMのパラメータ推定に適用したもの
学習データの尤度を最大にするようにパラメータを学習する方法で、基本的にはgradient学習によってパラメータを収束させる方法。
Baum-Welch アルゴリズムは、HMMの初期モデルの再推定に使われる

◆MFCC(Mel. Frequency Cepstral Coefficients)

◆Viterbi アルゴリズム
Viterbi アルゴリズムは、モデルの最適な状態系列(最適経路)と、この経路上での確率を求めるアルゴリズム

※HMMの初期モデルの作成、音素境界位置の計算などに使われる。

観測系列を O=o1,o2,….oTとした時、時間tにおいて各状態がotを出力する確率δt(i)を求める。(1≦t≦T)(状態数をNとすると、1≦i≦N) 次に時刻t、状態iにおける生成確率を最大にする状態遷移確率λt(i)と最適パス St(i)をδt(i)から求める。このときt=T、i=Nの時の状態遷移確率λT(N)、最適パスST(N)が、最適な状態遷移系列とこの経路上での確率となる。

◆音声合成
音声合成には分析合成と規則合成とがある.
分析合成とは,人間の発声した音声を分析し,情報圧縮して蓄えておき,これを再び音声信号へ逆変換する技術である.
規則合成とは,人間の発話をモデル化し,人間が音声を操るように任意の音声を創造する技術である.

◆コーパスベース音声合成
コーパスベース方式の音声合成では、音声収録した人間の声を音声データベース化し、これを元に音声合成処理を行う。 収録した音声をほぼそのまま使うため、肉声に近い、自然な合成音声を実現できる。

(1)言語解析辞書によるテキストの解析
読み上げる単語ごとに品詞分解を行い、読み・アクセントの付与を行う。
(2)読みから特定される音韻系列に従って、音声データベースから適切な音声素片を探索し、接続する。

◆連結的合成(concatenative synthesis)
単位選択合成(Unit selection synthesis)は、大きな音声のデータベース(通常一時間以上の録音された音声から成る)を使用する。データベースを作成するにあたっては、録音音声を音、音節、形態素、単語、成句、文節といった単位に分割する。音声をそのような単位に分割するには、そのために調整された音声認識システムを使用し、あとで波形や声紋を見ながら人間の手で調整をする必要がある。それらにデータベースとして検索できるようにインデックスをつける。インデックスとしては音としてのパラメータ、例えばピッチ、持続時間、音節内の位置、隣接する音などを使う。実行時に最も適した音の組み合わせをデータベースから探し出して合成する。この工程は特別な重み付けをした決定木を使ってなされる。これにより録音された音声をデジタル信号処理をほとんど使うことなく極めて自然に合成することが可能となる。デジタル信号処理を施すと音声が不自然となるが、いくつかのシステムでは連結部分にデジタル信号処理を施して波形をスムーズにつなぐようにしている。実際、音の選択が最適化されているシステムの音声は人間の音声と区別がつかない。特にフロントエンドもよく調整されているとその傾向が強い。しかし、自然に聞こえる音声を合成しようとするとデータベースが膨大となる。いくつかのシステムではギガバイト単位の録音音声(数十時間ぶん)をデータベース化している。

◆Diphone合成(Diphone synthesis)
音声データベースにターゲットとする言語のDiphone(音と音のつながり部分)を全て持っていて、それを使用して合成する。Diphoneの個数はその言語の音素配列論で決まっている。スペイン語なら800、ドイツ語なら2500のDiphoneを持つ。Diphone合成では、各Diphoneの音声がひとつだけデータベースに格納されている。実行時にはDiphoneを並べたものに線形予測分析法(PSOLA、MBROLAなど)のようなデジタル信号処理技法を施して韻律を作る。できあがった音声は単位選択合成に比較すると品質が劣るがフォルマント合成よりは自然である。Diphone合成は結合部の欠陥が聞き取れ、フォルマント合成のようなロボット的な発生になってしまう。そのため商用では徐々に利用が減っているが、フリーソフトウェアとして実装されたものがあるため研究用としては使われ続けている。

◆分野限定合成(Domain-specific synthesis)
録音された単語や文節を連結して音声を合成する。これは特定分野のテキスト読み上げに使われる。例えば乗り換え案内の放送や天気予報などである。これは実装が簡単なので商用にも長年使われてきた。例えば、しゃべる時計や電卓などである。この方式は分野を限定しているので自然に聞こえる音声を合成するのが簡単である。しかし、汎用ではないので、利用は限定される。

◆音声認識ソフトウエア、DB

◆HTK: Hidden Markov Model Toolkit
オリジンはケンブリッジ大。米Entropicがマーケティング権を持つソフトだったが、MSがEntropicを買収、但し、コミュニティへの供給を継続する。ケンブリッジ大が無償公開。

◆ATRデータベース
ATRのデータベースには、Aset、Bset、Csetなどがあり、今回実験にはAsetを使用した。 ATRのAsetデータベースは単語発話データベースで、発話単語5240単語を収録している。このデータベースは、波形データとハンドラベリングによって求められた音素境界位置を示すラベルデータからなる。今回実験に使用したのは、Asetデータベースの男性話者MMYと男性話者MAUを使用し、本論文では話者A、話者Bと表現している。

_◇ASR技術のポイント

1-1 不特定話者/特定話者
Speaker-independent ○
Speaker-dependent △

1-2 話者適応
Speaker adaptation △

1-3 発話様式
連続発話/離散単語/キーワードスポッティング
Continuous speech ○?
Isolated word ○
Keyword spotting ×->△

1-4 言語

2 Required HW spec.

3 Performance
3-1 認識率 Recognize rate
3-2 対雑音性 Against Noise
3-3 処理速度 Response time

4 Evaluation Kit

5 ASR on the product

6 Mic, amp

7 Japanese

8 Details of ASR spec
8-1 HMM
Continuous Mixture HMM
Discrete4 HMM (VQ-HMM)
Other

8-2 Phoneme model
Context-dependent Phoneme Model
monophone/diphone/triphone
トライフォン:前後の音素環境を考慮する。
モノフォン:前後の音素環境を考慮しない。

8-3 特徴分析 Speech analysis
LPC-Cepstrum
MFCC
other

8-4 Database for training

8-5 HMM学習ツール
HTK

8-6 対雑音処理
SS(spectrum subtruction)
雑音のスペクトルを非音声区間の複数のフレームのパターンを平均してもとめ、音声区間の各フレームのスペクトルから差し引くことでスペクトルの雑音成分を除去する。
CMN(Cepstrum Mean normalization)
話者、空間、収録危機等を一括して正規化する方法。発話単位でケプストラム平均値を算出する。
Weiner filtering

8-7 連続音声の場合の文法
HTK format

8-8 ASR engine
MFCC with integrated VAD and Weiner filtering + continuous HMM back end. Language model uses Viterbi.

8-9 特徴

8-10 ESTI DSR

☆音響学会Q&Aより引用

◆Q: 声の判別:男性の声,女性の声,子供の声の判別

A:年齢,性別によって発声器官の形状が異なる。
声道の長さ:成人男性,女性比較、女性の方が約20%ほど短い
成人と子供(10歳)の比較、子供の方が約24%ほど短い
硬口蓋の長さ:成人と子供(10歳)の比較、子供の方が約10%ほど短い
声道の形の調整のしかた(調音)も,成人と子供では多少異なる
“あ””という母音、成人は咽頭部のほぼ中央を狭めて発声、子供は少し口腔よりを狭める
音声波形のスペクトルの形状:声帯から口唇までの形状と調音による
声の高さ:声帯の形状によって決まる
物理的特徴量:ホルマント(音声波形のスペクトルの中で,特にエネルギーが集中している周波数成分。声道の共振による。有声音,特に母音には4個程度見られ,低い方から順に第1ホルマント,第2ホルマント,と呼ぶ。)、基本周波数(声帯の振動周期の逆数),音声波の音圧レベル

※男性,女性,子供の声の物理的特徴量の違いについては、特に1960~70年代に盛んに検討された
([粕谷 他,“年齢,性別による日本語5母音のピッチ周波数とホルマント周波数の変化,””音響学会誌24,6(1968)],[佐藤,“男女声の性質情報を決める要素,””通研実報24,5(1975)],[古井,ディジタル音声処理(第2章)(東海大学出版会)]など)。

※基本周波数
成人の男女性については,基本周波数の分布は対数周波数軸上で正規分布
男性の基本周波数の平均値と標準偏差はそれぞれ125Hz及び20.5Hz
女性ではそれぞれ男性の約2倍に等しい
12歳以下(変声期前)の子供については,男女性の差はほとんどない
基本周波数は声帯長と関係がある。成人男性と子供の識別には有効。成人女性と子供の識別は難しい。

※音声認識の分野では一般に女性や子供の声の認識は難しいとされている。
基本周波数が高いと、その音響パラメータによるスペクトルの概形をうまく表すことができない

※ホルマント周波数は声道の長さに比例して低くなる。しかし,成人の男女性が発声した5母音を詳しく分析したところ,男性のホルマント周波数に対する女性のホルマント周波数の増加率が,母音の種類ごとに,かつホルマント周波数ごとに異なることが分かっている。

※日本語に関しては,高次のホルマント(特に第3ホルマント)は,母音の種類によって変動することが少なく,声道の長さに対応して,男女性別の識別に有効な特徴である。

※音声波の音圧レベル:成人の男女性が十数分間に渡って発声した音声波について,その音圧レベルの累積分布を調べたところ,男性,女性ともにほぼ正規分布となり,標準偏差はともに約3.8dB。男性の方が女性よりも平均で約4.5dB高い。

執筆者:松井 知子(NTT)

◆Q: 規則合成音声評価実験
最近,PCソフトやカーナビなどで,規則合成音声を聞くことが多くなってきていますが,この規則合成音声の評価実験で注意すべき点はどんなことでしょうか?

A:合成音声は大きく録音再生によるものと規則音声合成によるものとに分けられます。また,アプリケーションによっては,これらを組み合わせたものも存在します。従って,はじめに,評価対象の合成音声が規則音声合成方式によるものであることの確認が必要となります。録音再生による音声合成では,物理的な歪尺度で評価できますが,規則合成音声の場合,このような歪で評価することはできず,人間が聞いて評価する主観評価が用いられます。そのため,目的にあった評価方法を選択する必要がありましたが,今まで日本では規則音声合成のための標準的な評価方法が確立されておらず,評価する人が,評価方法から考える必要がありました。2000年3月に(社)日本電子工業振興協会(JEIDA)で「JEIDA-G-24-2000音声合成システム性能評価方法のガイドライン」が制定されましたので,評価方法についてはこのガイドラインを参考にすることができ,評価実験での注意点も述べられています。主観評価を用いるため,合成音声を聴取する評定者については,なるべく人数を多くし,年齢・性別の偏りがないことが望ましいです。また,合成音声の聴取に対する学習効果が大きいため,受聴経験には注意が必要です。了解性の評価では無意味な音節などの単位の試験音声を対象とした明瞭度,有意味な単語や文を単位とした場合の了解度に区別されます。試験する単位によって,音節明瞭度,単語了解度,文章了解度などに分けられます。また,自然性,個々の了解性ではなく音質を総合的に評価すること,利用目的に適合しているかどうかの評価が考えられます。いろいろな方法があるため,何を評価したいのかの目的に応じて,評価方法を選択する必要があり,注意を要する点です。

赤羽 誠(ソニー)

◆Q: 音声認識しくみ
Q: 最近,音声入力のできるワープロが市販されておりますが,方言があっても大丈夫なのでしょうか。単語を識別する仕組みと併せて簡単に教えて下さい。

A:代表的な音声認識処理の大まかな流れを図-1に示します。図中の式で示すように、すべての単語の組み合わせについて、ある単語の組み合わせが起こる確率(言語尤度)と、その単語の組み合わせのもと観測された特徴ベクトルが得られるであろう確率(音響尤度)を求め、その積が最大となるような単語の組み合わせを認識結果とします。音声認識の探索処理はこのようにトップダウン的に行われており。一つ一つのベクトルに対して、どのような音素になるか決定して、次にその音素の組み合わせから単語を決定して…というふうにボトムアップに積み上げていくのではないことに注意して下さい。さて、このような処理の中で、方言(ここでは、アクセント、音韻、語彙の違いに注目します)が音声認識にどのように影響するかを音響分析や探索の具体的な方法と併せて見ていきたいと思います。まず、音声認識が人の声のどんな特徴を取り出して認識を行っているかを見てみます。入力された音声は、10ミリ秒程度ごとに20ミリ程度の窓で細切れにした後、短時間フーリエ変換やLPC分析により、対数パワースペクトル列に変換されます。この対数パワースペクトルの形状が音声の特徴を表しています。そこで、形状を比較するために更に直交変換をして12次元程度のケプストラムにします(スペクトルの時間的な変化も重要な情報であることが分かっていますのでケプストラムの変化量も特徴ベクトルに加えます)。さて、実はこの段階で声帯の振動数に由来する声の高低の情報、すなわち日本語のアクセントやイントネーションといった情報は除去されています。ですから、方言のうちアクセント違いで、認識ができなくなるということは原理的には生じないわけです。次に音韻の変形として現れる方言について考えるため、音響モデルに着目します。探索部では音声の統計的な性質を表現する音響モデルに着目します。(ほとんどの音声認識がHMM:Hidden Markov Modelを使っています)を用い特徴ベクトル列との音響的な照合を行います。この音響モデルは、一般に音素(例えば「か」は/K/及び/a/という音素から構成されます)を単位として作成されます(実際には前後の音素にも影響を受けるため前後の音素環境ごとにモデルを作成します)。例えば/a/というモデルはいろいろな人の発声の/a/の部分に対応するベクトル列から、それをうまく表現するような確率分布を学習することで作成されるわけです。そのため認識性能は学習データの量やバラエティに依存すると考えられます。もちろん市販されている音声認識のモデルは大量のデータで学習されており、誰の声でも認識できるように作成されています。とはいえ、「い」を/i/と/e/の間くらいの音として発音される方言等、利用している人の音声が学習に用いたデータの分布からはずれていると認識率が低下する場合があります(このような場合は音声ワープロの追加学習機能を使って、ある程度自分の声に適応させることが可能です)。一方、「い」と「ゐ」を使い分けている人がいたとしても、学習時には一つのモデルとして学習されているため識別はできません。次に、方言の語彙について考えるために言語モデルに着目します。言語モデルには単語と音素列の対応を表す辞書、単語と単語のつながりを表す確率付きの文法というものが書かれています。ここで注意すべき点は、探索部は言語モデルからの情報で順次単語との音響的な照合を行っていくため、辞書にない単語は認識され得ないということです。最近の音声ワープロは4万語以上の単語が登録されていますが、その地方独特の単語等は語彙にないため、やはり登録が必要なようです。また、「敷く」を「ひく」と発音してしまう場合等、音韻として明らかな入れ替えが起こっている場合も辞書に登録した方が良いでしょう。なお、bit誌1998年7月号に最近市場に広く出回っている音声ワープロソフトの開発者の方々による、同ソフトの分かり易い解説記事がありますので参考にしていただければと思います。

黒岩眞吾(KDD研究所)

◆Q: スピーカ,ヘッドフォンの特性

Q: スピーカの特性は一般に大型のものほど低域がのびているようですが、スピーカと比べて遙かに小さいヘッドホンの特性が低域までのびているのはなぜでしょうか。

A:スピーカでもヘッドホンでも、振動板が空気を動かす(押しのけ、引き込む)ことで音を出しています。同じ大きさ(音圧)の音を出すために動かす空気の体積は周波数の2乗に反比例します。例えば100 Hzの音と同じ大きさの20 Hz(100 Hzの1/5)の音を出すには25倍(5の2乗)の容積の空気を動かさなければなりません。動かす空気の体積は振動板の面積と振幅の掛け算で与えられますので、大きな振動板の方が小さな振幅で同じ体積の空気を動かすことができて有利です。したがって、一般に低い音を放射するスピーカには大型の振動板が使われます。
しかし、スピーカから放射される音の大きさは原理的にスピーカからの距離におおむね反比例しますので、小さな振動板からの音でも近くで聞けば大きく聞こえます。例えば、同じスピーカから出される音でも、5mの遠方での大きさに比べ、50cm(5mの1/10)での大きさは約10倍になります。ヘッドホンは耳のすぐそば、数mm~1cm位の距離で動作しますので、小さな振動板でも出てくる音は大きく聞こえることになります。
一方、スピーカやヘッドホンで出せる最も低い周波数は、大きさとは無関係に振動板の最低共振周波数で決まります。共振周波数は振動板を支えているばねのスチフネス(剛さ)と振動板の質量の比の平方根に比例します。多くのオーディオシステム用スピーカは丈夫な紙の振動板を用いており、その最低共振周波数は40~80 Hz位で、実際にはこれより少し低い周波数が出しうる限界となります。これに比べ、多くのヘッドホンの振動板はプラスチック成型品で、軽いわりにスチフネスを小さくしにくく、最低共振周波数が高めになります。このため、ヘッドホンのドライバユニットの最低共振周波数は100~200 Hz位が一般的ですが、振動板と耳との間を自由空間にしないで部屋でつなぐと(例えばヘッドホンを耳に接触させると)低い音が大きくなる効果を利用できます。クッションの寸法や軟らかさを調節してこの効果を積極的に利用している製品も見られます。
このように、ヘッドホンは耳との結合の仕方で特性が大幅に変わるので、スピーカに比べいろいろ工夫をこらして設計する余地が大きく、極めて多様な構成のものが商品になっています。

(大賀俊郎:芝浦工大・工)

◆Q:mel尺度とBark尺度とERB尺度

Q: mel尺度とBark尺度とERB尺度とはどのようなもので聴覚の周波数軸としてはどれを使えばよいのでしょうか?
A:まずmel尺度ですが,これは人間の音の高さの知覚特性から得られた尺度です。1,000Hz,40dB SPLの純音を基準の音(1,000mel)として,これより2倍の高さあるいは1/2の高さに知覚される音をマグニチュード測定法などで測定し,それぞれ2,000mel,500melと決めました。メル尺度と周波数の関係でよく用いられる式はmel=(1000/log2)log(f/1000+1)です。式を見ても分かるように,対数の関係となっています。これに対して,Bark尺度とERB尺度はどちらもFletcherが提唱した聴覚フィルタの概念から得られた尺度です。Fletcherの言う聴覚フィルタとは,中心周波数が連続的に変化する帯域フィルタで,(1)信号音に一番近い中心周波数を持つ帯域フィルタが信号音の周波数分析を行い,(2)信号音のマスキングに影響を及ぼす雑音成分はこの帯域フィルタ内の周波数成分に限られるようなフィルタです。Fletherはこの帯域フィルタのバンド幅を臨界帯域(CB)と名付けています。Zwickerは様々な方法で聴覚フィルタの中心周波数とバンド幅の関係を測定し,1961年に,聴覚フィルタの中心周波数とその周波数における臨界帯域の関数を表の形で発表しました。zwickerはこの中で臨界帯域は中心周波数の関数となっており,中心周波数が低い場合には臨界帯域は狭く中心周波数が高い場合には広くなっていること,また,中心周波数が500Hz以下では臨界帯域はほぼ一定の100Hzであることを示しました。実際に聴覚フィルタを模擬するフィルタを設計する場合には,中心周波数と臨界帯域の関係が数式で表わされている方が都合が良く,1980年にZwickerとTerhardtが与えた中心周波数と臨界帯域の関係式が多く用いられています。また,周波数軸はしばしば臨界帯域を幅1とする周波数軸に変換されて表示されます。ZwickerとTerhardtは同じ論文で,周波数軸からBark軸への変換式を次のように与えました。Bark=13arctan(0.76f)+3.5arctan((f/7.5)2)これがBark尺度です。一方,ERB尺度も,Fletherが提唱した聴覚フィルタに基づいて はいますが,Patterson,MooreらがZwickerとは異なる方法で測定した聴覚フィルタのパラメータを用いた尺度です。Bekesyによれば,基底膜上の最大振幅の位置と周波数はほぼ対数の関係であり,周波数が高くなるほど周波数間隔は密になります。Greenwoodは,Bekesyが求めた周波数と基底膜上の最大振幅の位置との関係を考慮して,臨界帯域幅は基底膜上で等間隔であるという仮説を立て,MaskedAudiogramを使って臨界帯域を測定した結果からこの仮説を実証しました。仮に,Greenwoodの結果が正しいとすれば,Bekesyの結果と同様に,臨界帯域は周波数が低いときには小さく,周波数が高くなるにしたがって指数関数的に大きくならなければなりません。これは,Zwickerの測定結果から得られる,臨界帯域幅は500Hz以下でほぼ一定であるという結果と異なります。また,Pattersonによれば,聴覚フィルタの特性を測定する場合には,Off-Frequency Listeningにより,特に中心周波数が低い場合に帯域幅が大きく測定されてしまうからです。Zwicherの示したデータの500Hz以下の部分にはOff-Frequency Listeningなどで生じた測定誤差が潜んでいる可能性も否定できません。そこでPattersonらは,ノッチトノイズを用いた新たな臨界帯域測定法を考案し,OFF-Frequency Listeningの影響を考慮しながら聴覚フィルタの周波数特性を測定しました。そして,高さと面積が同じ長方形で聴覚フィルタを近似し,長方形の幅(Equivalent Rectangular Bandwidth:ERB)を古典的な臨界帯域に代わる値としました。また,Mooreは,ERBを幅1として,物理的な周波数との関係を発表しました。ERBS=21.4log(4.37f/1000+1)これがERB尺度です。式を見ても分かるように,ERB尺度もmel尺度と同様に対等の関係となっています。応用としては,メル尺度は,周波数軸をメル尺度で変形した対数スペクトラムから得られるケプストラム(メルケプストラム)が容易に計算できるので,ケプストラムと組合せて音声認識用の特徴量として多く用いられています。Bark尺度は,様々な音知覚現象の説明に用いられている臨界帯域の概念と関係が深いため,音知覚過程の記述に多く用いられています。そして,ERB尺度は基底膜上の最大振動位置との対応関係が良いので,末梢系での処理の記述などに多く用いられています。しかし,それぞれの尺度は何を表現しているかが異なるため,なにを使うかはその応用先をしっかり検討して選んで下さい。詳しくは,赤木:“聴覚フィルタとそのモデル”電子情報通信学会誌77
(9)948ー956を見て下さい。

執筆者:赤木正人(北陸先端大)

☆音ルミネッセンス