CYBERNET

発声時における体内振動
−骨伝導の利用による音声分野の新展開−

埼玉大学大学院 理工学研究科 数理電子情報部門 教授 島村 徹也 先生

1.はじめに

今春、「CAEユニバーシティ」で、ディジタル信号処理の講座を担当していました。

この度、本誌でスペースを頂きましたので、この機会に、私の研究分野から少しご紹介させて頂こうと思います。

人間の発声は実に見事なもので、生まれたての赤ちゃんは、オギャーオギャーですが、4,5歳の幼稚園児にもなれば、我々大人とも自由自在に、かつ自然に会話ができるようになります。このように、気づいたら自然に身に付いていた音の発声技術を解明しようと、音声研究は長年続けられているわけです。しかし、音声研究者の間においても、進歩しているのか進歩していないのか、混沌の中で研究を進めている方も多いのではないでしょうか。少なくとも私はそうです。それは、我々が発する音声の複雑さ故に他なりません。

音声処理は、ディジタル信号処理の発展とともに、その歴史を育んできました。1960年代に、高速フーリエ変換の登場で飛躍的に成長したディジタル信号処理技術は、直接的に音声処理に利用され、音声の特徴抽出において極めて重要な貢献をしてきました。現在の携帯電話での実に手軽な音声通信は、これらの研究成果の結晶と言っても過言ではありません。しかし、時代が進展して行くにつれ、我々人間の要求は高まっていきます。ことに、近年における雑音環境下における音声処理の強靭性の追求は、大きなトピックになっております。信号処理的に雑音を抑圧する試みもあれば、最近では音声の確率モデルを利用し、技術的進展を追求する流れができつつあります。しかしながら、明快な解を求めるにはまだまだ遠い感じがあるのは否めません。そんな現在において、新しい技術展開を目指した試みがありますので、本誌ではそれをご紹介しようと思います。それが骨伝導です。

2.骨伝導とは

図1 気導音声からの聞き取り
図2 骨導音声からの聞き取り

我々の聴覚は大きく二つに大別される音声を聞き取っています。一つは図1に示される気導音声と呼ばれる、空気の振動としての音声と、もう一つは、図2に示される骨導音声と呼ばれる骨の振動としての音声です。図2は、我々の聴覚器官の近くから、故意に振動を発生させ、それを音声として聴覚に届けるイメージで作成したものです。一時期携帯電話で、骨伝導という言葉が流行りましたが、あれは骨伝導スピーカです。図2はまさに、その携帯電話の骨伝導スピーカを顔の皮膚にあて、電話の声を聴覚に届けている図に対応しております。もう何年か前になりますが、当時この骨伝導スピーカ掲載の携帯電話を使って、あるご老人がお孫さんの声をそれまで聞くことができなかったのに、直接骨部を振動させるその骨伝導の特徴から、その声を聞くことができるようになり、大変に喜んだという涙が出てくるような話がありました。このときの、今までの携帯電話のスピーカ機能が空気の振動を利用する通常の気導音声ですので、骨導音声と気導音声には異なる性質があることがおわかり頂けると思います。

留守番電話に自分の声を録音し、それを後で聞いたときに、自分の声に違和感を覚えた経験はないでしょうか。通常は、異なる音声に聞こえるはずです。なぜなら、我々は発声するとき、肺からの空気の圧力で声帯を振動させ、そこで作られた音源信号と呼ばれる信号を口の開け方を変えて音声信号に変え、それを気導音声として聴覚に届けています。しかしこのとき、声帯の振動は空気を振動させるのみではなく、我々の骨部も振動させ、骨伝導として骨導音声をも聴覚に届けているのです。つまり、我々が自然発声するとき、故意に耳を塞がなければ、同時に自分の気導音声と骨導音声を聞いてしまうことになります。留守番電話には、骨導音声は届かず、気導音声のみが録音されるので、必然的にいつも聞いている自分の声とは異なって録音されるわけです。では、自分の骨導音声はどのように聞けばよいのでしょうか。簡単です。故意に両耳を塞ぎ、発声すれば聞けます。やってみると、やはり気導音声のみのときとは異なった感じがあると思います。意識すればわかることですが、このような二つの種類の音声を我々は常に利用している訳です。

3.骨導音声の特徴

図3 骨導マイク(側面から)
図4 骨導マイク(正面から)

私は、個人的には、この骨導音声に大変に興味があります。骨伝導と呼ばれる現象は、ディジタル信号処理が発展する遥か以前から知られておりました。しかし、その本質は中々掴めておりません。例えば、上記のスピーカではなく、マイクとして骨伝導を利用することを考えてみます。すなわち、我々が自然発声したときに生じる骨導音声を、骨部の振動をピックアップして取り出す訳です。このような機能を有するマイクロフォンを骨導マイクと呼んでおります。例えば、図3には、頭部に取り付けるヘッドギアタイプの骨導マイクと耳孔に取り付けるイヤフォンタイプの骨導マイクを同時に装着した様子があります。イヤフォンタイプの骨導マイクは耳孔内部の骨部を利用するものですが、ヘッドギアタイプの骨導マイクは、図4にあるように頭の頂点の骨部の振動をピックアップするものです。このように、骨導マイクにはいくつかの種類があり、ピックアップする場所によって得られる骨導音声の性質が変わります。これは、骨伝導自体の伝達特性に直接的な関係があると考えられますが、どの部位からのピックアップが音質的に最も適しているかなどの明快な解も得られておりません。人による体質的な違いや、骨導マイクの皮膚へのフィッティング度合いによっても音質が変化してしまうことから、中々解明に至らないと考えられています。大勢としては、図5にあるように、気導音声(図5(a))に比べ骨導音声(図5(b))は高周波成分が減衰される傾向にあります。よって、音質的には、骨導音声の方がこもった感じになり、骨導音声のみを聞くと自然性に欠ける感が否めません。そこで、骨導音声の高周波数成分を強調して、その音質を気導音声に近づける試みがこれまでになされてきました。その一つの処理例が図5(c)になります。しかし、まだ不特定の話者に対し、統一的に施す処理方法は見出されておりません。

骨導マイクは、警察、海上保安庁、あるいは軍事機関などで現在使われております。これは、極めて悪条件な騒音環境下においても、直接話者の骨部の振動から話者の声をピックアップできるからです。図6は、話者が無言の場合に、通常の気導マイクと骨導マイクで、外部の騒音がどれだけ混入してくるかを相対的に示したものです。上部が気導マイク、下部が骨導マイクです。図6(a)は人のざわめきの中、図6(b)は砂嵐のような環境下に対応しています。明らかに混入レベルが大きく異なるのが見て取れます。従って、骨導音声を通信に利用すれば、相互に高騒音下にいる人同士でも、なんとか情報伝達が可能になるわけで、現在この性質が骨導マイクとして積極的に利用されております。

図5 スペクトログラム
図6 雑音混入

4.今後の進展

ディジタル信号処理技術が進展するにつれて、音声の符号化、合成、認識等、音声処理技術も大きく進展してきました。しかし、大きく立ちはだかるのが、現実にそれらを用いる環境での騒音・雑音に対する問題です。外部雑音は該当音声信号の処理精度を大きく劣化させます。例として、一つのマイクで所望とする音声信号と雑音の足し合わされた信号を得た場合を考えてみます。このとき、その雑音混入音声信号から元の音声信号のみを取り出すのは、音声と雑音の性質の違いを利用する他になく、理論的に解が得られないことは明らかです。従って、どのレベルで妥協するかという解の与え方として、これまでこのような音声強調問題は捉えられてきました。しかし、最近になって、複数のマイクを利用することで、良好な処理結果が得られることがわかってきました。しかしながら、マイクを複数化することによるシステムの規模の増大を、現実的にどのように受け入れるかは、まだ検討中です。

そこで、同じマイクの工夫ですが、気導マイクの代わりに骨導マイクを利用することで、音声処理技術はさらに大きく進展できるのではないかと、私は考えております。例えば、図7と図8は同一話者からの同一発声内容に対する、気導音声、骨音声からのそれぞれの特徴量を示しています。ここでは、無雑音の場合を取り上げておりますが、これらの結果から、特徴量を組みわせることで、音声の有声・無声判別がほぼ同程度にできそうであることがわかります。またここには示しませんが、気導音声と骨導音声から得られる音源信号の周期性もほぼ同一であることがわかってきました。これらの性質に、骨導音声のそもそも包含する雑音に対する強靭性を加味することで、騒音・雑音環境下での骨導音声からの高精度な音声分析の可能性が見えてきます。多くの音声処理技術が音声分析を基本としている事実に鑑みれば、今後の音声処理技術の要は骨導音声の利用にあると考えられます。

図7 気導音声からの特徴量
図8 骨導音声からの特徴量

さて、音声処理技術の一端を紹介させて頂きましたが、こうした音声のディジタル処理技術にご興味のある方は、是非、「CAEユニバーシティ」の講座も覗いてみて下さい。