体験を伝える―『ガジェット通信』の考え方

面白いものを探しにいこう 本物を体験し体感しよう 会いたい人に会いに行こう 見たことのないものを見に行こう そしてそれをやわらかくみんなに伝えよう [→ガジェ通についてもっと詳しく] [→ガジェット通信フロアについて]

徹底究明!「携帯電話の声は、本人の声ではない」説は本当なのか!?【後編】 ~電話での通話のしくみ~

巷で囁かれている噂「携帯電話から聞こえる声は、しゃべっている本人の声ではない」が真実かどうかを探るため、通信全般の研究を行っているKDDI研究所に乗り込んだ人体模型くん。

前編では、携帯電話のしくみを語るうえで欠かせない「人の声のしくみ」について解説しました。後編では、同じくKDDI研究所の堀内俊治氏が、この噂の真相について詳細に解説していきます!

モ「さっきまでの話で、「携帯電話から聞こえる声は、喋っている本人の声ではない」という噂は本当だということはわかったけど、携帯電話が「限りなく本人に近い声をつくり出している」っていうのは、どういうことッスか?」

堀内「すこし専門的な話になりますが、順を追って説明しましょう。はじめに、電話における音声符号化の方法は大きく3つほどあります。

まず「波形符号化方式」。これは固定電話に使われる方法で、前編でも説明したように、声の波形そのものを電気の波形に変換し、電線に乗せて送っています。ここでは「波形そのまま方式」と呼びますね。この方式を使った場合には「本人の声をそのまま届けている」と言えます。でもそれが無線、つまり携帯電話になると声の届け方も異なってくるんです。」

堀内「そして「分析合成符号化方式」。これは、前編で詳しく説明した、人の発声器官をモデル化した方法です。”喉や口などがどのような形になっているか”という声道を再現する機能であるフィルタの情報と、”声帯がどのように振動しているのか”という音源の情報に分解し、音声を合成します。情報量をかなり抑えられる方法ですが、仕上がりはロボットボイスっぽくなる。ですので、ここでは「ロボット方式」と呼びます。この方式は、「話した内容がわかれば十分」という目的に適しているので、軍事用途に使われたりします。」

堀内「最後の「ハイブリッド符号化方式」は、分析合成符号化と波形符号化を組み合わせた方式のこと。2つの良いところを利用しているので、「良いトコどり方式」と呼びましょう。
あらかじめ決められている「固定コードブック」という音の辞書のなかから、本人の声に近く聴こえる音声コードを探し、組み立てて、喉や口などの形に合わせて、一瞬にして音声をつくっているんです。「適応コードブック」という一瞬まえに作られた音声も使って、効率よく選ばれています。

堀内「「固定コードブック」には、”音の素”となる組み合わせのパターンが2の32乗、つまり約43億にもなります。」

モ「43億って!! それつまり、全世界の人の声が再現できるものなんすか?」

堀内「そういうことです。すごいですよね。で、そのパターンというのは前編で話した「有声音」「無声音」のレベルよりもさらに素の素材なので、ひとつの単語を発しようとすると、たくさんのパターンを組み合わせる必要が出てきますね。」

モ「その声に似た43億ものパターンから、探し当てて、また組み合わせて声にして……。それをKDDIさんがやってるんだ! 尊敬っす。」

堀内「いえ、これは携帯電話の中でやっているんですよ。送信側の携帯電話で声を分析した情報を、電波に乗せて相手に届ける。届いた方の携帯電話ではこの情報から送られた声を合成、つくるんです。」

モ「そんなすごいことを携帯の中で、瞬時にやってるんですか!? ……パねぇっす! 人体模型、感服したッス!」

通話中、電話機のなかではどのようなことが行われる?

堀内「具体的に説明しましょう。たとえば、人体模型くんが理科の先生に電話をしているとします。人体模型くんの携帯電話では、君の声が入力された瞬間に音源と声道のフィルタに分解し、「適応コードブック」と「固定コードブック」に探索をかけます。そこで君の声に似て聴こえるパターンを見つけたら、声道のフィルタの情報と一緒に電波に乗せて、先生の携帯電話に届けます。つまり先生は、そうして作られた「人体模型くんの声に似て聴こえる音」を聴くことになるのです。

だから、厳密には本人の声とイコールではありません。冒頭の「限りなく本人に近い声をつくり出している」とは、そういう意味なんです。

モ「なるほど、似て聴こえるようにパターンを組み合わせるから、オリジナルではなくなるってことか……。でも「コードブック」があるということは、世界のどこかで、自分の声と同じ声が流れている可能性もあるんすか?」

堀内「うーん、それがそうとも言えないです。たとえばビートたけしさんのそっくりさんが居たとしても、それを音声の波形としてみると、まったく違う形になります。そのくらい、まったく同じになる可能性というのは低いですね。」

モ「むむ……。」

堀内「でも、親子の場合、波形は似ていますよ。だから娘が電話を受けたのに、相手から「あ、奥さん?」とお母さんに間違われた、みたいなことが起こるんです。それは、そもそも電話では送る音の高低の範囲(周波数帯域)が絞られているからでもあるんですけどね。」

モ「絞られているって、どのくらいっすか?」

堀内「いまの電話の音の高低の範囲(周波数帯域)は、音楽の圧縮技術としてポピュラーな「mp3」の半分くらいでしょう。電話で音楽を聴いても、「音質が良い!」とは感じないでしょう? これは電話と音楽では音の高低の範囲(周波数帯域)が異なっていて、電話は人の声を届けることを目的に設計されているからなんです。」

1 2次のページ
TIME & SPACEの記事一覧をみる
  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちらから
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。