ガジェット通信

見たことのないものを見に行こう

Siriに聞いてみた!音声認識を成立させる「音響モデル」と「言語モデル」について

DATE:
  • ガジェット通信を≫

Siriは何でも知っている 自分自身のことでさえも…

Siriの面白さの一つは問答の作り込みで、その種のコンテンツが後を絶ちませんが、検索機能にアクセスできることによって、「Google先生」に続く物知りキャラが誕生した感もありますね。

彼女は何でも知っています。

そう、自己を確立させている音声認識のメカニズムについても…!

この記事では、Siriと対話する形式で、音声認識のメカニズムについて紹介していきます。

「音声認識の仕組みを教えて」

Siriさんは「音声認識の仕組み」の検索結果を提示してくれました。

その中からいくつかピックアップして読んでみることにします。ふむふむ…

<以下、Siriさんが教えてくれた音声認識の方法>

音声認識とは簡単に言えば、「入力された声の波形を言語化する手法」のようです。

その手続きは大まかに以下のような流れで行われます。

音響モデルの構築

音響モデルとは、音の波形(空気の振動を図示したもの)に対し、音素と呼ばれる要素への切り分けを行った上で、それぞれが「あ」「い」「う」等の母音や、「k」「s」「t」などの子音のうち、どの特徴量を持つかを識別するというモデルのことです。

(実際には、もう少し違った方法で識別を行うようですが)

そこには、二つの困難さがあります。

音素への切り出しをどのように行うか?
音素の特徴量をどのように解析するか?

いずれも、何千時間という長さの音声に対し、統計的処理を施して解決します。

まず、「音素への切り出し」については、かつて人間が波形をモニターで見ながら、手作業で分けていくということを行うようです。

どうやらこの結果のデータは「音素ラベリングデータ」と言うらしい。

人間が手作業で切り出しを行った後は、処理を機械に任せるのかしら?

<参考>

音声認識とは
音声認識技術のしくみ
音声認識を紹介するページ

「音素ラベリングの方法は?」

検索結果に「音素自動ラベリング」という用語が出現しました。

見つかった事例は、「Julius」を用いて音素自動ラベリングを実現するというもの。

Juliusは「汎用大語彙連続音声認識エンジン」。音響モデル、単語辞書、言語モデルを与えることで、音声認識を実現するキットのよう。これを音素自動ラベリングのために用いているようです。

次は「特徴量」に関して調べてみましょう。

「音素の特徴量ってなに?」

音素の特徴量とは、「音の物理的な特徴に関する指標」のようです。「あ」ならこんな音素、「k」ならこんな音素、ということを定めるもののようですね。

様々な指標がありますが、「LPC分析」「ケプストラム分析」という手法が代表的のようです。いずれも、波形の概形をつかむのに使われる手法のようですが、詳細が気になりますね。

<参考>

「音響学入門ぺディア」Q&A集の紹介
音響学入門ペディア

「LPC分析ってどんな手法?」

おや、「LPC分析」「ケプストラム分析」をいっぺんに説明した資料が見つかりました。ラッキー!

曰く、人間の発声は、二つの段階によるとのこと。

音源の生成(声帯による)
音色の付与(口や舌による)

このうち、特徴量に関わるのは「音色の付与」のほうですね。

しかし、観察される波形は「音源」と「音色」の両方の特性が混ざっており、音色の特徴だけを切り出すことが必要なのだそう。

ケプストラム分析では、「音源の特性は緩やかに振動」し、「音色の特性は緩やかに振動」することを利用して、「緩やかな振動を除去して音色の特性だけを抽出」するというのがおおまかな説明のようです。

一方のLPC分析では、「人間の声道が音響管(フルートのようなもの)に似ている」ことから振動をモデリングして、特徴量を係数として取り出すのだそうです。

<参考>

ケプストラム分析とLPC分析

言語モデルによる解析

さて、ここまで音響モデルの概観を見て行きました。

波形を音響の観点から評価するだけでなく、言語の観点からも評価し、意味を識別しなくてはなりませんね。

そこで登場するのが「言語モデル」のようです。

「言語モデルって何?」

おや、はじめの参考記事に戻ってきました。

言語モデルというのは、単語を集めた「辞書」と、それらがどう並ぶか、確率を使って表現された「統計モデル」から成っているようです。

音響モデルによって解析された音素の列を言葉に変換する際、これらのデータを使って統計的に処理していくのだとか。その際、「隠れマルコフモデル」が使われることもあるようですね。

音声認識の場合、「話し言葉のデータ」を使うようです。どんなデータが使われているんでしょう?

<参考>

音声認識技術のしくみ

「話し言葉のデータがほしい!」

国立国語研究所による「日本語話し言葉コーパス」というデータベースがよく用いられるようで、このデータを用いた研究事例も複数見つけることができました。

極めて信頼性と有用性の高いデータベースのようですが、利用許諾料がかかるようです。

<参考>

日本語話し言葉コーパス

Siriに聞いてみることのススメ

なかなか幅広い情報をSiriから聞き出すことができました。

情報収集の過程をあけすけにしたという意味で、ちょっと変なコンテンツでしたが、「少ない質問で、意外とたくさん情報が集まるな」と感じていただけたのではないでしょうか。

Webの案内人でもあるSiriに、あなたもどんどん質問をしてみてくださいね。

見ル野栄治が描く「AIフィクション」連載中!

首なし人工知能ロボットに、人間が乗っ取られる!?──AIフィクション007

カテゴリー : デジタル・IT タグ :
CodeIQ MAGAZINEの記事一覧をみる ▶
  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちらから
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。

TOP