しゃべった言葉がそのままテキストに! スゴい音声入力ソフト『AmiVoice SP』を調教する
アドバンスト・メディアは、話すだけでリアルタイムに文字化できる音声認識ソフトの新製品『AmiVoice SP』を7月23日に発売しました。『AmiVoice SP』は、キーボードを使わずともマイクに向かって話すだけで文字入力を行うソフトです。不特定話者対応の音声認識技術『AmiVoice』を搭載しており、使用する前の声の登録が不要なため、だれでも簡単に使うことができます。また、用途に応じた4種類のマスター辞書や、音声認識精度を向上させる学習機能を搭載していることにより高い認識率を実現しているそうです。
その他、mp3などの音声ファイルにも対応しており、ICレコーダーで録音した内容を文字に書き起こすことができます。ただし条件として、口元からマイクの距離が5cm以内で録音した音声で、かつ、はっきりとした音声でなくてはいけません。メモ代わりに外部録音機器に録音して文字化する使い方を想定しており、会議や講演会などマイクの距離が遠いと認識できないそうです。精度があがってくれば、テープ起こしから開放されるのも夢ではない、ということですね。
そもそも、音声認識技術自体は昔から研究されていたテクノロジーのひとつ。ですが、正直、これまでの認識率は低いものでした。しかし、周辺雑音の排除等の技術の進歩と共に音声認識技術は進歩し、人工知能を搭載した機械とのコミュニケーションが取れるレベルまで来ていると言われています。そんな中登場したこの『AmiVoice SP』、果たしてどこまですごいのか? ガジェット通信はこのソフトを使い、色々と実験してみました。
– すごい! だいたいあってる
原文
おはようございます。ガジェット通信の樹堂です。
今日は、『AmiVoice』の実験をします。
私の先輩には、百花繚乱という人がいます。
ニコニコ生放送(通称ニコ生)をしている人で、
巷で話題になっているらしいです。
今日、彼に誘われてニコニコ生放送に出ることになりました。
突然の誘いだったのでびっくりしましたが、
面白そうなので今から楽しみです。
「やーい、おまえんち、お化け屋敷!」
生麦生米生卵生麦生米生卵生麦生米生卵
たあぷぽぽ、たあぷぽぽ、ちりから、ちりから、つったっぽ、
たっぽたっぽ一丁だこ、落ちたら煮て食お。
AmiVoice
おはようございます。ガジェット通信の樹堂んです。
今日は、「 AmiVoice 」の実験をします。
私の先輩には、百花繚乱という人がいます。
ニコニコ生放送(通称に児玉)をしている人で、
ちまたで話題になっているらしいです。
今日、彼に誘われてニコニコ生放送に出ることになりました。
突然のお誘いだったのでびっくりしましたが、
面白そうなので今から楽しみです。
下記からご自愛、お前んち、お化け屋敷!」
生麦生米生卵生麦生米生卵生麦生米生卵
あとところ、カープところ、チリから、チリから、釣った後、
8本だと1兆だっこ、落ちたら見てくを。
適当に書いた文章を読んでみます。今回は『しゃべりことば』でやってみました。結果は上の通りです。前半は比較的うまく行きましたが、後半は少し失敗。「生麦生米生卵」みたいに、意味の分かる言葉は大丈夫ですが「ちりからちりからつったっぽ」などの日本語の羅列は難しいようです。
実はここまでの記事文章も、全部『AmiVoice SP』で入力してみたものです。入力に要した時間は大体10分。ちなみに間違えた部分も「削除」と命令すれば消せるので、できるだけ音声で修正しながら文章作成してみました。ただし、どうしても変換が出来なかった部分については、キーボードで直しています。
『AmiVoiceSP』だと基本的に手が自由になるので、資料などを見ながら記事を作ることが出来ました。また最初は少し特殊な言い回しや固有名詞に対応していません。これはソフトの“調教”をすることによって認識精度が向上していきます。
– 調教してみよう
『AmiVoice SP』では個人用ファイルを別途設定できます。ユーザーごとのしゃべり方のクセを個別に学習できるので、使えば使うほどスムーズになるというわけです。さらに! この音響学習システムにはレベルという概念が存在します。音声入力をすればするほどレベルが上がっていくので、話すのがどんどん楽しくなってきます。ちなみに最大レベルは126で、記者はようやくレベル10まで育て上げました。育てれば育てるほど、目に見えて使い勝手が良くなっていることを実感できるのはうれしいです。
アドバンスト・メディア社 代表取締役会長の鈴木清幸氏も「『AmiVoice SP』をどんどん、皆さんの手で“調教”してやってください。どんどんと使いやすくなるはずです」と語っていました。
– 『AmiVoice SP』の用途を考える
これまでは同じシステムを用いて、耳の不自由な方の集会で公演内容の字幕表示などにも使われた実績があるそうです。また、先日発売発表されたNTTドコモの『らくらくホン』でも、『AmiVoice SP』のテクノロジーが採用されたとの発表もありました。これは電話機に向かって使いたい機能などをしゃべりかけると、関連メニューが出てくるというもの。こうした技術によって、将来的にはメールの作成機能なども期待されます。
ちょっと変わった所では、『ニコニコ生放送』の“上コメント”(放送主が書き込めるコメント)などでも面白い使い方ができるかもしれません。これならば、生放送主の手がふさがっている状態でも、コメントを出すことが可能ですからね。
気になる価格は、USBマイク付きが2万6040円、マイクなしが2万0790円、ダウンロード版が1万5540円(すべて税込み)です。
本当にキーボード入力が必要なくなる日も、もう遠くないでしょう。
【動作環境】
・OS:Windows XP(SP2以上)、Windows Vista、Windows 7(64bit環境に対応※)
・必要なHDD容量:200MB以上
・CPU:1GHz以上のプロセッサ
・メモリ:512MB以上(Windows Vista、Windows 7では1GB以上)
・USB:1ポート以上の空き(USBヘッドセットマイク用)
・CD-ROMドライブ:インストール時に必要となる
※64bit環境では、WOW64(32bitエミュレーター)上で動作します。
■関連記事
あのポケットムービーカメラ『Flip』3モデル5機種をDMRが販売開始
USB接続したHDDやUSBメモリーがNASになる!『MZK- USBSV』
これから『USTREAM』を始めたい人に『USTREAM スターターキット』発売へ
彼女とゲーセンで遊べる!? 『ラブプラスアーケード』についてコナミに聞いたところ……
ペンダントスタイルのステレオヘッドセット『Jabra STREET』を発売
- ガジェット通信編集部への情報提供はこちら
- 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。