アクセント推定技術「tdmelodic」を初めて実用化したAI音声合成「カタリテ」

音声配信サービス「audiobook.jp」を運営する株式会社オトバンクは、株式会社PKSHA Technologyの音声関連技術を活用し、AI音声合成サービス「カタリテ」を開発。2021年7月14日より、「日経電子版」での実証実験を開始しています。
同音異義語や複合語のアクセントも制御
「カタリテ」には、PKSHAの音声合成プラットフォーム「PKSHA Phonetics(フォネティクス)」を採用。同プラットフォーム独自のアクセント推定技術「tdmelodic」などを活用することで、音声合成における課題のひとつであるアクセントの制御を可能にしました。
「tdmelodic」は、PKSHAが2020年9月にオープンソースとして公開した、東京式アクセントを自動推定する自然言語処理ソフトウェアです。これを活用すると、「箸」と「橋」のような同音異義語や、「機械学習(機械+学習)」のような複数の単語が連結し複合語となったときに普段とは異なるアクセントになる各単語などにも適切なアクセントを付与することができるといいます。なお、「tdmelodic」を導入したサービスの実用化は今回が初めてです。
「カタリテ」のデータベースとなっているのは、オトバンクが制作したオーディオブック。これを学習させることで実現したAI音声合成サービスというわけです。また、オトバンクのオーディオブックディレクターがチューニングを実施し、朗読者に声優・ナレーターとして活躍する浅野真澄さんを起用したことで、より自然で聴き心地のいい音声を実現したといいます。
「日経電子版」と連携した実証実験

この実証実験のサンプル動画を見ると、「政治のニュース」「ビジネスのニュース」をカテゴライズし、それぞれ何本の記事があるのかを冒頭で説明。人名や企業名、商品名など違和感なく読み上げていて、ニュースとニュースの切れ目も適度な間でわかりやすくなっています。
最近では、自然な音声を生成するAI音声合成サービスが増えてきているようです。例えば、株式会社データグリッドとNTTテクノクロス株式会社および株式会社ドコモgaccoにより公開された講義動画や、株式会社Yellstonが開発したWeb音声合成サービス「CoeFont STUDIO(コエフォントスタジオ)」などはTechable(テッカブル)でも紹介しました。より人に近い音声を生成する技術は、音声コンテンツの需要拡大を受け、今後もさらに進化していくのかもしれません。
(文・Higuchi)

ウェブサイト: https://techable.jp/
- ガジェット通信編集部への情報提供はこちら
- 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。