“歯擦音”を含む微細な音をリアルに再現｜カスタム可能な音声モデル「Murf Speech Gen 2」

2024/08/14 11:00 Techable

2020年設立のMurf AIは、20以上の言語で120以上のAI音声を選択できる“テキスト読み上げAI音声ジェネレーター”を提供する米国拠点のスタートアップ。同社は今年7月、カスタマイズ可能な音声モデルである「Murf Speech Gen 2」（以下、Gen 2）のリリースを発表した。

独自の生成ニューラル・アーキテクチャで設計された同モデルは、人間の音声と“聞き分け”がつかないほどのリアルな声を生成する機能と高度なカスタマイズ機能を融合したもの。企業の多様なニーズを満たすという。

本物の人間のような“微妙なニュアンス”を再現

Image Credits：Murf AI

Murf AIは「完璧なAIナレーションとは、単にリアルに聞こえるだけでなく、クリエイターのビジョンに正確に一致することだ」と考えている。そこで、本物のようなナレーションの作成機能に加え、高度なカスタマイズ機能を備えたGen 2をリリースした。

Gen 2は、多様な人口統計と感情スペクトルから収集された7万時間を超える音声データを使用してトレーニングされており、人間のような抑揚・リズムを実現している。

44.1kHzのサンプリング周波数（音声をデータ化する際、1秒間に何回サンプリングを行ったかを示す値）で動作し、人間の可聴範囲全体をより正確に捉えることが可能。この忠実な再現により、「s」と「f」の音が同時に発生するときの歯擦音といった微細な音が明瞭になり、音声自体が自然に聞こえる。

また、Murf AIは複数言語における各アクセントの微妙なニュアンスを再現できるようにGen 2を設計している。言語学者による1万以上の文章を対象とした厳密なテストでは、英語音声カタログの単語レベルの発音精度が98.8%以上というスコアをたたき出した。

Image Credits：Murf AI

Gen 2は、多様な音声スタイルとカスタマイズ機能を備えており、独自のピッチ、ペース、イントネーション、感情の深さを備えた幅広い音声スタイルから選択することが可能。

マーケティング、教育、学習・開発、出版などの業界人は、説得力のあるビジネスプレゼンテーション、魅力的なオーディオブック、eラーニングモジュールなどを作成する場合でも、コンテンツのトーンと意図に一致するスタイルを実現できる。

「Say it My Way」機能では、ユーザーのセリフを録音・アップロードし、選択したAIアバターの音声で再現。各単語と休止の正確な長さ、強調を正確に模倣するため、インパクトのある音声に仕上がる。

「Variability」というMurf AIのソリューションを使用すれば、ユーザーはボタンを 1 回クリックするだけで、セリフの複数のナレーションバージョンを取得し、その中からビジョンに合ったものを選択できる。

Image Credits：Murf AI

インド工科大学カラグプル校の卒業生によって設立されたMurf AIは、クラウドベースのリアルなテキスト読み上げソフトウェアを提供している米国拠点の企業。世界150か国以上で1000を超える顧客を抱えており、400万人の登録ユーザーを誇っている。

B2BソフトウェアレビューサイトであるG2の「ベストソフトウェアアワード2024」にて、Murf AIの製品が“世界で最も急成長している製品の1つ”として認められ、過去3年間連続でG2のリーダーおよびモメンタムリーダーに選出された。

Gen 2と近日発売予定のダビング製品の発売に伴い、現在Murf AIは企業向けの包括的な高度な音声ソリューションを構築しているという。

参考・引用元：
Murf AI
PR Newswire

（文・Haruka Isobe）

2024/08/14 11:00 Techable