Coquiとは

Coquiは、元Mozillaエンジニアが2016年に立ち上げたテキスト読み上げAIサービスを提供する企業です。このサービスを使いテキストを入力すると、まるで人間が喋っているかのような音声を生成する事ができます。生成できる音声はまだ英語のみですが、現在開発中の料金プラン「Pro」で今後複数の言語に対応していくようです。

Coqui HP

「Coqui」とはスペイン語が語源で、プエルトリコ原産のコキーコヤスガエルというカエルを指します。カエルは色々なものに擬態し周りに溶け込むことができつつ、大きく明瞭な声を発する事で知られているため、そこからアイディアを得てサービスの名前を付けたそうです。

使える機能

  • テキスト→AI音声生成(※現在はまだ英語のみ対応)
  • 様々な声のプリセット
  • 声のトーン選択(Neutral, Happy, Angry, Sad, Surprise, Dull)
  • 音声のピッチ、音圧を1音ずつ調整
  • タイムラインを編集して、音声を再生するタイミングを調整
  • 音声のクローニング
  • プロジェクト、シーンごとにファイルをまとめられる

実際に使ってみた

基本操作

こちらが音声生成の編集画面です。

新しい音声を生成するには「Add new line」をクリック。読み上げ音声のプリセット(ここではAbrahan Mackを選択)を選んだうえで、読み上げてもらいたい文章を「Enter line text here」の欄に入力します。「Emotion」を変更すると、音声のトーンが変わるようになっています。

試しにプリセットとトーンを3種類ずつ使い、同じ文章を読ませてみました。↓

Abrahan Mack, Emotion: Sad
Asya Anara, Emotion: Neutral
Henriette Usha, Emotion: Angry

会話を作る

作った音声の下に続けて「Add new line」をしていくと、全ての音声ファイルが連続した1つのファイルを作ることもできます。また、画面下部のタイムラインを調節する事によって、音声ファイルを再生するタイミングをひとつずつ変える事ができ、自然な間を演出できます。

この機能を利用し、英語のリスニング教材で使われていそうな会話文を生成してみました。↓

細かい調整

またCoquiでは、音声ファイル中のピッチと音圧(Energy)を一音ずつ手作業で調節する事も可能です。生成された音声に違和感がある場合は「Advanced Editor」という所をクリックして、ピッチと音圧を調節してみるといいでしょう。

活用方法

  • ゲームのキャラクター音声に使用
  • 海外の顧客向けにプレゼン資料を作る
  • 英語教材のリスニング用音声を作成

→大幅な時短&人件費削減

料金

現在利用できる料金プランは以下の通りです。基本的に使った分だけ支払う、という料金体制を取っています。各プランの使える機能等の詳細はこちらをご確認ください。

プランFree TrialStarter(Standard)Starter(Discount)
料金$0$20$175(30%割引)
音声尺30分4時間50時間

複数人で使用できたり複数の言語で音声生成ができる「Pro」版や、企業向けの「Enterprise」版も開発中ですが、まだ早期アクセスの段階のようです。

まとめ

今回は人間が喋っているかのような音声を生成できるAIツール「Coqui」を紹介しました。

非常に自然な音声が生成されるので、かなり汎用性が高いのではないかと思います。まだ対応言語が英語のみというの残念ですが、他言語も開発中とのことなので今後に期待です。