D-IDとは

D-IDとは、2017年創業のアバター動画生成AIサービスを提供するイスラエルの企業です。

このサービスは、D-ID自社製のフェイスアニメーションディープラーニング技術、OpenAIが開発した言語モデル「GPT-3」のAIテキスト生成機能、Stable DiffusionのAI画像生成の技術、の3つを組み合わせてできています

近年Warner Brothers PicturesやPublicisを顧客に持つなど、知名度を上げています。

使える機能

  • D-ID内の既存アバターを使って喋る動画を生成
  • 手持ちの顔の画像(写真、イラスト)を取り込み、喋る動画を生成
  • テキスト読み上げの技術を使って120言語の音声を追加
  • 生身の人間の声に合わせて顔を動かす
  • AI画像生成
  • GPT-3を使用した文章生成

実際に使ってみた

こちらがD-IDの動画生成をする編集画面です。UIも非常にシンプルでわかりやすく、誰でもすぐ動画が生成できるようにになっています。

動画を生成するには、画面中央下から使いたいアバターを選び、画面右のテキストボックスに話してもらいたい文章を打ち込み、言語の設定と声の性別設定をするだけです。

D-ID内の既存の画像ではなく、自分の手持ちの画像を使いたい場合は「+add」をクリックし、使いたい写真を選択してD-ID内に取り込みます。AIで画像を生成して動画を作りたい場合は、「Generate AI Presenter」の欄に、生成したい画像の特徴をテキスト入力し、生成された画像で動画編集をします。

日本語対応している音声は、男性と女性の声がそれぞれ1つずつのみですが、英語には男女それぞれ10個ずつ声のバリエーションがあります。

以下の動画は、D-ID既存の人間の顔写真とAIによって生成されたイラストの2つを喋らせてみたものです。文章読み上げには声のトーンを設定できる機能もあり、ここでは企業で使えそうな「Customer service」というスタイルを使用しています。

試しに犬の画像をAIで生成してみましたが、「人間の顔の特徴がない」とAIが判断し、使用する事はできませんでした。正面を向いた人間の顔として認識できる目・鼻・口などの特徴がある限り、妖怪やモンスターなどの見た目をしていても喋らせることはできますが、犬などの動物は使用できないようです。

また、アニメのようなイラスト画像も生成した所、生成した際は顔と認識してくれましたが、喋る動画にしようとしたら、顔が認識できませんでしたと表示され動画が生成されませんでした。デフォルメされた顔のイラスト等だとうまく動画にならないケースがある、又、D-ID内の画像生成AIと動画生成AIの「顔」という認識に多少の誤差があるようです。

活用方法

  • プレゼンに使用(PowerPoint上で使えるAdd-inがMicrosoft Storeにあり)
  • 自社ゲームキャラクターなどの画像を取り込み、宣伝動画などに使用
  • E-ラーニングの動画などにバーチャル教師として使用
  • 講習会やセミナーなどでプレゼンターとして使用
  • 顧客に向けてビデオメッセージを作成
  • バーチャルインフルエンサーを生成してSNSの宣伝広告等を作成
  • 自社アプリにアバターを追加

→動画撮影・編集の大幅な時短&人件費削減

料金

14日間の無料トライアルもあり、5分までの動画が作れるようになっています。

有料プランは以下の通りです。

 プランLiteProAdvancedEnterprise
月額料金$5.99$49.99$299.99カスタムプラン
作れる動画尺10分15分65分カスタムプラン

各プランの使える機能等の詳細はこちらをご確認ください。

まとめ

今回はアバターが喋る動画を生成してくれるAIツール「D-ID」を紹介しました。

実際に使ってみて、誰でも早く簡単に動画が作れる、という事が一番の特徴であり利点だと感じました。料金に関して、作れる動画のトータルの尺に対して少し割高な印象がある所が欠点かと思われますが、それ以外でここが使いにくい、わかりにくい、という点は全くありませんでした。

使用する画像や言語によってはぎこちない動きの動画が生成されることもあり、どんなシーンでも完璧に使える、という訳ではないかもしれませんが、動画を頻繁に作る方にとってはかなりのお役立ちツールになるのではないでしょうか。