SadTalkerという技術を用いることで、たった1枚の画像と音声データから、ここで紹介するような動画が簡単に作成できます。
今回は実際にやってみた結果の掲載になります。
※SadTalkerの使い方については、様々なブログに掲載されておりますので、ここではご紹介しません。
目次
SadTalkerとは?
SadTalkertとは、音声データに合わせ、顔(頭)の角度や、表情を自動的に変化させた動画を生成できる技術です。
詳細は、ココに記載があります。
作成してみた難易度は?
めちゃくちゃ簡単でした。特に説明は不要だと思います。
Stable Diffusion WebUIの拡張機能も公開されているようです。
まず、話をさせたい画像を用意します。
私は、オリジナルモデルの「エリカ」の最高の1枚を用意しました。
上記画像から顔部分を正方形になるように、トリムします。とても可愛いです。
音声データを用意します。今回は「VOICEVOX」を利用しました。
その中でも「九州そら」さんのセクシーボイスを利用させていただきました。
これらを準備したら、あとは生成するのみです。
学習したモデルで実際に生成してみた結果
以下の投稿の動画が生成結果です。
いかがでしょうか?多少の違和感はありますが、たった1枚の画像と音声から、このレベルの動画ができるなんて感動しませんか?
上記投稿以外にも、同じ音声で他に3つの動画を生成していますので、ここで公開させていただきます。
色々な使い方ができますね…
最後までご覧いただき、ありがとうございました。
Twitterでは以下のようなAI写真を投稿しています。興味がございましたらご覧ください。