Grok Imagineで使えるSTART/ENDフレーム再現テクニックまとめ

リン(AI)

本記事では、Grok Imagineで「START/END」フレームを指示するためのプロンプトを紹介しています。

START/ENDフレームの基本と仕組み
1枚の画像でSTART/ENDフレームを再現する方法（Grok Imagine）
動画の冒頭に入る静止画像をAIで簡単にカットする方法
START/ENDフレーム用の画像をAIで自動生成する手順
まとめ

「START/END」フレーム機能というのは、ざっくり言うと、以下のような画像を用意して、AIにSTARTの画像からENDの画像までの動きを繋いでもらうものです。

ただ、画像を添付しただけではうまく動いてくれません。画像を渡したうえで、きちんとプロンプトで指示をしてあげる必要があります。

最終的には、こんな感じの作例の動画になります。

そこで今回は、Grok Imagineを使って「START/END」フレームを指示するためのプロンプトをご紹介していきます。

なおGrok Imagineで動画を作る手順についてを以下の記事で詳しく解説しています。ぜひこちらもご活用ください。

Grok Imagineで動画を作る手順とNormal・Fun・Spicyの使い分け

Grok Imagineの画像生成・動画生成の使い方を解説。Normal／Fun／Spicy／Customモードの違いやI2V形式の仕組みまで、実際の操作画面と作例をもとに詳しく紹介します。xAI開発の注目ツールを無料プランで試す手順も網羅。

START/ENDフレームの基本と仕組み

まずは、そもそも「START/END」フレーム機能って何？という方のために、簡単に説明していきます。

こちらは、動画生成AI「Hailuo AI」の「START/END」フレーム機能のユーザーインターフェースです。

この機能は、「動画の始まりと終わりの静止画（写真）を自分で指定して、その間をAIが自然につなげてくれる」というものです。

どういうこと？

「この画像からスタート！」という画像をAIに見せる。
「最終的にこの画像で終わりたい！」という画像をAIに見せる。
AIが、その2つの画像の間を自然に変化させて、スムーズな動画を自動で生成します。

メリット:

ただおまかせで動画を作るより、「こんな風に始まって、こんな風に終わる」という動画の展開をコントロールしやすくなります。

上記のHailuo AIの参考画像では、「後ろ姿のメイド美少女」が開始フレームで、「剣を空中で振りかざしているメイド美少女」が終了フレームになっています。
この間の動きを、動画AIがうまく空気を読み取って、自然に繋がるように動画を生成してくれる仕組みです。

以下は、以前に本ブログで紹介した動画ですが、この機能を活用した作例になります。

この機能ですが、「Hailuo AI」のインターフェースを見てもらうとわかるように、画像を2枚添付する必要があります。

そのため、Grok Imagineのように画像を1枚しか添付できない場合には、この「START/END」フレーム機能をそのまま使うことはできません。

── と思っていたのですが、実はこれと似たようなことを再現できる方法があることがわかりました。

それが、冒頭でも紹介したように、1枚の画像の中に「START FRAME」と「END FRAME」と記載して、Grok Imagineに渡すというやり方です。

1枚の画像でSTART/ENDフレームを再現する方法（Grok Imagine）

それでは、さっそく見ていきましょう。

ここからは、具体的なやり方と、Grok Imagineに指示を出すためのプロンプトについて、順を追ってご紹介していきます。

START/END用の画像を作る手順と比率設定

まずは、以下のような画像を用意します。
※ここでは見やすくするために背景を水色にしていますが、実際には白背景で作成しています。

なお、この画像を自分で作るのが少し面倒な場合は、AIを使ってサクッと作ることもできます。
この方法については、後ほどあらためて解説します。

Grok ImagineでSTART/ENDフレームを再現するためのリファレンス画像

この画像は、1枚の中に「START FRAME」と「END FRAME」の両方を並べて配置したものです。
ここで重要なのが、この1枚画像のアスペクト比（縦横の比率）です。Grok ImagineでI2V（画像から動画生成）を行う場合、添付した画像のアスペクト比に合わせて動画が生成されるため、自分が作りたい比率で画像を用意する必要があります。

今回は、元のキャラクターイラストの画像が2:3の比率だったため、それに合わせてこの画像も2:3で作成しています。

画像ができあがったら、Grok Imagineにアップロードしていきます。

Grok ImagineでSTART/ENDフレームを再現する利用手順の資料画像-1

アップロードが完了すると、このような画面になります。
このとき、自動的に1本の動画が生成されますが、そこは特に気にしなくて大丈夫です。

Grok Imagineに入力するプロンプト例と設定ポイント

次に、「START/END」フレームを再現するための指示用プロンプトをご紹介します。


Create a smooth animation featuring a single character that transitions from the pose in the "START FRAME" (left side of the attached image) to the pose in the "END FRAME" (right side of the attached image). Follow these instructions precisely:

1. **Single Character**: Use only one character with the same design as shown in both the "START FRAME" and "END FRAME." Do not interpret the two frames as two separate characters.
2. **Start at Frame 0**: Begin the animation at frame 0 with the character in the exact pose of the "START FRAME" (left side), displayed alone on the screen. Do not show the "END FRAME" pose, the attached image itself, or any blend of the two frames at the start.
3. **Smooth Transition**: Animate the character’s pose transitioning smoothly from the "START FRAME" pose to the "END FRAME" pose over exactly 7 seconds. Ensure the character’s design (e.g., colors, clothing, features) remains consistent throughout.
4. **No Dual Characters**: At no point should two characters or a mix of the two frames be visible. The animation must show only one character moving from the initial to the final pose.
5. **Style**: Maintain the art style of the character as shown in the attached image.

The attached image is a reference with two illustrations: "START FRAME" (left) and "END FRAME" (right). Use these only as guides for the initial and final poses of the single character in the animation.

上記のプロンプトを、そのまま全てコピーして、Grok Imagineのプロンプト入力欄にペーストしてください。

Grok ImagineでSTART/ENDフレームを再現する利用手順の資料画像-2

このプロンプトを使って生成された作例が、以下の動画になります。

このように、動画は生成されます。

安定性については、体感ではおおよそ5割ほどといった印象です。
また、添付する画像の内容によっても結果が大きく左右されます。

いろいろとプロンプトを試してきた中で、現時点では今回ご紹介しているプロンプトが、もっとも成功率が高いと感じています。

プロンプト実行時の注意点

ここで、注意しておきたい点が2つあります。

どうしても最初の添付画像（リファレンス用）から始まってしまう
厳密に言うと「END FRAME」の画像が使われるわけではない

1つ目は、どうしても最初の添付画像（リファレンス用）から動画が始まってしまうという点です。
今回いろいろなプロンプトで試してみたのですが、完全に0フレーム目から「START FRAME」に配置した画像だけを使って動画を開始させるのは、どうしても難しそうでした。
そのため、ここは動画をカットする必要があります。
この処理については、AIを使って比較的かんたんに対応できる方法があるので、後ほどご紹介します。

2つ目は、ENDフレームの画像がそのまま使われるわけではないという点です。
START/ENDフレーム機能が正式に実装されている他の動画生成AIでは、ENDフレームに指定した画像がそのまま動画のラストに使われるのですが、Grok Imagineではそうではありません。
あくまで「END FRAME」の画像を参考にして、似たような最終フレームをAIが生成するという仕組みなので、完全に一致するわけではない点には注意が必要です。

動画の冒頭に入る静止画像をAIで簡単にカットする方法

それでは、0フレーム目にどうしても入ってしまう添付画像の部分を、簡単に除去する方法をご紹介します。

もちろん、動画編集ソフトを使えばフレームのカットは簡単にできますが、今回はそういったツールは使わず、AIだけでざっくりと処理することを目的としています。

ここでは、ChatGPT（ちゃっぴー♪）を活用します。ChatGPTには、動画ファイルをそのままアップロードすることができます。

しかも、この作業はとても簡単です。

編集したい動画をアップロードしたうえで、以下のように指示するだけでOKです。

この動画の最初の１秒をカットした動画にしてください。

なお、秒数は「0.5秒」などと細かく指定しても大丈夫です。
必ずしもその秒数ぴったりでカットされるわけではありませんが、だいたい近いところで処理してくれます。もしカットしすぎたと感じた場合は、カットする秒数を少し減らしてみてください。

たまにChatGPTが「これは何秒の動画ですか？」「ファイル形式は？」といった質問をしてくることがありますが、そのときは「任せるからやって」と答えれば問題なく進みました。

以下は、実際にカットした動画の作例です。

ざっくりとではありますが、最初のリファレンス用の画像部分はしっかりと消えてくれます。
現状では、おそらく動画の冒頭が添付画像から始まるのはGrok Imagineの仕様のようで、これをプロンプトだけで回避するのは難しいんじゃないかと思っています。

そのため、今回ご紹介したような方法を代替手段として使ったほうが手っ取り早いかもしれません。
とはいえ、この「START/END」フレーム機能は、いまの動画生成AIにおいてはかなり重要な機能だと感じていて、近いうちにGrok Imagineでも画像を複数添付できるようになるのではないかと期待しています。

それまでは、こういったやり方で対応していく感じですね。
もし画像が複数添付できるようになれば、2枚どころか、もっと細かくフレームを指定して、自由に「START/END」フレームを再現できるようになると思います。

個人的にも、とても楽しみにしています。

START/ENDフレーム用の画像をAIで自動生成する手順

それでは最後に、「START/END」フレーム用の画像素材の作り方をご紹介します。

わたしはPhotoshopで作成しましたが、実はこれもChatGPTを使えば、Photoshopは使わずに済みます。

具体的には、次のような感じでChatGPTに指示していきます。

ChatGPTでSTART/ENDフレーム用の画像素材を作る方法の説明資料の画像

2:3比率の1800*2700ピクセルの白背景のキャンバス内に、1枚目と2枚目の添付ファイルを左右に重ならないように配置して結合したファイルを作成してください。１枚目と２枚目のファイルはリサイズしないでください。3枚目の完成イメージを参照してください。 1枚目を左に、2枚目を右に配置してください。それぞれ配置した画像の上端から十分に余白を開けてSTART FRAME、END FRAMEと記載すること。フォントは「DejaVuSans-Bold.ttf」。白縁＋黒文字で明瞭表示。

実行して生成されたファイルがこちらです。
この画像をそのままGrok Imagineにアップロードして使う、という流れになります。

START/ENDフレームのためのリファレンス画像（Photoshotp作成バージョン）

Photoshopで作成したもの

START/ENDフレームのためのリファレンス画像（ChatGPT作成バージョン）

ChatGPTで作成したもの

さらに、いろいろ試してみてわかったのですが、実は「START FRAME」や「END FRAME」といった文字をわざわざ書き込まなくても問題ありませんでした。
念のため、ChatGPTへの指示には記載していますが、この文字の記述は削除してしまっても良いかもしれません。

というのも、この文字がないほうが成功率が高い印象があって、最近はわたしも「START/END」の記述なしで、2つの画像をくっつけただけのものを使ってGrok Imagineで動画生成をしています。
とはいえ、生成する画像の内容によって結果が左右される可能性もあるので、このあたりは実際に試してみて判断してもらうのがよいと思います。

「3枚目の完成イメージ」で使用している画像については、上記の画像をそのまま使ってもらって大丈夫です。
これを完成イメージとしてChatGPTに渡しつつ、先ほど紹介したプロンプトで指示を出してみてください。

※ChatGPTに渡す参考用イメージの横バージョンです。横構図の動画を作りたい場合は、以下をChatGPTに参考用として渡してあげてください。指示文章冒頭の「2:3比率の1800*2700ピクセルの白背景のキャンバス内に〜〜」という部分を「3:2比率の2700*1800ピクセル」に変更してあげれば、横バージョンになります。