CogVideoX Tora | 画像から動画へのモデル
CogVideoX Toraは、拡散モデルとトランスフォーマーの強みを組み合わせて動きの軌道を明示的にモデル化し、動画生成におけるオブジェクトの動きとダイナミクスを正確に制御します。この軌道指向のアプローチは時間的一貫性と視覚的忠実性を向上させ、Toraは動画編集、合成、およびアニメーションのようなタスクにおいて重要な進歩を遂げています。CogVideoX Toraのワークフローを使用して、ダイナミックな動画を作成し、アニメーションシーンでシームレスなトランジションと動きを実現します。ComfyUI CogVideoX Tora ワークフロー
ComfyUI CogVideoX Tora 例
ComfyUI CogVideoX Tora 説明
The ノードとその関連するワークフローは、完全にKijaiによって開発されています。この革新的な作業に対して、Kijaiにすべての功績を与えます。RunComfyプラットフォームでは、単にKijaiの貢献をコミュニティに提示しています。現在、RunComfyとKijaiの間に正式な接続やパートナーシップはありません。Kijaiの作業に深く感謝します!
CogVideoX Tora
Toraは、拡散トランスフォーマーモデルの中で軌道に基づくガイダンスを活用することにより、高品質の動画を生成する新しいフレームワークを導入します。動きの軌道に焦点を当てることで、Toraはより現実的で時間的に一貫した動画合成を実現します。このアプローチは、空間的-時間的モデリングと生成的拡散フレームワークの間のギャップを埋めます。
このバージョンのToraは、CogVideoX-5Bモデルに基づいており、学術研究の目的でのみ意図されています。ライセンスの詳細については、を参照してください。
1.1 CogVideoX Toraワークフローの使用方法
これはCogVideoX Toraワークフローです。左側のノードは入力、中央は処理Toraノード、右側は出力ノードです。
- 入力ノードに水平画像をドラッグ&ドロップします。
- アクションプロンプトを記入します
- 軌道パスを作成します
1.2 入力画像の読み込み
- 画像をアップロード、ドラッグ&ドロップ、またはコピー&ペースト(Ctrl+V)して、画像読み込みノードに入れます
[!CAUTION]
- 720*480の水平フォーマット画像のみが動作します。他の寸法はエラーを引き起こします。
1.3 ポジティブおよびネガティブプロンプトを追加
Positive
: 軌道ノードで定義された軌道に基づいて主題が行う動作を入力します(動く、流れる...など)。Negative
: 起こってほしくないことを入力します(歪んだ手、ぼやけた...など)
1.4 動きのための軌道を作成
ここでは、アップロードされた写真の主題の動きの軌道パスを設定します。
points_to_sample
: レンダリングのフレーム数またはビデオのフレーム数を設定します。mask_width
: デフォルトは720です。変更しないでください!mask_height
: デフォルトは480です。変更しないでください!
ノードガイド:
- Shift + クリックで終わりに制御ポイントを追加します。Ctrl + クリックで2つのポイントの間に制御ポイント(細分化)を追加します。
- ポイントを右クリックして削除します。
- 開始/終了から削除できないことに注意してください。
- コンテキストメニューのためにキャンバスを右クリックします:
- これらは純粋にビジュアルオプションであり、出力には影響しません:
ハンドルの可視性を切り替える
- サンプルポイントを表示: 返されるポイントを表示します。
- points_to_sample値は、描画されたスプライン自体から返されるサンプル数を設定します。これは実際の制御ポイントから独立しているため、補間タイプが重要です。
Sampling_method:
- 時間: 時間軸に沿ってサンプルを取得し、スケジュールに使用します
- パス: パス自体に沿ってサンプルを取得し、座標に役立ちます
1.5 CogVideoX & Toraモデルの読み込み
これらはモデルダウンローダーノードであり、comfyuiに2-3分でモデルを自動的にダウンロードします。
1.6 CogVideoサンプラー
Steps
: この値はレンダリングの品質を決定します。最適で効率的な値のために25 - 35の間に保ってください。cfg
: CogVideoサンプリングのデフォルト値は6.0です。denoising strength
およびScheduler
: これを変更しないでください。
1.7 軌道の重みと強度
このノードは、動きの軌道の強度を設定します。
strength
: 高い値は歪んだ図や飛んでいる点を与えます。0.5 - 0.9の間で使用してください。start_percent
: 強度の動きの効果を緩和するためにこの値を使用してください。end_percent
: 高い値は歪んだ図や飛んでいる点を与えます。0.3 - 0.7の間で使用してください。
1.8 出力
これらのノードは3つの出力を提供します。
- 出力されたレンダリングされたビデオ
- レンダリングされたビデオに重ねられた軌道パス
- 黒い背景に軌道ビデオ
"CogVideoX Tora: Trajectory-oriented Diffusion Transformer for Video Generation"は、拡散トランスフォーマーフレームワーク内で軌道に基づくガイダンスを導入することにより、動画生成への革新的なアプローチを提示します。時間的一貫性と現実的な動きを維持することに苦労する従来の動画合成モデルとは異なり、CogVideoX Toraは動きの軌道のモデリングに明示的に焦点を当てています。これにより、システムはオブジェクトと要素が時間とともにどのように進化するかを理解することで、一貫した視覚的に説得力のある動画を生成することができます。高品質な画像生成で知られる拡散モデルの力と、トランスフォーマーの時間的推論能力を組み合わせることで、CogVideoX Toraは空間と時間のモデリングのギャップを埋めます。
CogVideoX Toraの軌道指向メカニズムは、オブジェクトの動きと動的な相互作用を細かく制御することができ、動画編集、アニメーション、特殊効果生成など、正確な動きのガイダンスを必要とするアプリケーションに特に適しています。モデルの時間的一貫性と現実的なトランジションを維持する能力は、スムーズで一貫した動画コンテンツの作成における適用性を高めます。軌道プライオリティを統合することにより、CogVideoX Toraは動きのダイナミクスを改善するだけでなく、フレームベースの生成でよく見られるアーティファクトを減少させます。このブレークスルーは、動画合成の新しい基準を設定し、映画制作、仮想現実、動画ベースのAIなどの分野でクリエイターや開発者に強力なツールを提供します。