ComfyUI  >  ワークフロー  >  CogVideoX-5B | 高度なテキストからビデオへのモデル

CogVideoX-5B | 高度なテキストからビデオへのモデル

Zhipu AIが開発したCogVideoX-5Bは、テキストプロンプトから高品質なビデオを生成する最先端のテキストからビデオへのモデルです。3D Causal VAEとExpert Transformerアーキテクチャを利用して、このモデルは時間的に一貫した滑らかなビデオシーケンスを確保し、複雑な動作や詳細なセマンティック生成に最適です。

ComfyUI CogVideoX-5B ワークフロー

ComfyUI CogVideoX-5B
このワークフローを実行しますか?
  • 完全に動作するワークフロー
  • 欠落したノードやモデルはありません
  • 手動セットアップは不要
  • 魅力的なビジュアルを特徴としています

ComfyUI CogVideoX-5B 例

ComfyUI CogVideoX-5B 説明

1. CogVideoX-5Bについて

CogVideoX-5Bは、Tsinghua UniversityのZhipu AIによって開発された最先端のテキストからビデオへの拡散モデルです。CogVideoXシリーズの一部として、このモデルは3D Variational Autoencoder (VAE)やExpert Transformerなどの高度なAI技術を使用してテキストプロンプトから直接ビデオを生成します。CogVideoX-5Bは、複雑な動作や詳細なセマンティックスを捉える高品質で時間的に一貫した結果を生成します。

CogVideoX-5Bを使用すると、卓越した明瞭さと流動性を実現できます。このモデルはシームレスなフローを確保し、驚異的な精度で詳細な要素や動的な要素をキャプチャします。CogVideoX-5Bを活用することで、一貫性のない部分やアーティファクトを減らし、洗練された魅力的なプレゼンテーションを実現します。CogVideoX-5Bの高忠実度の出力は、テキストプロンプトから豊かで詳細な一貫したシーンの作成を容易にし、トップティアの品質と視覚的なインパクトを提供するための必須ツールです。

2. CogVideoX-5Bの技術

2.1 CogVideoX-5Bの3D Causal Variational Autoencoder (VAE)

3D Causal VAEは、動画データを空間的および時間的に圧縮することで効率的なビデオ生成を可能にするCogVideoX-5Bの重要なコンポーネントです。従来のモデルが各フレームを個別に処理するために2D VAEを使用するのに対して、CogVideoX-5Bは空間的および時間的な情報を一度にキャプチャするために3D畳み込みを使用します。このアプローチにより、フレーム間の滑らかで一貫した遷移が確保されます。

3D Causal VAEのアーキテクチャには、エンコーダ、デコーダ、および潜在空間レギュライザが含まれます。エンコーダは動画データを潜在表現に圧縮し、デコーダはそれを使用して動画を再構築します。Kullback-Leibler (KL)レギュライザは潜在空間を制約し、エンコードされた動画がガウス分布内に収まるようにします。これにより、再構築中の高いビデオ品質が維持されます。

3D Causal VAEの主な特徴

  • 空間および時間の圧縮:VAEは、時間次元で4倍、空間次元で8x8倍の圧縮を行い、合計で4x8x8の圧縮比を達成します。これにより、計算資源が削減され、モデルが少ないリソースでより長いビデオを処理できるようになります。
  • 因果畳み込み:動画のフレーム順序を維持するために、モデルは時間的に因果関係のある畳み込みを使用します。これにより、将来のフレームが現在または過去のフレームの予測に影響を与えないようにし、生成中のシーケンスの整合性が維持されます。
  • コンテキスト並列処理:長いビデオを処理する際の高い計算負荷を管理するために、モデルは時間次元でコンテキスト並列処理を使用し、複数のデバイスに負荷を分散します。これにより、トレーニングプロセスが最適化され、メモリ使用量が削減されます。

2.2 CogVideoX-5BのExpert Transformerアーキテクチャ

CogVideoX-5Bのエキスパートトランスフォーマーアーキテクチャは、テキストとビデオデータの複雑な相互作用を効果的に処理するように設計されています。テキストとビデオの異なる特徴空間を処理するために、適応的なLayerNorm技術を使用します。

Expert Transformerの主な特徴

  • パッチ化:3D Causal VAEが動画データをエンコードした後、空間次元に沿って小さなパッチに分割されます。このプロセスはパッチ化と呼ばれ、動画を小さなセグメントのシーケンスに変換し、トランスフォーマーが対応するテキストデータと整列しやすくします。
  • 3Dロータリーポジショナルエンベディング (RoPE):動画内の空間および時間的関係をキャプチャするために、CogVideoX-5Bは従来の2D RoPEを3Dに拡張します。このエンベディング手法は、動画のx、y、t次元に位置エンコードを適用し、トランスフォーマーが長いビデオシーケンスを効果的にモデル化し、フレーム間の一貫性を維持するのに役立ちます。
  • エキスパート適応LayerNorm (AdaLN):トランスフォーマーは、テキストとビデオのエンベディングを別々に処理するためにエキスパート適応LayerNormを使用します。これにより、テキストとビデオの異なる特徴空間を整列させ、これらの2つのモダリティの滑らかな融合を可能にします。

2.3 CogVideoX-5Bの進行的トレーニング技術

CogVideoX-5Bは、ビデオ生成中のパフォーマンスと安定性を向上させるために、いくつかの進行的トレーニング技術を使用します。

進行的トレーニングの主な戦略

  • 混合期間トレーニング:モデルは、同じバッチ内でさまざまな長さのビデオでトレーニングされます。この技術により、モデルの一般化能力が向上し、異なる期間のビデオを生成しながら一貫した品質を維持できるようになります。
  • 解像度進行トレーニング:モデルは最初に低解像度のビデオでトレーニングされ、その後徐々に高解像度のビデオで微調整されます。このアプローチにより、モデルはビデオの基本構造と内容を学習した後、高解像度で理解を深めることができます。
  • 明示的な均一サンプリング:トレーニングプロセスを安定させるために、CogVideoX-5Bは明示的な均一サンプリングを使用し、各データ並列ランクに異なるタイムステップサンプリング間隔を設定します。この方法により、収束が加速され、モデルがビデオシーケンス全体で効果的に学習できるようになります。

3. ComfyUI CogVideoX-5Bワークフローの使用方法

ステップ1:CogVideoX-5Bモデルをロード

まず、CogVideoX-5BモデルをComfyUIワークフローにロードします。CogVideoX-5BモデルはRunComfyのプラットフォームにプリロードされています。

ステップ2:テキストプロンプトを入力

指定されたノードに希望するテキストプロンプトを入力して、CogVideoX-5Bのビデオ生成プロセスをガイドします。CogVideoX-5Bは、テキストプロンプトを解釈し、動的なビデオコンテンツに変換することに優れています。

4. ライセンス契約

CogVideoXモデルのコードは、の下で公開されています。

CogVideoX-2Bモデル(対応するTransformersモジュールおよびVAEモジュールを含む)は、の下で公開されています。

CogVideoX-5Bモデル(Transformersモジュール)は、の下で公開されています。

より多くのComfyUIワークフローが必要ですか?

RunComfy

© 著作権 2024 RunComfy. All Rights Reserved.

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。