ComfyUI  >  Przepływy pracy  >  CogVideoX-5B | Zaawansowany model tekstu na wideo

CogVideoX-5B | Zaawansowany model tekstu na wideo

CogVideoX-5B, opracowany przez Zhipu AI, to nowoczesny model tekstu na wideo, który generuje wysokiej jakości filmy z podpowiedzi tekstowych. Wykorzystując architekturę 3D Causal VAE i Expert Transformer, model ten zapewnia czasowo spójne i płynne sekwencje wideo, co czyni go idealnym do generowania złożonych ruchów i szczegółowej semantyki.

ComfyUI CogVideoX-5B Przepływ pracy

ComfyUI CogVideoX-5B
Chcesz uruchomić ten przepływ pracy?
  • W pełni funkcjonalne przepływy pracy
  • Brak brakujących węzłów lub modeli
  • Brak wymaganego ręcznego ustawiania
  • Cechuje się oszałamiającymi wizualizacjami

ComfyUI CogVideoX-5B Przykłady

ComfyUI CogVideoX-5B Opis

1. O CogVideoX-5B

CogVideoX-5B to nowoczesny model dyfuzji tekstu na wideo opracowany przez Zhipu AI na Uniwersytecie Tsinghua. Jako część serii CogVideoX, model ten tworzy filmy bezpośrednio z podpowiedzi tekstowych, używając zaawansowanych technik AI, takich jak 3D Variational Autoencoder (VAE) i Expert Transformer. CogVideoX-5B generuje wysokiej jakości, czasowo spójne wyniki, które uchwytują złożone ruchy i szczegółową semantykę.

Dzięki CogVideoX-5B osiągasz wyjątkową klarowność i płynność. Model zapewnia bezszwowy przepływ, uchwytując złożone detale i dynamiczne elementy z niezwykłą dokładnością. Wykorzystanie CogVideoX-5B redukuje niespójności i artefakty, prowadząc do dopracowanej i angażującej prezentacji. Wysokiej jakości wyjścia CogVideoX-5B ułatwiają tworzenie bogato szczegółowych i spójnych scen z podpowiedzi tekstowych, co czyni go niezbędnym narzędziem do osiągania najwyższej jakości i wizualnego wpływu.

2. Technika CogVideoX-5B

2.1 3D Causal Variational Autoencoder (VAE) w CogVideoX-5B

3D Causal VAE jest kluczowym komponentem CogVideoX-5B, umożliwiającym efektywne generowanie wideo poprzez kompresję danych wideo zarówno przestrzennie, jak i czasowo. W przeciwieństwie do tradycyjnych modeli, które używają 2D VAE do przetwarzania każdej klatki indywidualnie—często powodując migotanie między klatkami—CogVideoX-5B używa 3D konwolucji do uchwycenia zarówno informacji przestrzennych, jak i czasowych jednocześnie. Podejście to zapewnia płynne i spójne przejścia między klatkami.

Architektura 3D Causal VAE obejmuje enkoder, dekoder i regulator przestrzeni latentnej. Enkoder kompresuje dane wideo do reprezentacji latentnej, którą dekoder następnie używa do rekonstrukcji wideo. Regulator Kullback-Leibler (KL) ogranicza przestrzeń latentną, zapewniając, że zakodowane wideo pozostaje w granicach rozkładu Gaussa. To pomaga utrzymać wysoką jakość wideo podczas rekonstrukcji.

Kluczowe cechy 3D Causal VAE

  • Kompresja przestrzenna i czasowa: VAE kompresuje dane wideo o czynnik 4x w wymiarze czasowym i 8x8 w wymiarach przestrzennych, osiągając całkowity współczynnik kompresji 4x8x8. To zmniejsza wymagania obliczeniowe, umożliwiając modelowi przetwarzanie dłuższych filmów z mniejszymi zasobami.
  • Konwolucje przyczynowe: Aby zachować kolejność klatek w filmie, model używa konwolucji czasowo przyczynowych. Zapewnia to, że przyszłe klatki nie wpływają na przewidywanie obecnych lub przeszłych klatek, utrzymując integralność sekwencji podczas generowania.
  • Równoległość kontekstowa: Aby zarządzać dużym obciążeniem obliczeniowym przetwarzania długich filmów, model używa równoległości kontekstowej w wymiarze czasowym, rozdzielając obciążenie na wiele urządzeń. Optymalizuje to proces treningowy i zmniejsza zużycie pamięci.

2.2 Architektura Expert Transformer w CogVideoX-5B

Architektura Expert Transformer w CogVideoX-5B jest zaprojektowana do skutecznego zarządzania złożoną interakcją między danymi tekstowymi a wideo. Używa adaptacyjnej techniki LayerNorm do przetwarzania odrębnych przestrzeni cech tekstu i wideo.

Kluczowe cechy Expert Transformer

  • Patchification: Po zakodowaniu danych wideo przez 3D Causal VAE, są one dzielone na mniejsze fragmenty wzdłuż wymiarów przestrzennych. Proces ten, zwany patchification, przekształca wideo w sekwencję mniejszych segmentów, co ułatwia transformatorowi przetwarzanie i alignowanie z odpowiadającymi danymi tekstowymi.
  • 3D Rotary Positional Embedding (RoPE): Aby uchwycić związki przestrzenne i czasowe w wideo, CogVideoX-5B rozszerza tradycyjne 2D RoPE do 3D. Technika ta zastosowuje kodowanie pozycyjne do wymiarów x, y i t wideo, pomagając transformatorowi efektywnie modelować długie sekwencje wideo i utrzymywać spójność między klatkami.
  • Expert Adaptive LayerNorm (AdaLN): Transformator używa expert adaptive LayerNorm do przetwarzania odrębnych przestrzeni cech tekstu i wideo. Pozwala to modelowi alignować różne przestrzenie cech tekstu i wideo, umożliwiając płynne połączenie tych dwóch modalności.

2.3 Techniki progresywnego treningu w CogVideoX-5B

CogVideoX-5B używa kilku technik progresywnego treningu, aby poprawić jego wydajność i stabilność podczas generowania wideo.

Kluczowe strategie progresywnego treningu

  • Trening z mieszanym czasem trwania: Model jest trenowany na filmach o różnej długości w ramach tej samej partii. Technika ta zwiększa zdolność modelu do generalizacji, umożliwiając mu generowanie filmów o różnym czasie trwania przy zachowaniu spójnej jakości.
  • Progresywny trening rozdzielczości: Model jest najpierw trenowany na filmach o niższej rozdzielczości, a następnie stopniowo dopracowywany na filmach o wyższej rozdzielczości. Podejście to pozwala modelowi nauczyć się podstawowej struktury i treści filmów, zanim dopracuje swoje zrozumienie przy wyższych rozdzielczościach.
  • Jawne jednolite próbkowanie: Aby ustabilizować proces treningu, CogVideoX-5B używa jawnego jednolitego próbkowania, ustawiając różne interwały próbkowania kroków czasowych dla każdego rzędu równoległego danych. Metoda ta przyspiesza konwergencję i zapewnia, że model skutecznie uczy się na całej sekwencji wideo.

3. Jak używać workflow CogVideoX-5B w ComfyUI

Krok 1: Załaduj model CogVideoX-5B

Rozpocznij od załadowania modelu CogVideoX-5B do workflow ComfyUI. Modele CogVideoX-5B zostały wstępnie załadowane na platformie RunComfy.

Krok 2: Wprowadź swoją tekstową podpowiedź

Wprowadź swoją pożądaną podpowiedź tekstową w wyznaczonym węźle, aby poprowadzić proces generowania wideo przez CogVideoX-5B. CogVideoX-5B doskonale interpretuje i przekształca podpowiedzi tekstowe w dynamiczne treści wideo.

4. Umowa licencyjna

Kod modeli CogVideoX jest udostępniony na licencji .

Model CogVideoX-2B (w tym odpowiadający mu moduł Transformers i moduł VAE) jest udostępniony na licencji .

Model CogVideoX-5B (moduł Transformers) jest udostępniony na licencji .

Chcesz więcej przepływów pracy ComfyUI?

RunComfy

© Prawa autorskie 2024 RunComfy. Wszelkie prawa zastrzeżone.

RunComfy jest wiodącą ComfyUI platformą, oferującą ComfyUI online środowisko i usługi, wraz z przepływami pracy ComfyUI cechującymi się oszałamiającymi wizualizacjami.