ComfyUI  >  Arbejdsgange  >  SVD (Stable Video Diffusion) + SD | Tekst til Video

SVD (Stable Video Diffusion) + SD | Tekst til Video

I denne ComfyUI workflow integrerer vi Stable Diffusion tekst-til-billede med Stable Video Diffusion billede-til-video processerne. Dette giver dig mulighed for at indtaste tekst for at generere et billede, som derefter kan konverteres sømløst til en video.

ComfyUI SVD Workflow

ComfyUI Stable Video Diffusion (SVD) Workflow
Vil du køre denne arbejdsgang?
  • Fuldt operationelle arbejdsgange
  • Ingen manglende noder eller modeller
  • Ingen manuelle opsætninger krævet
  • Funktioner fantastiske visuals

ComfyUI SVD Eksempler

ComfyUI SVD Beskrivelse

1. ComfyUI Stable Video Diffusion (SVD) Workflow

ComfyUI workflow integrerer sømløst tekst-til-billede (Stable Diffusion) og billede-til-video (Stable Video Diffusion) teknologier for effektiv tekst-til-video konvertering. Denne workflow giver dig mulighed for at generere videoer direkte fra tekstbeskrivelser, startende med et grundlæggende billede, der udvikler sig til en dynamisk videosekvens. Denne workflow letter realiseringen af tekst-til-video animationer eller videoer.

2. Oversigt over Stable Video Diffusion (SVD)

2.1. Introduktion til Stable Video Diffusion (SVD)

Stable Video Diffusion (SVD) er en avanceret teknologi udviklet til at konvertere statiske billeder til dynamisk videocontent. Ved at udnytte det grundlæggende Stable Diffusion billedmodel, introducerer SVD bevægelse til stillbilleder, hvilket muliggør skabelsen af korte videoklip. Denne fremskridt inden for latente diffusionsmodeller, oprindeligt udviklet til billedsyntese, inkorporerer nu tidsdimensioner for at animere stille visualer, hvilket producerer videoer typisk inden for området 2 til 5 sekunder.

Stable Video Diffusion er tilgængelig i to varianter: den standard SVD, der er i stand til at generere videoer i en opløsning på 576×1024 pixels over 14 frames, og den forbedrede SVD-XT, som kan producere op til 25 frames. Begge varianter understøtter justerbare frame rates fra 3 til 30 frames per sekund, hvilket imødekommer forskellige digitale content skabelsesbehov.

Træningen af SVD modellen involverer en tre-trins proces: startende med en billedmodel, overgangen til en videomodel fortrænet med et omfattende videodatasæt, og finjustering med et udvalg af høj-kvalitets videoklip. Denne omhyggelige proces fremhæver betydningen af datasætkvalitet i optimeringen af modellens videoproduktionskapaciteter.

Kernen i Stable Video Diffusion modellen er Stable Diffusion 2.1 billedmodellen, som fungerer som det grundlæggende billedfundament. Integration af tidsmæssig konvolution og opmærksomhedslag i U-Net støj estimator udvikler dette til en kraftfuld videomodel, der fortolker latente tensorer som videosekvenser. Denne model anvender omvendt diffusion for at denoise alle frames samtidigt, ligesom VideoLDM modellen.

Udstyret med 1,5 milliarder parametre og trænet på et stort videodatasæt, gennemgår modellen yderligere finjustering med et høj-kvalitets videodatasæt for optimal ydeevne. To sæt af SVD modelvægte er offentligt tilgængelige, designet til at generere 14-frame og 25-frame videoer ved 576×1024 opløsning, henholdsvis.

2.2. Nøglefunktioner i Stable Video Diffusion (SVD)

Ved brug af Stable Video Diffusion i ComfyUI workflow, kan du justere nøgleparametre for videoudgangstilpasning, inklusiv motion bucket id, der styrer videoens bevægelsesintensitet; frames per second (fps), der bestemmer frame rate; og augmentation level, der justerer det oprindelige billedes støjniveau for forskellige transformationsgrader.

2.2.1. Motion Bucket ID: Denne funktion giver brugerne mulighed for at kontrollere videoens bevægelsesintensitet. Ved at justere denne parameter kan du bestemme mængden af bevægelse observeret i videoen, fra subtile gestusser til mere udtalt handling, afhængigt af den ønskede visuelle effekt.

2.2.2. Frames Per Second (fps): Denne parameter er afgørende for at bestemme videoens afspilningshastighed. Justering af frames per second giver dig mulighed for at producere videoer, der enten kan fange scenens hurtige dynamik eller præsentere en slow-motion effekt, hvilket derved forbedrer fortællingsaspektet af videocontent. Denne fleksibilitet er særligt gavnlig for at skabe en bred vifte af videotyper, fra hurtige reklamer til mere eftertænksomme, fortællingsdrevne stykker.

2.2.3. Augmentation Level Parameter: Dette justerer det oprindelige billedes støjniveau og muliggør forskellige grader af transformation. Ved at manipulere denne parameter kan du kontrollere, i hvilket omfang det oprindelige billede ændres under videofremstillingsprocessen. Justering af augmentationsniveauet giver mulighed for at opretholde tættere troskab til det oprindelige billede eller bevæge sig ind i mere abstrakte og kunstneriske fortolkninger, hvilket udvider de kreative muligheder.

Vil du have flere ComfyUI-arbejdsgange?

RunComfy

© Ophavsret 2024 RunComfy. Alle rettigheder forbeholdes.

RunComfy er den førende ComfyUI platform, der tilbyder ComfyUI online miljø og tjenester, sammen med ComfyUI-arbejdsgange med fantastiske visuals.