ComfyUI > Workflow > SVD (Stable Video Diffusion) + SD | Da testo a video

SVD (Stable Video Diffusion) + SD | Da testo a video

In questo workflow ComfyUI, integriamo i processi Stable Diffusion da testo a immagine con i processi Stable Video Diffusion da immagine a video. Ciò ti consente di inserire il testo per generare un'immagine, che può quindi essere facilmente convertita in un video.

ComfyUI SVD Flusso di lavoro

ComfyUI Stable Video Diffusion (SVD) Workflow

Vuoi eseguire questo workflow?

Workflow completamente operativi
Nessun nodo o modello mancante
Nessuna configurazione manuale richiesta
Presenta visuali mozzafiato

ComfyUI SVD Esempi

ComfyUI SVD Descrizione

1. Workflow ComfyUI Stable Video Diffusion (SVD)

Il workflow ComfyUI integra perfettamente le tecnologie da testo a immagine (Stable Diffusion) e da immagine a video (Stable Video Diffusion) per un'efficiente conversione da testo a video. Questo workflow consente di generare video direttamente da descrizioni testuali, partendo da un'immagine di base che si evolve in una sequenza video dinamica. Questo workflow facilita la realizzazione di animazioni o video da testo a video.

2. Panoramica di Stable Video Diffusion (SVD)

2.1. Introduzione a Stable Video Diffusion (SVD)

Stable Video Diffusion (SVD) è una tecnologia all'avanguardia sviluppata per convertire immagini statiche in contenuti video dinamici. Sfruttando il modello di immagini fondamentale Stable Diffusion, SVD introduce il movimento nelle immagini fisse, facilitando la creazione di brevi clip video. Questo progresso nei modelli di diffusione latente, inizialmente concepiti per la sintesi delle immagini, ora incorpora dimensioni temporali per animare elementi visivi statici, producendo video tipicamente nell'intervallo da 2 a 5 secondi.

Stable Video Diffusion è disponibile in due varianti: la SVD standard, in grado di generare video a una risoluzione di 576×1024 pixel su 14 frame, e la SVD-XT avanzata, che può produrre fino a 25 frame. Entrambe le varianti supportano frame rate regolabili da 3 a 30 frame al secondo, soddisfacendo diverse esigenze di creazione di contenuti digitali.

L'addestramento del modello SVD prevede un processo in tre fasi: partendo da un modello di immagine, passando a un modello video pre-addestrato con un ampio set di dati video e perfezionandosi con una selezione di clip video di alta qualità. Questo meticoloso processo evidenzia l'importanza della qualità del set di dati nell'ottimizzazione delle capacità di produzione video del modello.

Al centro del modello Stable Video Diffusion c'è il modello di immagine Stable Diffusion 2.1, che funge da fondamentale backbone di immagine. L'integrazione di convoluzione temporale e livelli di attenzione nell'estimatore di rumore U-Net lo trasforma in un potente modello video, interpretando i tensori latenti come sequenze video. Questo modello impiega la diffusione inversa per rimuovere contemporaneamente il rumore da tutti i frame, analogamente al modello VideoLDM.

Dotato di 1,5 miliardi di parametri e addestrato su un vasto set di dati video, il modello subisce un ulteriore perfezionamento con un set di dati video di alta qualità per prestazioni ottimali. Due set di pesi del modello SVD sono accessibili al pubblico, progettati per generare rispettivamente video di 14 e 25 frame a una risoluzione di 576×1024.

2.2. Caratteristiche principali di Stable Video Diffusion (SVD)

Quando si utilizza Stable Video Diffusion nel workflow ComfyUI, è possibile regolare i parametri chiave per la personalizzazione dell'output video includono l'ID del bucket di movimento, che controlla l'intensità del movimento del video; frame al secondo (fps), che determina la frequenza dei fotogrammi; e il livello di aumento, che regola il livello di rumore dell'immagine iniziale per vari gradi di trasformazione.

2.2.1. ID Bucket di Movimento: Questa funzione offre agli utenti la possibilità di controllare l'intensità del movimento del video. Modificando questo parametro, è possibile dettare la quantità di movimento osservata nel video, da gesti sottili a azioni più pronunciate, a seconda dell'effetto visivo desiderato.

2.2.2. Fotogrammi al secondo (fps): Questo parametro è fondamentale per determinare la velocità di riproduzione del video. La regolazione dei fotogrammi al secondo consente di produrre video che possono catturare la rapida dinamica di una scena o presentare un effetto al rallentatore, migliorando così l'aspetto narrativo del contenuto video. Questa flessibilità è particolarmente vantaggiosa per la creazione di un'ampia gamma di tipi di video, dalle pubblicità veloci a pezzi più contemplativi guidati dalla narrazione.

2.2.3. Parametro di livello di aumento: Questo regola il livello di rumore dell'immagine iniziale, consentendo vari gradi di trasformazione. Manipolando questo parametro, è possibile controllare il grado in cui l'immagine originale viene alterata durante il processo di creazione del video. La regolazione del livello di aumento consente di mantenere una maggiore fedeltà all'immagine originale o di avventurarsi in interpretazioni più astratte e artistiche, ampliando così le possibilità creative.

Vuoi Altri Workflow di ComfyUI?

SVD + FreeU | Da immagine a video

Incorpora FreeU con SVD per migliorare la qualità della conversione da immagine a video senza costi aggiuntivi.

SVD + IPAdapter V1 | Da immagine a video

Utilizza IPAdapter per la generazione di immagini statiche e Stable Video Diffusion per la generazione dinamica di video.

Stile Pergamena con Unsampling

Converti il tuo video in animazioni in stile pergamena usando il metodo Unsampling.

Vid2Vid Parte 2 | SDXL Style Transfer

Migliora la creatività Vid2Vid concentrandoti sulla composizione e la mascheratura del tuo video originale.

MMAudio | Da Video a Audio

MMAudio: Modello avanzato da video a audio per la generazione di audio di alta qualità.

Flux Redux | Variazione e Restyling

Flux Tools ufficiale - Flux Redux per Variazione e Restyling Immagine

FLUX Controlnet Inpainting

Migliora il realismo utilizzando ControlNet per guidare FLUX.1-dev.

AnimateDiff + ControlNet TimeStep KeyFrame | Animazione morfologica

Imposta i fotogrammi chiave di ControlNet Timestep, come il primo e l'ultimo fotogramma, per creare animazioni di trasformazione.