ComfyUI > Workflows > SVD (Stable Video Diffusion) + SD | Texte vers Vidéo

SVD (Stable Video Diffusion) + SD | Texte vers Vidéo

Dans ce workflow ComfyUI, nous intégrons les processus Stable Diffusion de texte à image et Stable Video Diffusion d'image à vidéo. Cela vous permet de saisir du texte pour générer une image, qui peut ensuite être convertie de manière transparente en vidéo.

Flux de travail ComfyUI SVD

ComfyUI Stable Video Diffusion (SVD) Workflow

Vous voulez exécuter ce workflow ?

Workflows entièrement opérationnels
Aucun nœud ou modèle manquant
Aucune configuration manuelle requise
Propose des visuels époustouflants

Exemples ComfyUI SVD

Description ComfyUI SVD

1. Workflow ComfyUI Stable Video Diffusion (SVD)

Le workflow ComfyUI intègre de manière transparente les technologies de texte à image (Stable Diffusion) et d'image à vidéo (Stable Video Diffusion) pour une conversion efficace du texte à la vidéo. Ce workflow vous permet de générer des vidéos directement à partir de descriptions textuelles, en commençant par une image de base qui évolue en une séquence vidéo dynamique. Ce workflow facilite la réalisation d'animations ou de vidéos de texte à vidéo.

2. Aperçu de Stable Video Diffusion (SVD)

2.1. Introduction à Stable Video Diffusion (SVD)

Stable Video Diffusion (SVD) est une technologie de pointe développée pour convertir des images statiques en contenu vidéo dynamique. S'appuyant sur le modèle d'image Stable Diffusion, SVD introduit du mouvement aux images fixes, facilitant la création de brefs clips vidéo. Cette avancée dans les modèles de diffusion latente, initialement conçus pour la synthèse d'images, intègre désormais des dimensions temporelles pour animer des visuels fixes, produisant des vidéos généralement dans la plage de 2 à 5 secondes.

Stable Video Diffusion est disponible en deux variantes : le SVD standard, capable de générer des vidéos à une résolution de 576×1024 pixels sur 14 images, et le SVD-XT amélioré, qui peut produire jusqu'à 25 images. Les deux variantes prennent en charge des fréquences d'images ajustables de 3 à 30 images par seconde, répondant à diverses exigences de création de contenu numérique.

L'entraînement du modèle SVD implique un processus en trois étapes : commençant par un modèle d'image, passant à un modèle vidéo pré-entraîné avec un vaste ensemble de données vidéo, et affiné avec une sélection de clips vidéo de haute qualité. Ce processus méticuleux met en évidence l'importance de la qualité de l'ensemble de données dans l'optimisation des capacités de production vidéo du modèle.

Au cœur du modèle Stable Video Diffusion se trouve le modèle d'image Stable Diffusion 2.1, qui agit comme l'épine dorsale de l'image de base. L'intégration de couches de convolution et d'attention temporelles dans l'estimateur de bruit U-Net fait évoluer ceci en un puissant modèle vidéo, interprétant les tenseurs latents comme des séquences vidéo. Ce modèle utilise une diffusion inverse pour débruiter simultanément toutes les images, à l'instar du modèle VideoLDM.

Doté de 1,5 milliard de paramètres et entraîné sur un vaste ensemble de données vidéo, le modèle subit un affinement supplémentaire avec un ensemble de données vidéo de haute qualité pour des performances optimales. Deux ensembles de poids de modèle SVD sont accessibles au public, conçus pour générer des vidéos de 14 et 25 images à une résolution de 576×1024, respectivement.

2.2. Caractéristiques clés de Stable Video Diffusion (SVD)

Lors de l'utilisation de Stable Video Diffusion dans le workflow ComfyUI, vous pouvez ajuster les paramètres clés pour la personnalisation de la sortie vidéo, notamment l'bucket id de mouvement, contrôlant l'intensité du mouvement de la vidéo ; les images par seconde (fps), déterminant la fréquence d'images ; et le niveau d'augmentation, ajustant le niveau de bruit de l'image initiale pour divers degrés de transformation.

2.2.1. Bucket ID de Mouvement : Cette fonctionnalité offre aux utilisateurs la possibilité de contrôler l'intensité du mouvement de la vidéo. En ajustant ce paramètre, vous pouvez dicter la quantité de mouvement observée dans la vidéo, allant de gestes subtils à une action plus prononcée, en fonction de l'effet visuel souhaité.

2.2.2. Images Par Seconde (fps) : Ce paramètre est crucial pour déterminer la vitesse de lecture de la vidéo. L'ajustement des images par seconde vous permet de produire des vidéos qui peuvent capturer la dynamique rapide d'une scène ou présenter un effet de ralenti, améliorant ainsi l'aspect narratif du contenu vidéo. Cette flexibilité est particulièrement bénéfique pour créer un large éventail de types de vidéos, des publicités au rythme effréné aux pièces plus contemplatives et narratives.

2.2.3. Paramètre de Niveau d'Augmentation : Cela ajuste le niveau de bruit de l'image initiale, permettant divers degrés de transformation. En manipulant ce paramètre, vous pouvez contrôler la mesure dans laquelle l'image d'origine est modifiée pendant le processus de création de la vidéo. L'ajustement du niveau d'augmentation permet de maintenir une fidélité plus étroite à l'image d'origine ou de s'aventurer dans des interprétations plus abstraites et artistiques, élargissant ainsi les possibilités créatives.

Vous voulez plus de workflows ComfyUI ?

SVD + FreeU | Image vers Vidéo

Incorporez FreeU avec SVD pour améliorer la qualité de conversion d'image en vidéo sans coûts supplémentaires.

SVD + IPAdapter V1 | Image vers Vidéo

Utilisez IPAdapters pour la génération d'images statiques et Stable Video Diffusion pour la génération dynamique de vidéos.

LivePortrait | Animer des portraits | Vid2Vid

Transférez les expressions faciales et les mouvements d'une vidéo pilote sur une vidéo source

Stable Diffusion 3 (SD3) | Texte en Image

Intégrez Stable Diffusion 3 medium dans votre flux de travail pour produire une art IA exceptionnelle.

FLUX ControlNet Depth-V3 & Canny-V3

Obtenez un meilleur contrôle avec FLUX-ControlNet-Depth & FLUX-ControlNet-Canny pour FLUX.1 [dev].

Software Soap Créatif

Combinez IPAdapter et ControlNet pour une application de texture efficace et des visuels améliorés.

Epic CineFX | Flux de travail CogVideoX, ControlNet et Live Portrait

Transformez des séquences simples en scènes de film épiques avec CogVideoX, ControlNet et Live Portrait.

Mochi 1 | Genmo Texte-à-Vidéo

Démo de texte à vidéo utilisant le modèle Genmo Mochi 1