ComfyUI  >  Workflows  >  AnimateDiff + ControlNet + AutoMask | Style BD

AnimateDiff + ControlNet + AutoMask | Style BD

Dans ce workflow ComfyUI, nous utilisons des nœuds personnalisés tels que Animatediff, ControlNet (avec Depth et OpenPose), et Auto Mask pour restyliser en toute transparence des vidéos. Ce processus transforme les personnages réalistes en anime tout en préservant méticuleusement les arrière-plans d'origine.

Workflow ComfyUI Vid2Vid

ComfyUI AnimateDiff, ControlNet and Auto Mask Workflow
Vous voulez exécuter ce workflow ?
  • Workflows entièrement opérationnels
  • Aucun nœud ou modèle manquant
  • Aucune configuration manuelle requise
  • Propose des visuels époustouflants

Exemples ComfyUI Vid2Vid

Description ComfyUI Vid2Vid

1. Workflow ComfyUI AnimateDiff, ControlNet et Auto Mask

Ce workflow ComfyUI introduit une approche puissante pour le restyling vidéo, visant spécifiquement à transformer les personnages dans un style anime tout en préservant les arrière-plans d'origine. Cette transformation est soutenue par plusieurs composants clés, notamment AnimateDiff, ControlNet, et Auto Mask.

AnimateDiff est conçu pour les techniques d'animation différentielle, permettant le maintien d'un contexte cohérent dans les animations. Ce composant se concentre sur le lissage des transitions et l'amélioration de la fluidité du mouvement dans le contenu vidéo restylisé.

ControlNet joue un rôle essentiel dans la reproduction et la manipulation précises des poses humaines. Il exploite une estimation avancée des poses pour capturer et contrôler avec précision les nuances des mouvements humains, facilitant la transformation des personnages en formes d'anime tout en préservant leurs poses d'origine.

Auto Mask est impliqué dans la segmentation automatique, habile à isoler les personnages de leurs arrière-plans. Cette technologie permet une restylisation sélective des éléments vidéo, garantissant que les transformations des personnages sont exécutées sans altérer l'environnement environnant, maintenant l'intégrité des arrière-plans d'origine.

Ce workflow ComfyUI réalise la conversion de contenu vidéo standard en animations stylisées, en se concentrant sur l'efficacité et la qualité de la génération de personnages de style anime.

2. Aperçu d'AnimateDiff

2.1. Introduction à AnimateDiff

AnimateDiff émerge comme un outil d'IA conçu pour animer des images statiques et des prompts de texte en vidéos dynamiques, en s'appuyant sur des modèles Stable Diffusion et un module de mouvement spécialisé. Cette technologie automatise le processus d'animation en prédisant des transitions transparentes entre les images, la rendant accessible aux utilisateurs sans compétences en codage ou ressources informatiques via une plateforme en ligne gratuite.

2.2. Principales caractéristiques d'AnimateDiff

2.2.1. Prise en charge complète des modèles: AnimateDiff est compatible avec diverses versions, notamment AnimateDiff v1, v2, v3 pour Stable Diffusion V1.5, et AnimateDiff sdxl pour Stable Diffusion SDXL. Il permet l'utilisation simultanée de plusieurs modèles de mouvement, facilitant la création d'animations complexes et superposées.

2.2.2. La taille du lot de contexte détermine la longueur de l'animation: AnimateDiff permet de créer des animations de longueur infinie en ajustant la taille du lot de contexte. Cette fonctionnalité permet aux utilisateurs de personnaliser la longueur et la transition des animations en fonction de leurs besoins spécifiques, offrant un processus d'animation hautement adaptable.

2.2.3. Longueur de contexte pour des transitions fluides: L'objectif de la longueur de contexte uniforme dans AnimateDiff est d'assurer des transitions transparentes entre différents segments d'une animation. En ajustant la longueur de contexte uniforme, les utilisateurs peuvent contrôler la dynamique de transition entre les scènes—des longueurs plus longues pour des transitions plus fluides et transparentes, et des longueurs plus courtes pour des changements plus rapides et plus prononcés.

2.2.4. Dynamique de mouvement: Dans AnimateDiff v2, des LoRA de mouvement spécialisés sont disponibles pour ajouter des mouvements de caméra cinématiques aux animations. Cette fonctionnalité introduit une couche dynamique aux animations, améliorant considérablement leur attrait visuel.

2.2.5. Fonctionnalités de support avancées: AnimateDiff est conçu pour fonctionner avec une variété d'outils, notamment ControlNet, SparseCtrl et IPAdapter, offrant des avantages significatifs aux utilisateurs visant à élargir les possibilités créatives de leurs projets.

3. Aperçu de ControlNet

3.1. Introduction à ControlNet

ControlNet introduit un cadre pour augmenter les modèles de diffusion d'images avec des entrées conditionnelles, dans le but d'affiner et de guider le processus de synthèse d'images. Il y parvient en dupliquant les blocs de réseaux neuronaux dans un modèle de diffusion donné en deux ensembles: l'un reste "verrouillé" pour préserver la fonctionnalité d'origine, et l'autre devient "entraînable", s'adaptant aux conditions spécifiques fournies. Cette structure duale permet aux développeurs d'incorporer une variété d'entrées conditionnelles en utilisant des modèles tels que OpenPose, Tile, IP-Adapter, Canny, Depth, LineArt, MLSD, Normal Map, Scribbles, Segmentation, Shuffle et T2I Adapter, influençant ainsi directement la sortie générée. Grâce à ce mécanisme, ControlNet offre aux développeurs un outil puissant pour contrôler et manipuler le processus de génération d'images, améliorant la flexibilité du modèle de diffusion et son applicabilité à diverses tâches créatives.

Préprocesseurs et intégration de modèles

3.1.1. Configuration du prétraitement: L'initiation à ControlNet implique la sélection d'un préprocesseur approprié. L'activation de l'option d'aperçu est conseillée pour une compréhension visuelle de l'impact du prétraitement. Après le prétraitement, le workflow passe à l'utilisation de l'image prétraitée pour les étapes de traitement ultérieures.

3.1.2. Correspondance des modèles: Simplifiant le processus de sélection des modèles, ControlNet assure la compatibilité en alignant les modèles avec leurs préprocesseurs correspondants sur la base de mots-clés partagés, facilitant un processus d'intégration transparent.

3.2. Principales caractéristiques de ControlNet

Exploration approfondie des modèles ControlNet

3.2.1. Suite OpenPose: Conçue pour une détection précise des poses humaines, la suite OpenPose comprend des modèles pour détecter les poses corporelles, les expressions faciales et les mouvements des mains avec une précision exceptionnelle. Divers préprocesseurs OpenPose sont adaptés à des exigences de détection spécifiques, allant de l'analyse de pose de base à la capture détaillée des nuances faciales et manuelles.

3.2.2. Modèle Tile Resample: Améliorant la résolution et les détails de l'image, le modèle Tile Resample est utilisé de manière optimale avec un outil de mise à l'échelle, visant à enrichir la qualité de l'image sans compromettre l'intégrité visuelle.

3.2.3. Modèle IP-Adapter: Facilitant l'utilisation innovante des images comme invites, l'IP-Adapter intègre des éléments visuels des images de référence dans les sorties générées, fusionnant les capacités de diffusion du texte à l'image pour un contenu visuel enrichi.

3.2.4. Détecteur de bords Canny: Révéré pour ses capacités de détection de bords, le modèle Canny met l'accent sur l'essence structurelle des images, permettant des réinterprétations visuelles créatives tout en maintenant les compositions de base.

3.2.5. Modèles de perception de la profondeur: Grâce à une variété de préprocesseurs de profondeur, ControlNet est habile à dériver et à appliquer des signaux de profondeur à partir d'images, offrant une perspective de profondeur en couches dans les visuels générés.

3.2.6. Modèles LineArt: Convertissez des images en dessins au trait artistiques avec les préprocesseurs LineArt, répondant à diverses préférences artistiques, de l'anime aux croquis réalistes, ControlNet s'adapte à un large éventail de désirs stylistiques.

3.2.7. Traitement des gribouillages: Avec des préprocesseurs comme Scribble HED, Pidinet et xDoG, ControlNet transforme les images en art gribouillé unique, offrant des styles variés pour la détection des bords et la réinterprétation artistique.

3.2.8. Techniques de segmentation: Les capacités de segmentation de ControlNet classifient avec précision les éléments d'image, permettant une manipulation précise basée sur la catégorisation des objets, idéale pour les constructions de scènes complexes.

3.2.9. Modèle Shuffle: Introduisant une méthode d'innovation des schémas de couleurs, le modèle Shuffle randomise les images d'entrée pour générer de nouveaux motifs de couleurs, modifiant de manière créative l'original tout en conservant son essence.

3.2.10. Innovations T2I Adapter: Les modèles T2I Adapter, notamment Color Grid et CLIP Vision Style, propulsent ControlNet dans de nouveaux domaines créatifs, mélangeant et adaptant les couleurs et les styles pour produire des sorties visuellement convaincantes qui respectent le schéma de couleurs ou les attributs stylistiques de l'original.

3.2.11. MLSD (Mobile Line Segment Detection): Spécialisé dans la détection de lignes droites, MLSD est inestimable pour les projets axés sur l'architecture et le design d'intérieur, donnant la priorité à la clarté et à la précision structurelles.

3.2.12. Traitement Normal Map: Utilisant les données d'orientation des surfaces, les préprocesseurs Normal Map reproduisent la structure 3D des images de référence, améliorant le réalisme du contenu généré grâce à une analyse détaillée des surfaces.

Plus de tutoriels ComfyUI

Vous voulez plus de workflows ComfyUI ?

RunComfy

© Droits d'auteur 2024 RunComfy. Tous droits réservés.

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants.