ComfyUI > Flujos de trabajo > Transformación de Video de Baile | Personalización de Escenas e Intercambio de Rostros

Transformación de Video de Baile | Personalización de Escenas e Intercambio de Rostros

Este flujo de trabajo de Transformación de Video de Baile combina el modelo SD1.5, AnimateDiff, ControlNet y ReActor para el intercambio de rostros, ofreciendo transformaciones coreográficas de alta calidad. Preserva el movimiento del bailarín utilizando la guía triple de ControlNet (Edge, Depth y OpenPose), mientras que ReActor y CodeFormer aseguran un intercambio de rostros preciso con una fidelidad mejorada. El flujo de trabajo admite el control dinámico de escenas a través de la programación de avisos por lotes, permitiendo la personalización específica de fotogramas. Con las opciones de contexto de AnimateDiff y el escalado de movimiento adaptativo, asegura una preservación del movimiento suave y natural durante toda la transformación.

Agradecimientos especiales a JunkBoxAI por desarrollar cuidadosamente este flujo de trabajo. Para más visuales impresionantes, asegúrate de visitar su Instagram.

ComfyUI Dance Video Transform Flujo de trabajo

Dance Video Transform | Scene Customization & Face Swap

¿Quiere ejecutar este flujo de trabajo?

Flujos de trabajo completamente operativos
Sin nodos ni modelos faltantes
No se requiere configuración manual
Presenta visuales impresionantes

ComfyUI Dance Video Transform Ejemplos

ComfyUI Dance Video Transform Descripción

Qué Hace el Flujo de Trabajo de Transformación de Video de Baile ComfyUI

El Flujo de Trabajo de Transformación de Video de Baile ComfyUI transforma videos de baile en nuevas escenas impresionantes con intercambio de rostros profesional mientras preserva la coreografía original y asegura una salida de alta calidad. El proceso ocurre en etapas, desde el análisis del movimiento hasta el reemplazo de rostros, permitiendo verificaciones de calidad en cada paso.

Cómo Funciona el Flujo de Trabajo de Transformación de Video de Baile ComfyUI

El flujo de trabajo transforma tu video de baile automatizando estas complejas transformaciones a través de varias etapas, requiriendo solo tu video, una imagen de rostro y la descripción de la escena: Análisis de Movimiento → Transferencia de Estilo → Reemplazo de Rostro

Analiza los movimientos de baile y la información espacial
Transforma la escena según tu descripción
Integra un nuevo rostro manteniendo las expresiones

Características Clave del Flujo de Trabajo de Transformación de Video de Baile ComfyUI

Optimizado para formato vertical (relación de aspecto 9:16)
Sistema Triple ControlNet para transformaciones estables
Intercambio de rostros profesional con mezcla natural
Modo de prueba rápida (procesa 50 fotogramas en minutos)
Soporte para salida de alta resolución (hasta 896px de altura)
Preservación avanzada del movimiento usando AnimateDiff
Sistema de salida dual para verificación de calidad

Guía de Inicio Rápido

Paso 1: Configuración Inicial

En los nodos respectivos:

Cargar Video (Subir):
- Sube un video de baile de 10-15 segundos con una relación de aspecto de 9:16
- Si tu video no está en 9:16, necesitarás ajustar los parámetros de Ancho y Altura para que coincidan con tu video.
- Límite de Carga de Fotogramas: 50 (renderiza solo los primeros 50 fotogramas para una prueba rápida)
Cargar Imagen:
- Sube una foto de rostro clara y de frente
Programación de Avisos por Lotes:
- Describe brevemente la escena y cualquier otro aspecto que desees transformar
"0": "[persona] en camiseta de los KC Chiefs, usando vaqueros y una gorra de béisbol bailando en el vestuario"
- Establece un aviso negativo según sea necesario

Paso 2: Prueba Rápida

Haz clic en "Queue Prompt"
Esto procesa ~2 segundos de video
Verás dos salidas:
- Primera salida: Solo transformación de escena
- Segunda salida: Con intercambio de rostro aplicado

Paso 3: Procesamiento Completo del Video

Solo después de que la prueba rápida se vea bien:

Regresa al nodo "Cargar Video"
Cambia el Límite de Carga de Fotogramas a 0 para el video completo
Haz clic en "Queue Prompt" para el procesamiento completo (Esto tomará significativamente más tiempo)

Consejos del para Principiantes

Sigue las Notas: Busca cualquier nota en la interfaz; te guiarán paso a paso
No te Preocupes por Configuraciones Avanzadas: La mayoría de las veces, no necesitas ajustar nada más allá de lo mencionado aquí
Importancia de la Relación de Aspecto: Asegúrate de que la relación de aspecto sea correcta, de lo contrario, el video puede verse estirado o recortado

Referencia de Nodos Clave

Configuraciones de AnimateDiff

Los nodos aquí crean una preservación del movimiento suave durante toda la transformación del video. Las Opciones de Contexto definen cómo deben agruparse y procesarse los fotogramas, alimentando estas configuraciones al Cargador de AnimateDiff, que luego aplica la preservación real del movimiento. La longitud del contexto y las configuraciones de superposición afectan directamente cómo el Cargador de AnimateDiff mantiene la consistencia del movimiento.

Nodo de Opciones de Contexto (#94): Logra el agrupamiento de fotogramas y el control de procesamiento temporal para un movimiento consistente.
- context_length:
  - Controla cuántos fotogramas se procesan juntos
  - Mayor = más suave pero más uso de VRAM
  - Menor = más rápido pero puede perder coherencia del movimiento
- context_overlap:
  - Maneja la suavidad de la transición de fotogramas
  - Mayor = mejor mezcla pero procesamiento más lento
  - Menor = más rápido pero puede mostrar brechas de transición
- context_schedule:
  - Controla la distribución de fotogramas
  - "uniform" es mejor para el movimiento de baile
  - No cambiar a menos que sea necesario
- closed_loop:
  - Controla el comportamiento de bucle de video
  - Verdadero solo para videos que hacen bucle perfectamente
Nodo Cargador de AnimateDiff (#93): Implementa la preservación del movimiento usando el modelo AnimateDiff y aplica consistencia temporal.
- motion_scale:
  - Controla la fuerza del movimiento
  - Mayor: Movimiento exagerado
  - Menor: Movimiento atenuado
- beta_schedule: lcm >> sqrt_linear
  - Controla el comportamiento de muestreo
  - Optimizado para este flujo de trabajo
  - No modificar a menos que sea necesario

Pila de ControlNet

Los nodos aquí mantienen la integridad del video a través de un sistema de guía de tres capas. Los tres ControlNets procesan los fotogramas de entrada simultáneamente, cada uno enfocándose en diferentes aspectos. Soft Edge proporciona la estructura básica, Depth añade comprensión espacial, y OpenPose asegura la precisión del movimiento. Los resultados se combinan a través de apiladores con una fuerza total que no excede 1.4 para estabilidad.

ControlNet de Borde Suave: Extrae y preserva elementos estructurales y formas de los fotogramas originales.
- Strength:
  - Controla la preservación estructural
  - Mayor = mayor adherencia a las formas originales
  - Menor = más libertad creativa en la modificación de formas
- End percent:
  - Cuando la influencia del control se detiene
  - Mayor = influencia más larga durante el proceso
  - Menor = permite más desviación en los pasos posteriores
ControlNet de Profundidad: Procesa relaciones espaciales y mantiene consistencia 3D.
- Strength:
  - Controla la conciencia espacial
  - Mayor = mayor consistencia 3D
  - Menor = más libertad artística con el espacio
- End percent:
  - Mantiene la duración de la influencia de profundidad
  - Debe coincidir con Borde Suave para consistencia
ControlNet de OpenPose: Captura y transfiere información de pose para un movimiento preciso.
- Strength:
  - Controla la preservación de la pose
  - Mayor = seguimiento más estricto de la pose
  - Menor = interpretación más flexible de la pose
- End percent:
  - Mantiene la influencia de la pose
  - Mantiene el movimiento natural durante todo el proceso

Procesamiento de Rostros

Los nodos aquí manejan el reemplazo y mejora de rostros para resultados naturales. El proceso funciona en dos etapas: FaceRestore primero mejora la calidad del rostro original, luego ReActor realiza el intercambio usando el rostro mejorado como referencia. Este proceso de dos etapas asegura una integración natural mientras preserva las expresiones.

Sistema FaceRestore: Mejora los detalles faciales y prepara para el intercambio.
- Fidelity:
  - Controla la preservación de detalles en la restauración
  - Mayor = más detallado pero posibles artefactos
  - Menor = más suave pero puede perder detalles
- Detection:
  - Elección del modelo de detección facial
  - Confiable para la mayoría de los escenarios
  - No cambiar a menos que no se detecten rostros
Intercambio de Rostros ReActor: Realiza el reemplazo de rostros y mezcla con expresiones preservadas.
- Visibility:
  - Controla la visibilidad del intercambio
  - Mayor = efecto de intercambio de rostro más fuerte
  - Menor = mezcla más sutil
- Weight:
  - Balance de preservación de características faciales
  - Mayor = características del rostro fuente más fuertes
  - Menor = mejor mezcla con el objetivo
- Console log level:
  - Controla la información de depuración
  - Mayor = registros más detallados

Detalles Adicionales de Nodos

Entrada y Preprocesamiento

Propósito: Carga video, ajusta dimensiones y prepara el modelo VAE para el procesamiento.

Cargar Video:
- Frame Load Cap:
  - Controla el número de fotogramas a procesar
  - 50 = prueba rápida (procesa ~2 segundos)
  - 0 = procesa todo el video
  - Afecta el tiempo total de procesamiento
- Skip First Frames:
  - Define el punto de inicio en el video
  - Mayor = comienza más tarde en el video
  - Útil para saltar intros
- Select Every Nth:
  - Controla la tasa de muestreo de fotogramas
  - Números más altos saltan fotogramas
  - 1 = usa cada fotograma
  - 2 = usa cada segundo fotograma, etc.
Escala de Imagen:
- Width: 512
  - Controla el ancho del fotograma de salida
  - Debe mantener la relación 9:16 con la altura
- Height: 896
  - Controla la altura del fotograma de salida
  - Debe mantener la relación 9:16 con el ancho
- Method: nearest-exact
  - Mejor para mantener la nitidez
  - Las alternativas pueden desenfocar el contenido
  - Recomendado para videos de baile
  - No cambiar a menos que sea necesario
Cargador VAE:
- Modelo: vae-ft-mse-840000-ema-pruned
  - Optimizado para estabilidad y calidad
  - Maneja la codificación/decodificación de imágenes
  - Relación de compresión equilibrada
  - No cambiar a menos que sea necesario
- Modo VAE: No cambiar
  - Optimizado para el flujo de trabajo actual
  - Afecta la calidad de codificación

Procesamiento Latente

Propósito: Maneja todas las operaciones y transformaciones del espacio latente.

Imagen Latente Vacía:
- Width/Height: coincide con la entrada
  - Debe coincidir con las dimensiones de Escala de Imagen
  - Afecta directamente el uso de memoria
  - Tamaños más grandes necesitan más VRAM
  - No puede ser más pequeño que la entrada
- Batch Size: de los fotogramas del video
  - Establecido automáticamente a partir del conteo de fotogramas
  - Afecta la velocidad de procesamiento y la VRAM
  - Mayor = se necesita más memoria
Codificación VAE:
- Modelo VAE: del Cargador VAE
  - Usa configuraciones del Cargador VAE
  - Mantiene la consistencia
- Decodificación: habilitada
  - Controla la calidad de decodificación
  - Deshabilitar solo si la VRAM es limitada
  - Afecta la calidad de salida
Mezcla Latente:
- Factor de Mezcla:
  - Controla la mezcla de espacios latentes
  - 0 = contenido de fuente completo
  - Mayor = más influencia latente vacía
  - Afecta la fuerza de transferencia de estilo
Escalado Latente Por:
- Método: nearest-exact
  - Mejor para mantener la nitidez
  - Métodos alternativos pueden desenfocar
  - Preserva los detalles del movimiento
- Escala:
  - Controla el aumento de tamaño
  - Mayor = mejor detalle pero más VRAM
  - Menor = procesamiento más rápido
  - 1.6 óptimo para la mayoría de los casos

Muestreo y Refinamiento

Propósito: Proceso de muestreo de dos etapas para transformación de calidad.

KSampler (Primera Pasada):
- Pasos:
  - Número de pasos de eliminación de ruido
  - Mayor = mejor calidad pero más lento
  - 6 óptimo para el muestreador lcm
- CFG:
  - Controla la influencia del aviso
  - Mayor = mayor adherencia al estilo
  - Menor = más libertad
- Sampler: lcm
  - Optimizado para velocidad
  - Buen equilibrio calidad/velocidad
- Scheduler: sgm_uniform
  - Funciona mejor con lcm
  - Mantiene la consistencia temporal
- Denoise:
  - Fuerza completa para la primera pasada
  - Controla la intensidad de la transformación
KSampler (Pasada de Alta Resolución):
- Pasos:
  - Coincide con la primera pasada para consistencia
  - Mayor no es necesario para el refinamiento
- CFG:
  - Mantiene la consistencia del estilo
  - Preservación de detalles equilibrada
- Sampler: lcm
  - Igual que la primera pasada
  - Mantiene la consistencia
- Scheduler: sgm_uniform
  - Mantiene la consistencia con la primera pasada
  - Bueno para el refinamiento de detalles
- Denoise:
  - Menor que la primera pasada
  - Preserva más detalles originales
  - Buen equilibrio para el refinamiento

Procesamiento de Salida

Propósito: Crea salidas de video finales con y sin intercambio de rostro.

Combinación de Video (Crudo):
- Frame Rate:
  - Tasa de fotogramas estándar de video
  - Controla la velocidad de reproducción
  - Menor = tamaño de archivo más pequeño
  - Mayor = movimiento más suave
- Formato: video/h264-mp4
  - Formato estándar para compatibilidad
  - Buen equilibrio de calidad/tamaño
  - Ampliamente soportado
- CRF:
  - Controla la calidad de compresión json
  - Menor = mejor calidad pero tamaño de archivo más grande
  - Mayor = tamaño de archivo más pequeño pero menor calidad
  - 19 es una configuración de alta calidad
- Formato de Píxel: yuv420p
  - Formato estándar para compatibilidad
  - No cambiar a menos que sea necesario
  - Asegura un amplio soporte de reproducción
Combinación de Video (Intercambio de Rostros):
- Mismos parámetros que la salida cruda
- Usa configuraciones idénticas para consistencia
- Añade integración de intercambio de rostros
- Mantiene configuraciones de calidad de video

Consejos de Optimización

Compromisos entre Calidad y Velocidad

Equilibrio de Resolución:
- Estándar: 512x896
  - Procesamiento más rápido
  - Bueno para la mayoría de los usos
- Alta Calidad: 768x1344
  - Mejor detalle
  - Tiempo de procesamiento 2-3x más largo
Calidad de Intercambio de Rostros:
- Estándar: Configuraciones predeterminadas
  - Integración natural
  - Tiempo de procesamiento equilibrado
- Calidad Máxima:
  - Aumenta codeformer_fidelity a 0.9
  - Más lento pero rostros más detallados
Suavidad del Movimiento:
- Procesamiento Más Rápido:
  - Reduce context_overlap a 2
  - Transiciones ligeramente menos suaves
- Mejor Movimiento:
  - Aumenta superposición a 6
  - Usa más VRAM, procesamiento más lento

Problemas Comunes y Soluciones

Mezcla de Rostros:
- Problema: Transición de rostro no natural
- Solución: Ajusta codeformer_weight
  - Prueba rango 0.4-0.7
  - Menor = mejor mezcla
  - Mayor = más detalles faciales
Fuerza del Estilo:
- Problema: Transferencia de estilo débil
- Solución: Aumenta cfg
  - Prueba rango 7-8
  - Mayor = estilo más fuerte
  - Puede afectar la calidad del movimiento
Gestión de Memoria:
- Problema: Limitaciones de VRAM
- Soluciones:
  - Habilita el corte de VAE
  - Reduce la resolución
  - Procesa segmentos más cortos