El Flujo de Trabajo de Transformación de Video de Baile ComfyUI transforma videos de baile en nuevas escenas impresionantes con intercambio de rostros profesional mientras preserva la coreografía original y asegura una salida de alta calidad. El proceso ocurre en etapas, desde el análisis del movimiento hasta el reemplazo de rostros, permitiendo verificaciones de calidad en cada paso.
El flujo de trabajo transforma tu video de baile automatizando estas complejas transformaciones a través de varias etapas, requiriendo solo tu video, una imagen de rostro y la descripción de la escena:
Análisis de Movimiento → Transferencia de Estilo → Reemplazo de Rostro
- Analiza los movimientos de baile y la información espacial
- Transforma la escena según tu descripción
- Integra un nuevo rostro manteniendo las expresiones
- Optimizado para formato vertical (relación de aspecto 9:16)
- Sistema Triple ControlNet para transformaciones estables
- Intercambio de rostros profesional con mezcla natural
- Modo de prueba rápida (procesa 50 fotogramas en minutos)
- Soporte para salida de alta resolución (hasta 896px de altura)
- Preservación avanzada del movimiento usando AnimateDiff
- Sistema de salida dual para verificación de calidad
Guía de Inicio Rápido
Paso 1: Configuración Inicial
En los nodos respectivos:
-
Cargar Video (Subir):
- Sube un video de baile de 10-15 segundos con una relación de aspecto de 9:16
- Si tu video no está en 9:16, necesitarás ajustar los parámetros de Ancho y Altura para que coincidan con tu video.
- Límite de Carga de Fotogramas: 50 (renderiza solo los primeros 50 fotogramas para una prueba rápida)
-
Cargar Imagen:
- Sube una foto de rostro clara y de frente
-
Programación de Avisos por Lotes:
- Describe brevemente la escena y cualquier otro aspecto que desees transformar
"0": "[persona] en camiseta de los KC Chiefs, usando vaqueros y una gorra de béisbol bailando en el vestuario"
- Establece un aviso negativo según sea necesario
Paso 2: Prueba Rápida
- Haz clic en "Queue Prompt"
- Esto procesa ~2 segundos de video
- Verás dos salidas:
- Primera salida: Solo transformación de escena
- Segunda salida: Con intercambio de rostro aplicado
Paso 3: Procesamiento Completo del Video
Solo después de que la prueba rápida se vea bien:
- Regresa al nodo "Cargar Video"
- Cambia el Límite de Carga de Fotogramas a 0 para el video completo
- Haz clic en "Queue Prompt" para el procesamiento completo
(Esto tomará significativamente más tiempo)
Consejos del para Principiantes
- Sigue las Notas: Busca cualquier nota en la interfaz; te guiarán paso a paso
- No te Preocupes por Configuraciones Avanzadas: La mayoría de las veces, no necesitas ajustar nada más allá de lo mencionado aquí
- Importancia de la Relación de Aspecto: Asegúrate de que la relación de aspecto sea correcta, de lo contrario, el video puede verse estirado o recortado
Referencia de Nodos Clave
Configuraciones de AnimateDiff
Los nodos aquí crean una preservación del movimiento suave durante toda la transformación del video.
Las Opciones de Contexto definen cómo deben agruparse y procesarse los fotogramas, alimentando estas configuraciones al Cargador de AnimateDiff, que luego aplica la preservación real del movimiento. La longitud del contexto y las configuraciones de superposición afectan directamente cómo el Cargador de AnimateDiff mantiene la consistencia del movimiento.
- Nodo de Opciones de Contexto (#94): Logra el agrupamiento de fotogramas y el control de procesamiento temporal para un movimiento consistente.
- context_length:
- Controla cuántos fotogramas se procesan juntos
- Mayor = más suave pero más uso de VRAM
- Menor = más rápido pero puede perder coherencia del movimiento
- context_overlap:
- Maneja la suavidad de la transición de fotogramas
- Mayor = mejor mezcla pero procesamiento más lento
- Menor = más rápido pero puede mostrar brechas de transición
- context_schedule:
- Controla la distribución de fotogramas
- "uniform" es mejor para el movimiento de baile
- No cambiar a menos que sea necesario
- closed_loop:
- Controla el comportamiento de bucle de video
- Verdadero solo para videos que hacen bucle perfectamente
- Nodo Cargador de AnimateDiff (#93): Implementa la preservación del movimiento usando el modelo AnimateDiff y aplica consistencia temporal.
- motion_scale:
- Controla la fuerza del movimiento
- Mayor: Movimiento exagerado
- Menor: Movimiento atenuado
- beta_schedule: lcm >> sqrt_linear
- Controla el comportamiento de muestreo
- Optimizado para este flujo de trabajo
- No modificar a menos que sea necesario
Pila de ControlNet
Los nodos aquí mantienen la integridad del video a través de un sistema de guía de tres capas.
Los tres ControlNets procesan los fotogramas de entrada simultáneamente, cada uno enfocándose en diferentes aspectos. Soft Edge proporciona la estructura básica, Depth añade comprensión espacial, y OpenPose asegura la precisión del movimiento. Los resultados se combinan a través de apiladores con una fuerza total que no excede 1.4 para estabilidad.
- ControlNet de Borde Suave: Extrae y preserva elementos estructurales y formas de los fotogramas originales.
- Strength:
- Controla la preservación estructural
- Mayor = mayor adherencia a las formas originales
- Menor = más libertad creativa en la modificación de formas
- End percent:
- Cuando la influencia del control se detiene
- Mayor = influencia más larga durante el proceso
- Menor = permite más desviación en los pasos posteriores
- ControlNet de Profundidad: Procesa relaciones espaciales y mantiene consistencia 3D.
- Strength:
- Controla la conciencia espacial
- Mayor = mayor consistencia 3D
- Menor = más libertad artística con el espacio
- End percent:
- Mantiene la duración de la influencia de profundidad
- Debe coincidir con Borde Suave para consistencia
- ControlNet de OpenPose: Captura y transfiere información de pose para un movimiento preciso.
- Strength:
- Controla la preservación de la pose
- Mayor = seguimiento más estricto de la pose
- Menor = interpretación más flexible de la pose
- End percent:
- Mantiene la influencia de la pose
- Mantiene el movimiento natural durante todo el proceso
Procesamiento de Rostros
Los nodos aquí manejan el reemplazo y mejora de rostros para resultados naturales.
El proceso funciona en dos etapas: FaceRestore primero mejora la calidad del rostro original, luego ReActor realiza el intercambio usando el rostro mejorado como referencia. Este proceso de dos etapas asegura una integración natural mientras preserva las expresiones.
- Sistema FaceRestore: Mejora los detalles faciales y prepara para el intercambio.
- Fidelity:
- Controla la preservación de detalles en la restauración
- Mayor = más detallado pero posibles artefactos
- Menor = más suave pero puede perder detalles
- Detection:
- Elección del modelo de detección facial
- Confiable para la mayoría de los escenarios
- No cambiar a menos que no se detecten rostros
- Intercambio de Rostros ReActor: Realiza el reemplazo de rostros y mezcla con expresiones preservadas.
- Visibility:
- Controla la visibilidad del intercambio
- Mayor = efecto de intercambio de rostro más fuerte
- Menor = mezcla más sutil
- Weight:
- Balance de preservación de características faciales
- Mayor = características del rostro fuente más fuertes
- Menor = mejor mezcla con el objetivo
- Console log level:
- Controla la información de depuración
- Mayor = registros más detallados
Detalles Adicionales de Nodos
Entrada y Preprocesamiento
Propósito: Carga video, ajusta dimensiones y prepara el modelo VAE para el procesamiento.
- Cargar Video:
- Frame Load Cap:
- Controla el número de fotogramas a procesar
- 50 = prueba rápida (procesa ~2 segundos)
- 0 = procesa todo el video
- Afecta el tiempo total de procesamiento
- Skip First Frames:
- Define el punto de inicio en el video
- Mayor = comienza más tarde en el video
- Útil para saltar intros
- Select Every Nth:
- Controla la tasa de muestreo de fotogramas
- Números más altos saltan fotogramas
- 1 = usa cada fotograma
- 2 = usa cada segundo fotograma, etc.
- Escala de Imagen:
- Width: 512
- Controla el ancho del fotograma de salida
- Debe mantener la relación 9:16 con la altura
- Height: 896
- Controla la altura del fotograma de salida
- Debe mantener la relación 9:16 con el ancho
- Method: nearest-exact
- Mejor para mantener la nitidez
- Las alternativas pueden desenfocar el contenido
- Recomendado para videos de baile
- No cambiar a menos que sea necesario
- Cargador VAE:
- Modelo: vae-ft-mse-840000-ema-pruned
- Optimizado para estabilidad y calidad
- Maneja la codificación/decodificación de imágenes
- Relación de compresión equilibrada
- No cambiar a menos que sea necesario
- Modo VAE: No cambiar
- Optimizado para el flujo de trabajo actual
- Afecta la calidad de codificación
Procesamiento Latente
Propósito: Maneja todas las operaciones y transformaciones del espacio latente.
- Imagen Latente Vacía:
- Width/Height: coincide con la entrada
- Debe coincidir con las dimensiones de Escala de Imagen
- Afecta directamente el uso de memoria
- Tamaños más grandes necesitan más VRAM
- No puede ser más pequeño que la entrada
- Batch Size: de los fotogramas del video
- Establecido automáticamente a partir del conteo de fotogramas
- Afecta la velocidad de procesamiento y la VRAM
- Mayor = se necesita más memoria
- Codificación VAE:
- Modelo VAE: del Cargador VAE
- Usa configuraciones del Cargador VAE
- Mantiene la consistencia
- Decodificación: habilitada
- Controla la calidad de decodificación
- Deshabilitar solo si la VRAM es limitada
- Afecta la calidad de salida
- Mezcla Latente:
- Factor de Mezcla:
- Controla la mezcla de espacios latentes
- 0 = contenido de fuente completo
- Mayor = más influencia latente vacía
- Afecta la fuerza de transferencia de estilo
- Escalado Latente Por:
- Método: nearest-exact
- Mejor para mantener la nitidez
- Métodos alternativos pueden desenfocar
- Preserva los detalles del movimiento
- Escala:
- Controla el aumento de tamaño
- Mayor = mejor detalle pero más VRAM
- Menor = procesamiento más rápido
- 1.6 óptimo para la mayoría de los casos
Muestreo y Refinamiento
Propósito: Proceso de muestreo de dos etapas para transformación de calidad.
- KSampler (Primera Pasada):
- Pasos:
- Número de pasos de eliminación de ruido
- Mayor = mejor calidad pero más lento
- 6 óptimo para el muestreador lcm
- CFG:
- Controla la influencia del aviso
- Mayor = mayor adherencia al estilo
- Menor = más libertad
- Sampler: lcm
- Optimizado para velocidad
- Buen equilibrio calidad/velocidad
- Scheduler: sgm_uniform
- Funciona mejor con lcm
- Mantiene la consistencia temporal
- Denoise:
- Fuerza completa para la primera pasada
- Controla la intensidad de la transformación
- KSampler (Pasada de Alta Resolución):
- Pasos:
- Coincide con la primera pasada para consistencia
- Mayor no es necesario para el refinamiento
- CFG:
- Mantiene la consistencia del estilo
- Preservación de detalles equilibrada
- Sampler: lcm
- Igual que la primera pasada
- Mantiene la consistencia
- Scheduler: sgm_uniform
- Mantiene la consistencia con la primera pasada
- Bueno para el refinamiento de detalles
- Denoise:
- Menor que la primera pasada
- Preserva más detalles originales
- Buen equilibrio para el refinamiento
Procesamiento de Salida
Propósito: Crea salidas de video finales con y sin intercambio de rostro.
- Combinación de Video (Crudo):
- Frame Rate:
- Tasa de fotogramas estándar de video
- Controla la velocidad de reproducción
- Menor = tamaño de archivo más pequeño
- Mayor = movimiento más suave
- Formato: video/h264-mp4
- Formato estándar para compatibilidad
- Buen equilibrio de calidad/tamaño
- Ampliamente soportado
- CRF:
- Controla la calidad de compresión
json
- Menor = mejor calidad pero tamaño de archivo más grande
- Mayor = tamaño de archivo más pequeño pero menor calidad
- 19 es una configuración de alta calidad
- Formato de Píxel: yuv420p
- Formato estándar para compatibilidad
- No cambiar a menos que sea necesario
- Asegura un amplio soporte de reproducción
- Combinación de Video (Intercambio de Rostros):
- Mismos parámetros que la salida cruda
- Usa configuraciones idénticas para consistencia
- Añade integración de intercambio de rostros
- Mantiene configuraciones de calidad de video
Consejos de Optimización
Compromisos entre Calidad y Velocidad
- Equilibrio de Resolución:
- Estándar: 512x896
- Procesamiento más rápido
- Bueno para la mayoría de los usos
- Alta Calidad: 768x1344
- Mejor detalle
- Tiempo de procesamiento 2-3x más largo
- Calidad de Intercambio de Rostros:
- Estándar: Configuraciones predeterminadas
- Integración natural
- Tiempo de procesamiento equilibrado
- Calidad Máxima:
- Aumenta codeformer_fidelity a 0.9
- Más lento pero rostros más detallados
- Suavidad del Movimiento:
- Procesamiento Más Rápido:
- Reduce context_overlap a 2
- Transiciones ligeramente menos suaves
- Mejor Movimiento:
- Aumenta superposición a 6
- Usa más VRAM, procesamiento más lento
Problemas Comunes y Soluciones
- Mezcla de Rostros:
- Problema: Transición de rostro no natural
- Solución: Ajusta codeformer_weight
- Prueba rango 0.4-0.7
- Menor = mejor mezcla
- Mayor = más detalles faciales
- Fuerza del Estilo:
- Problema: Transferencia de estilo débil
- Solución: Aumenta cfg
- Prueba rango 7-8
- Mayor = estilo más fuerte
- Puede afectar la calidad del movimiento
- Gestión de Memoria:
- Problema: Limitaciones de VRAM
- Soluciones:
- Habilita el corte de VAE
- Reduce la resolución
- Procesa segmentos más cortos
Para detalles adicionales y creaciones asombrosas, por favor visita el .