ComfyUI > Flujos de trabajo > IDM-VTON | Prueba Virtual

IDM-VTON | Prueba Virtual

IDM-VTON, o Mejorando Modelos de Difusión para Pruebas Virtuales Auténticas en el Entorno Natural, es un modelo de difusión revolucionario que permite pruebas virtuales realistas de prendas. Al preservar los detalles únicos y la identidad de las prendas, IDM-VTON genera resultados increíblemente auténticos. El modelo utiliza un adaptador de indicaciones de imagen (IP-Adapter) para extraer semánticas de alto nivel de las prendas y un UNet paralelo (GarmentNet) para codificar características de bajo nivel. En ComfyUI, el nodo IDM-VTON impulsa el proceso de prueba virtual, requiriendo entradas como una imagen humana, representación de pose, máscara de ropa e imagen de la prenda.

ComfyUI IDM-VTON Flujo de trabajo

ComfyUI Workflow: IDM-VTON for Virtual Clothing Try-on

¿Quiere ejecutar este flujo de trabajo?

Flujos de trabajo completamente operativos
Sin nodos ni modelos faltantes
No se requiere configuración manual
Presenta visuales impresionantes

ComfyUI IDM-VTON Ejemplos

idm-vton-on-comfyui-realistic-virtual-clothing-try-on-1135

ComfyUI IDM-VTON Descripción

IDM-VTON, abreviatura de "Mejorando Modelos de Difusión para Pruebas Virtuales Auténticas en el Entorno Natural", es un modelo de difusión innovador que te permite probar prendas de manera realista virtualmente usando solo algunas entradas. Lo que distingue a IDM-VTON es su capacidad para preservar los detalles únicos y la identidad de las prendas mientras genera resultados de prueba virtual que parecen increíblemente auténticos.

1. Entendiendo IDM-VTON

En su núcleo, IDM-VTON es un modelo de difusión específicamente diseñado para pruebas virtuales. Para usarlo, simplemente necesitas una representación de una persona y una prenda que quieras probar. IDM-VTON entonces hace su magia, renderizando un resultado que parece que la persona realmente está usando la prenda. Logra un nivel de fidelidad y autenticidad de la prenda que supera a los métodos de prueba virtual basados en difusión anteriores.

2. El Funcionamiento Interno de IDM-VTON

Entonces, ¿cómo logra IDM-VTON una prueba virtual tan realista? El secreto reside en sus dos módulos principales que trabajan juntos para codificar las semánticas de la entrada de la prenda:

El primero es un adaptador de indicaciones de imagen, o IP-Adapter para abreviar. Este inteligente componente extrae las semánticas de alto nivel de la prenda - esencialmente, las características clave que definen su apariencia. Luego fusiona esta información en la capa de atención cruzada del modelo de difusión principal UNet.
El segundo módulo es un UNet paralelo llamado GarmentNet. Su tarea es codificar las características de bajo nivel de la prenda - los detalles minuciosos que la hacen única. Estas características se fusionan luego en la capa de atención propia del UNet principal.

¡Pero eso no es todo! IDM-VTON también hace uso de indicaciones textuales detalladas tanto para las entradas de la prenda como de la persona. Estas indicaciones proporcionan un contexto adicional que mejora la autenticidad del resultado final de la prueba virtual.

3. Poniendo a Trabajar IDM-VTON en ComfyUI

3.1 La Estrella del Show: El Nodo IDM-VTON

En ComfyUI, el nodo "IDM-VTON" es la potencia que ejecuta el modelo de difusión IDM-VTON y genera la salida de la prueba virtual.

Para que el nodo IDM-VTON haga su magia, necesita algunas entradas clave:

Pipeline: Este es el pipeline de difusión IDM-VTON cargado que impulsa todo el proceso de prueba virtual.
Human Input: Una imagen de la persona que probará virtualmente la prenda.
Pose Input: Una representación DensePose preprocesada de la entrada humana, que ayuda a IDM-VTON a entender la pose y forma corporal de la persona.
Mask Input: Una máscara binaria que indica qué partes de la entrada humana son ropa. Esta máscara necesita ser convertida en un formato apropiado.
Garment Input: Una imagen de la prenda para ser probada virtualmente.

3.2 Preparando Todo

Para poner en marcha el nodo IDM-VTON, hay algunos pasos de preparación:

Cargando la Imagen Humana: Se utiliza un nodo LoadImage para cargar la imagen de la persona.
Generando la Imagen de Pose: La imagen humana se pasa a través de un nodo DensePosePreprocessor, que computa la representación DensePose que IDM-VTON necesita.
Obteniendo la Imagen de la Máscara: Hay dos maneras de obtener la máscara de ropa:

a. Enmascaramiento Manual (Recomendado)

Haz clic derecho en la imagen humana cargada y elige "Abrir en el Editor de Máscaras."
En la interfaz del editor de máscaras, enmascara manualmente las regiones de ropa.

b. Enmascaramiento Automático

Utiliza un nodo GroundingDinoSAMSegment para segmentar automáticamente la ropa.
Indica al nodo con una descripción textual de la prenda (como "camiseta").

Cualquiera que sea el método que elijas, la máscara obtenida necesita ser convertida a una imagen usando un nodo MaskToImage, que luego se conecta a la entrada "Mask Image" del nodo IDM-VTON.

Cargando la Imagen de la Prenda: Se utiliza para cargar la imagen de la prenda.

Para un análisis más profundo del modelo IDM-VTON, no te pierdas el documento original, "". Y si estás interesado en usar IDM-VTON en ComfyUI, asegúrate de revisar los nodos dedicados . Un gran agradecimiento a los investigadores y desarrolladores detrás de estos increíbles recursos.

¿Quiere más flujos de trabajo de ComfyUI?

Retrato en Vivo Avanzado | Control de Parámetros

Usa parámetros personalizables para controlar cada característica, desde parpadeos hasta movimientos de cabeza, para obtener resultados naturales.

Anyline + MistoLine | Boceto a imagen de alta calidad

MistoLine se adapta a varios dibujos lineales, generando sin esfuerzo imágenes de alta calidad a partir de bocetos.

Stable Diffusion 3.5 vs FLUX.1

Compara Stable Diffusion 3.5 y FLUX.1 en un flujo de trabajo de ComfyUI.

Portrait Master | Texto a retrato

Use Portrait Master para un mayor control sobre la creación de retratos sin depender de indicaciones complejas.

AnimateDiff + AutoMask + ControlNet | Efectos visuales (VFX)

Mejora los VFX con AnimateDiff, AutoMask y ControlNet para obtener resultados precisos y controlados.

ComfyUI + TouchDesigner | Visuales Reactivos al Audio

Renderiza visuales en ComfyUI y sincroniza el audio en TouchDesigner para obtener videos dinámicos y reactivos al audio.

AnimateLCM | Acelera de texto a video

Acelera tu animación de texto a video usando el flujo de trabajo ComfyUI AnimateLCM.

OmniGen | Imagen-a-Imagen

OmniGen: Modificar Imágenes Basadas en Imágenes de Referencia e Indicaciones