ComfyUI > Fluxos de Trabalho > IDM-VTON | Prova Virtual

IDM-VTON | Prova Virtual

IDM-VTON, ou Melhorando Modelos de Difusão para Prova Virtual Autêntica na Natureza, é um modelo de difusão revolucionário que permite a prova virtual realista de roupas. Ao preservar os detalhes únicos e a identidade das roupas, IDM-VTON gera resultados incrivelmente autênticos. O modelo utiliza um adaptador de prompt de imagem (IP-Adapter) para extrair semânticas de nível superior das roupas e um UNet paralelo (GarmentNet) para codificar características de baixo nível. No ComfyUI, o nó IDM-VTON alimenta o processo de prova virtual, exigindo entradas como uma imagem humana, representação de pose, máscara de roupa e imagem da roupa.

ComfyUI IDM-VTON Fluxo de Trabalho

ComfyUI Workflow: IDM-VTON for Virtual Clothing Try-on

Deseja executar este fluxo de trabalho?

Fluxos de trabalho totalmente operacionais
Sem nós ou modelos ausentes
Nenhuma configuração manual necessária
Apresenta visuais impressionantes

ComfyUI IDM-VTON Exemplos

idm-vton-on-comfyui-realistic-virtual-clothing-try-on-1135

ComfyUI IDM-VTON Descrição

IDM-VTON, abreviação de "Melhorando Modelos de Difusão para Prova Virtual Autêntica na Natureza," é um modelo de difusão inovador que permite que você experimente roupas realisticamente de forma virtual usando apenas algumas entradas. O que diferencia o IDM-VTON é sua capacidade de preservar os detalhes únicos e a identidade das roupas enquanto gera resultados de prova virtual que parecem incrivelmente autênticos.

1. Entendendo o IDM-VTON

No seu núcleo, IDM-VTON é um modelo de difusão especificamente projetado para prova virtual. Para usá-lo, você só precisa de uma representação de uma pessoa e de uma roupa que deseja experimentar. IDM-VTON então faz sua mágica, renderizando um resultado que parece que a pessoa está realmente vestindo a roupa. Ele alcança um nível de fidelidade e autenticidade da roupa que supera os métodos anteriores de prova virtual baseados em difusão.

2. O Funcionamento Interno do IDM-VTON

Então, como o IDM-VTON realiza uma prova virtual tão realista? O segredo reside em seus dois módulos principais que trabalham juntos para codificar as semânticas da entrada de roupa:

O primeiro é um adaptador de prompt de imagem, ou IP-Adapter para abreviar. Este componente inteligente extrai as semânticas de alto nível da roupa - essencialmente, as características principais que definem sua aparência. Ele então funde essas informações na camada de atenção cruzada do modelo principal de difusão UNet.
O segundo módulo é um UNet paralelo chamado GarmentNet. Sua função é codificar as características de baixo nível da roupa - os detalhes minuciosos que a tornam única. Essas características são então fundidas na camada de autoatenção do UNet principal.

Mas isso não é tudo! IDM-VTON também utiliza prompts textuais detalhados tanto para as entradas de roupa quanto para a pessoa. Esses prompts fornecem contexto adicional que melhora a autenticidade do resultado final da prova virtual.

3. Colocando o IDM-VTON para Trabalhar no ComfyUI

3.1 A Estrela do Show: O Nó IDM-VTON

No ComfyUI, o nó "IDM-VTON" é a potência que executa o modelo de difusão IDM-VTON e gera a saída da prova virtual.

Para que o nó IDM-VTON faça sua mágica, ele precisa de algumas entradas chave:

Pipeline: Este é o pipeline de difusão IDM-VTON carregado que alimenta todo o processo de prova virtual.
Entrada Humana: Uma imagem da pessoa que estará experimentando virtualmente a roupa.
Entrada de Pose: Uma representação DensePose pré-processada da entrada humana, que ajuda o IDM-VTON a entender a pose e a forma do corpo da pessoa.
Entrada de Máscara: Uma máscara binária que indica quais partes da entrada humana são roupas. Esta máscara precisa ser convertida em um formato apropriado.
Entrada de Roupa: Uma imagem da roupa a ser experimentada virtualmente.

3.2 Preparando Tudo

Para colocar o nó IDM-VTON em funcionamento, há alguns passos de preparação:

Carregando a Imagem Humana: Um nó LoadImage é usado para carregar a imagem da pessoa.
Gerando a Imagem de Pose: A imagem humana é passada por um nó DensePosePreprocessor, que computa a representação DensePose que o IDM-VTON precisa.
Obtendo a Imagem de Máscara: Existem duas maneiras de obter a máscara de roupa:

a. Máscara Manual (Recomendado)

Clique com o botão direito na imagem humana carregada e escolha "Abrir no Editor de Máscara."
Na interface do editor de máscara, mascare manualmente as regiões de roupa.

b. Máscara Automática

Use um nó GroundingDinoSAMSegment para segmentar automaticamente a roupa.
Promova o nó com uma descrição textual da roupa (como "camiseta").

Qualquer que seja o método escolhido, a máscara obtida precisa ser convertida em uma imagem usando um nó MaskToImage, que é então conectado à entrada "Imagem de Máscara" do nó IDM-VTON.

Carregando a Imagem da Roupa: É usado para carregar a imagem da roupa.

Para um mergulho mais profundo no modelo IDM-VTON, não perca o artigo original, "". E se você estiver interessado em usar o IDM-VTON no ComfyUI, não deixe de conferir os nós dedicados . Um grande obrigado aos pesquisadores e desenvolvedores por trás desses recursos incríveis.

Deseja Mais Fluxos de Trabalho do ComfyUI?

Hunyuan Video | Vídeo para Vídeo

Combine prompt de texto e vídeo de origem para gerar novo vídeo.

FLUX ControlNet Depth-V3 & Canny-V3

Obtenha melhor controle com FLUX-ControlNet-Depth & FLUX-ControlNet-Canny para FLUX.1 [dev].

ComfyUI Img2Vid | Animação de Morphing

Animação de morphing com os módulos AnimateDiff LCM, IPAdapter, QRCode ControlNet e Custom Mask.

Vid2Vid Parte 2 | SDXL Style Transfer

Aprimore a criatividade do Vid2Vid focando na composição e no mascaramento do seu vídeo original.

Retrato ao Vivo Avançado | Controle de Parâmetros

Use parâmetros personalizáveis para controlar cada característica, desde piscadas até movimentos da cabeça, para resultados naturais.

FLUX Img2Img | Fusione Visuais e Prompts

Fusione visuais e prompts para resultados impressionantes e aprimorados.

Treinamento FLUX LoRA

Guia você por todo o processo de treinamento de modelos FLUX LoRA usando seus conjuntos de dados personalizados.

IPAdapter Plus (V2) | Transferência de Estilo com Uma Imagem

Use o IPAdapter Plus e o ControlNet para transferência de estilo precisa com uma única imagem de referência.