ComfyUI  >  Workflows  >  IDM-VTON | Virtueel Passen

IDM-VTON | Virtueel Passen

IDM-VTON, of Improving Diffusion Models for Authentic Virtual Try-on in the Wild, is een baanbrekend diffusie model dat realistisch virtueel kleding passen mogelijk maakt. Door de unieke details en identiteit van kledingstukken te behouden, genereert IDM-VTON ongelooflijk authentieke resultaten. Het model maakt gebruik van een image prompt adapter (IP-Adapter) om hoog-niveau kledingsemantiek te extraheren en een parallelle UNet (GarmentNet) om laag-niveau kenmerken te coderen. In ComfyUI drijft de IDM-VTON-node het virtuele pasproces aan, waarvoor invoer nodig is zoals een mensenbeeld, houdingrepresentatie, kledingmasker en kledingafbeelding.

ComfyUI IDM-VTON Workflow

ComfyUI Workflow: IDM-VTON for Virtual Clothing Try-on
Wilt u deze workflow uitvoeren?
  • Volledig operationele workflows
  • Geen ontbrekende knooppunten of modellen
  • Geen handmatige instellingen vereist
  • Kenmerken verbluffende visuals

ComfyUI IDM-VTON Voorbeelden

idm-vton-on-comfyui-realistic-virtual-clothing-try-on-1135

ComfyUI IDM-VTON Beschrijving

IDM-VTON, kort voor "Improving Diffusion Models for Authentic Virtual Try-on in the Wild," is een innovatief diffusie model dat je in staat stelt om realistisch kleding virtueel te passen met slechts enkele invoergegevens. Wat IDM-VTON onderscheidt, is het vermogen om de unieke details en identiteit van de kledingstukken te behouden terwijl virtuele pasresultaten worden gegenereerd die er ongelooflijk authentiek uitzien.

1. Begrijpen van IDM-VTON

In de kern is IDM-VTON een diffusie model dat speciaal is ontworpen voor virtueel passen. Om het te gebruiken, heb je eenvoudigweg een representatie van een persoon en een kledingstuk dat je wilt passen nodig. IDM-VTON doet dan zijn magie en rendert een resultaat dat eruitziet alsof de persoon daadwerkelijk de kleding draagt. Het bereikt een niveau van kledingtrouw en authenticiteit dat eerdere diffusie-gebaseerde virtuele pasmethoden overtreft.

2. De Innerlijke Werking van IDM-VTON

Hoe krijgt IDM-VTON het voor elkaar om zo'n realistisch virtueel passen te realiseren? Het geheim ligt in zijn twee hoofdmodules die samenwerken om de semantiek van de kledinginvoer te coderen:

  1. De eerste is een image prompt adapter, of kortweg IP-Adapter. Deze slimme component extraheert de hoog-niveau semantiek van de kleding - in wezen de belangrijkste kenmerken die het uiterlijk bepalen. Het voegt deze informatie vervolgens samen in de cross-attention-laag van het hoofd UNet diffusie model.
  2. De tweede module is een parallelle UNet genaamd GarmentNet. Zijn taak is om de laag-niveau kenmerken van de kleding te coderen - de fijne details die het uniek maken. Deze kenmerken worden vervolgens samengevoegd in de self-attention-laag van het hoofd UNet.

Maar dat is niet alles! IDM-VTON maakt ook gebruik van gedetailleerde tekstuele prompts voor zowel de kleding als de persoon invoer. Deze prompts bieden extra context die de authenticiteit van het uiteindelijke virtuele pasresultaat verbetert.

3. IDM-VTON aan het Werk in ComfyUI

3.1 De Ster van de Show: De IDM-VTON Node

In ComfyUI is de "IDM-VTON" node de krachtpatser die het IDM-VTON diffusie model draait en de virtuele pasuitvoer genereert.

Voor de IDM-VTON node om zijn magie te laten werken, heeft het een paar belangrijke invoergegevens nodig:

  1. Pipeline: Dit is de geladen IDM-VTON diffusie pipeline die het gehele virtuele pasproces aandrijft.
  2. Human Input: Een afbeelding van de persoon die virtueel de kleding zal passen.
  3. Pose Input: Een voorbewerkte DensePose-representatie van de menselijk invoer, die IDM-VTON helpt om de houding en lichaamsvorm van de persoon te begrijpen.
  4. Mask Input: Een binaire masker dat aangeeft welke delen van de menselijke invoer kleding zijn. Dit masker moet worden omgezet in een geschikt formaat.
  5. Garment Input: Een afbeelding van de kleding die virtueel gepast moet worden.

3.2 Alles Gereedmaken

Om de IDM-VTON node op te starten, zijn er een paar voorbereidende stappen:

  1. Het Laden van de Menselijke Afbeelding: Een LoadImage-node wordt gebruikt om de afbeelding van de persoon te laden. IDM-VTON
  2. Het Genereren van de Pose Afbeelding: De menselijke afbeelding wordt door een DensePosePreprocessor-node geleid, die de DensePose-representatie berekent die IDM-VTON nodig heeft. IDM-VTON
  3. Het Verkrijgen van de Masker Afbeelding: Er zijn twee manieren om het kledingmasker te krijgen: IDM-VTON

a. Handmatig Maskeren (Aanbevolen)

  • Klik met de rechtermuisknop op de geladen menselijke afbeelding en kies "Open in Mask Editor."
  • Masker in de maskereditor-UI handmatig de kledinggebieden.

b. Automatisch Maskeren

  • Gebruik een GroundingDinoSAMSegment-node om automatisch de kleding te segmenteren.
  • Geef de node een tekstuele beschrijving van het kledingstuk (zoals "t-shirt").

Welke methode je ook kiest, het verkregen masker moet worden omgezet naar een afbeelding met behulp van een MaskToImage-node, die vervolgens wordt verbonden met de "Mask Image" invoer van de IDM-VTON node.

  1. Het Laden van de Kledingafbeelding: Het wordt gebruikt om de afbeelding van de kleding te laden.
IDM-VTON

Voor een diepere duik in het IDM-VTON model, mis het originele paper, "" niet. En als je geïnteresseerd bent in het gebruik van IDM-VTON in ComfyUI, bekijk dan zeker de speciale nodes . Grote dank aan de onderzoekers en ontwikkelaars achter deze ongelooflijke bronnen.

Wilt u meer ComfyUI Workflows?

RunComfy

© Copyright 2024 RunComfy. Alle Rechten Voorbehouden.

RunComfy is de voornaamste ComfyUI platform, dat biedt ComfyUI online omgeving en diensten, samen met ComfyUI workflows met verbluffende visuals.