ComfyUI  >  Arbejdsgange  >  IDM-VTON | Virtuel Prøvning

IDM-VTON | Virtuel Prøvning

IDM-VTON, eller Improving Diffusion Models for Authentic Virtual Try-on in the Wild, er en banebrydende diffusionsmodel, der tillader realistisk virtuel beklædningsprøvning. Ved at bevare de unikke detaljer og identitet af beklædningsgenstande genererer IDM-VTON utroligt autentiske resultater. Modellen bruger en image prompt adapter (IP-Adapter) til at udtrække højniveausemantik af beklædningsgenstande og en parallel UNet (GarmentNet) til at kode lavniveau-funktioner. I ComfyUI driver IDM-VTON noden den virtuelle prøvningsproces, der kræver input som et billede af en person, en poserepræsentation, en beklædningsmaske og et billede af beklædningsgenstanden.

ComfyUI IDM-VTON Arbejdsgang

ComfyUI Workflow: IDM-VTON for Virtual Clothing Try-on
Vil du køre denne arbejdsgang?
  • Fuldt operationelle arbejdsgange
  • Ingen manglende noder eller modeller
  • Ingen manuelle opsætninger krævet
  • Funktioner fantastiske visuals

ComfyUI IDM-VTON Eksempler

idm-vton-on-comfyui-realistic-virtual-clothing-try-on-1135

ComfyUI IDM-VTON Beskrivelse

IDM-VTON, kort for "Improving Diffusion Models for Authentic Virtual Try-on in the Wild," er en innovativ diffusionsmodel, der giver dig mulighed for realistisk at prøve tøj virtuelt ved hjælp af blot få input. Det, der adskiller IDM-VTON, er dens evne til at bevare de unikke detaljer og identitet af beklædningsgenstandene, mens den genererer virtuelle prøvningsresultater, der ser utroligt autentiske ud.

1. Forståelse af IDM-VTON

I sin kerne er IDM-VTON en diffusionsmodel, der er specielt udviklet til virtuel prøvning. For at bruge den skal du blot have en repræsentation af en person og et beklædningsgenstand, du vil prøve. IDM-VTON udfører derefter sin magi og skaber et resultat, der ser ud, som om personen faktisk bærer beklædningsgenstanden. Den opnår et niveau af beklædningsægthed og autenticitet, der overgår tidligere diffusionsbaserede virtuelle prøvningsmetoder.

2. IDM-VTON's Indre Arbejde

Så hvordan trækker IDM-VTON sådan realistisk virtuel prøvning af? Hemmeligheden ligger i dens to hovedmoduler, der arbejder sammen for at kode semantikken i beklædningsinputtet:

  1. Det første er en image prompt adapter eller IP-Adapter for kort. Denne smarte komponent udtrækker højniveausemantikken af beklædningsgenstanden - dybest set de nøglekarakteristika, der definerer dens udseende. Den fusionerer derefter denne information ind i kryds-opmærksomhedslaget af den vigtigste UNet diffusionsmodel.
  2. Det andet modul er en parallel UNet kaldet GarmentNet. Dens opgave er at kode lavniveau-funktionerne af beklædningsgenstanden - de små detaljer, der gør den unik. Disse funktioner fusioneres derefter ind i selv-opmærksomhedslaget af den vigtigste UNet.

Men det er ikke alt! IDM-VTON gør også brug af detaljerede tekstprompter for både beklædnings- og personinput. Disse prompter giver yderligere kontekst, der forbedrer autenticiteten af det endelige virtuelle prøvningsresultat.

3. Sætte IDM-VTON i Arbejde i ComfyUI

3.1 Showets Stjerne: IDM-VTON-noden

I ComfyUI er "IDM-VTON"-noden kraftværket, der kører IDM-VTON diffusionsmodellen og genererer det virtuelle prøvningsoutput.

For at IDM-VTON-noden kan udføre sin magi, har den brug for nogle få nøgleinput:

  1. Pipeline: Dette er den indlæste IDM-VTON diffusionspipeline, der driver hele den virtuelle prøvningsproces.
  2. Human Input: Et billede af personen, der vil prøve beklædningsgenstanden virtuelt.
  3. Pose Input: En forarbejdet DensePose-repræsentation af menneskeinputtet, som hjælper IDM-VTON med at forstå personens positur og kropsform.
  4. Mask Input: En binær maske, der angiver, hvilke dele af menneskeinputtet der er beklædning. Denne maske skal konverteres til et passende format.
  5. Garment Input: Et billede af beklædningsgenstanden, der skal prøves virtuelt.

3.2 Få Alt Klar

For at få IDM-VTON-noden op at køre er der nogle forberedelsestrin:

  1. Indlæsning af Menneskebilledet: En LoadImage-node bruges til at indlæse billedet af personen. IDM-VTON
  2. Generering af Posebilledet: Menneskebilledet sendes gennem en DensePosePreprocessor-node, som beregner den DensePose-repræsentation, som IDM-VTON har brug for. IDM-VTON
  3. Opnåelse af Maskebilledet: Der er to måder at få beklædningsmasken på: IDM-VTON

a. Manuel Maskering (Anbefalet)

  • Højreklik på det indlæste menneskebillede og vælg "Åbn i Mask Editor."
  • I maskeredigerings-UI'en skal du manuelt maskere beklædningsområderne.

b. Automatisk Maskering

  • Brug en GroundingDinoSAMSegment-node til automatisk at segmentere beklædningen.
  • Prompt noden med en tekstbeskrivelse af beklædningsgenstanden (som "t-shirt").

Uanset hvilken metode du vælger, skal den opnåede maske konverteres til et billede ved hjælp af en MaskToImage-node, der derefter forbindes til "Mask Image"-inputtet på IDM-VTON-noden.

  1. Indlæsning af Beklædningsbilledet: Det bruges til at indlæse billedet af beklædningsgenstanden.
IDM-VTON

For en dybere indsigt i IDM-VTON-modellen må du ikke gå glip af den originale artikel, "". Og hvis du er interesseret i at bruge IDM-VTON i ComfyUI, skal du sørge for at tjekke de dedikerede noder . Stor tak til forskerne og udviklerne bag disse utrolige ressourcer.

Vil du have flere ComfyUI-arbejdsgange?

RunComfy

© Ophavsret 2024 RunComfy. Alle rettigheder forbeholdes.

RunComfy er den førende ComfyUI platform, der tilbyder ComfyUI online miljø og tjenester, sammen med ComfyUI-arbejdsgange med fantastiske visuals.