ComfyUI  >  Arbeidsflyter  >  IDM-VTON | Virtuell Prøving

IDM-VTON | Virtuell Prøving

IDM-VTON, eller Improving Diffusion Models for Authentic Virtual Try-on in the Wild, er en banebrytende diffusjonsmodell som tillater realistisk virtuell prøving av plagg. Ved å bevare de unike detaljene og identiteten til plaggene, genererer IDM-VTON utrolig autentiske resultater. Modellen bruker en bildepromptadapter (IP-Adapter) for å trekke ut høynivå plaggsemantikk og en parallell UNet (GarmentNet) for å kode lavnivå funksjoner. I ComfyUI driver IDM-VTON-noden den virtuelle prøvingsprosessen, og krever input som et menneskebilde, poserepresentasjon, klesmaske og plaggfoto.

ComfyUI IDM-VTON Arbeidsflyt

ComfyUI Workflow: IDM-VTON for Virtual Clothing Try-on
Vil du kjøre denne arbeidsflyten?
  • Fullt operasjonelle arbeidsflyter
  • Ingen manglende noder eller modeller
  • Ingen manuelle oppsett kreves
  • Har fantastiske visuelle effekter

ComfyUI IDM-VTON Eksempler

idm-vton-on-comfyui-realistic-virtual-clothing-try-on-1135

ComfyUI IDM-VTON Beskrivelse

IDM-VTON, forkortelse for "Improving Diffusion Models for Authentic Virtual Try-on in the Wild," er en innovativ diffusjonsmodell som lar deg realistisk prøve plagg virtuelt ved hjelp av bare noen få input. Det som skiller IDM-VTON fra er dens evne til å bevare de unike detaljene og identiteten til plaggene mens den genererer virtuelle prøveresultater som ser utrolig autentiske ut.

1. Forstå IDM-VTON

I kjernen er IDM-VTON en diffusjonsmodell som er spesifikt utviklet for virtuell prøving. For å bruke den trenger du bare en representasjon av en person og et plagg du ønsker å prøve. IDM-VTON gjør deretter sin magi, og gir et resultat som ser ut som personen faktisk har på seg plagget. Den oppnår et nivå av plaggfidelitet og autentisitet som overgår tidligere diffusjonsbaserte virtuelle prøvingsmetoder.

2. Den Indre Virkemåten til IDM-VTON

Så, hvordan klarer IDM-VTON å utføre så realistisk virtuell prøving? Hemmeligheten ligger i dens to hovedmoduler som jobber sammen for å kode semantikken til plagginputen:

  1. Den første er en bildepromptadapter, eller IP-Adapter for kort. Denne smarte komponenten trekker ut høynivåsemantikken til plagget - i hovedsak de viktigste egenskapene som definerer dets utseende. Den fusjonerer deretter denne informasjonen inn i kryssoppmerksomhetslaget til hoved UNet diffusjonsmodellen.
  2. Den andre modulen er en parallell UNet kalt GarmentNet. Dens jobb er å kode lavnivåfunksjonene til plagget - de små detaljene som gjør det unikt. Disse funksjonene blir deretter fusjonert inn i selvoppmerksomhetslaget til hoved UNet.

Men det er ikke alt! IDM-VTON bruker også detaljerte tekstuelle prompt for både plagg- og personinput. Disse promptene gir ekstra kontekst som forbedrer autentisiteten til det endelige virtuelle prøveresultatet.

3. Sette IDM-VTON i Arbeid i ComfyUI

3.1 Stjernen i Showet: IDM-VTON Noden

I ComfyUI er "IDM-VTON" noden kraftsenteret som kjører IDM-VTON diffusjonsmodellen og genererer den virtuelle prøvingsutgangen.

For at IDM-VTON noden skal kunne utføre sin magi, trenger den noen nøkkelinnganger:

  1. Pipeline: Dette er den lastede IDM-VTON diffusjonspipelinen som driver hele den virtuelle prøvingsprosessen.
  2. Menneskelig Input: Et bilde av personen som skal prøve plagget virtuelt.
  3. Poserepresentasjon: En forhåndsprosesseret DensePose-representasjon av den menneskelige inputen, som hjelper IDM-VTON med å forstå personens posisjon og kroppsform.
  4. Mask Input: En binær maske som indikerer hvilke deler av den menneskelige inputen som er klær. Denne masken må konverteres til et passende format.
  5. Plagg Input: Et bilde av plagget som skal prøves virtuelt.

3.2 Forberede Alt

For å få IDM-VTON noden opp og gå, er det noen forberedelsestrinn:

  1. Laste inn det Menneskelige Bildet: En LoadImage node brukes til å laste inn bildet av personen. IDM-VTON
  2. Generere Posebildet: Det menneskelige bildet blir sendt gjennom en DensePosePreprocessor node, som beregner DensePose-representasjonen som IDM-VTON trenger. IDM-VTON
  3. Skaffe Maskebildet: Det er to måter å få klesmasken på: IDM-VTON

a. Manuell Maskering (Anbefalt)

  • Høyreklikk på det lastede menneskelige bildet og velg "Open in Mask Editor."
  • I maskeeditorens UI, maskér manuelt klesområdene.

b. Automatisk Maskering

  • Bruk en GroundingDinoSAMSegment node for å automatisk segmentere klærne.
  • Gi noden en tekstbeskrivelse av plagget (som "t-skjorte").

Uansett hvilken metode du velger, må den oppnådde masken konverteres til et bilde ved hjelp av en MaskToImage node, som deretter kobles til "Mask Image" inngangen til IDM-VTON noden.

  1. Laste inn Plaggbildet: Det brukes for å laste inn bildet av plagget.
IDM-VTON

For en dypere dykking i IDM-VTON modellen, ikke gå glipp av den originale artikkelen, "". Og hvis du er interessert i å bruke IDM-VTON i ComfyUI, sørg for å sjekke ut de dedikerte nodene . Stor takk til forskerne og utviklerne bak disse utrolige ressursene.

Vil du ha Flere ComfyUI Arbeidsflyter?

RunComfy

© Opphavsrett 2024 RunComfy. Alle Rettigheter Forbeholdt.

RunComfy er den fremste ComfyUI plattformen, som tilbyr ComfyUI online miljø og tjenester, sammen med ComfyUI arbeidsflyter med fantastiske visuelle effekter.