ComfyUI  >  Arbetsflöden  >  IDM-VTON | Virtuell Provning

IDM-VTON | Virtuell Provning

IDM-VTON, eller Improving Diffusion Models for Authentic Virtual Try-on in the Wild, är en banbrytande diffusionsmodell som möjliggör realistisk virtuell plaggprovning. Genom att bevara de unika detaljerna och identiteten hos plagg, genererar IDM-VTON otroligt autentiska resultat. Modellen använder en bildpromptadapter (IP-Adapter) för att extrahera hög-nivå plaggsemantik och en parallell UNet (GarmentNet) för att koda lågnivåfunktioner. I ComfyUI driver IDM-VTON-noden den virtuella provningsprocessen, vilket kräver indata som en mänsklig bild, poserepresentation, klädmask och plaggbild.

ComfyUI IDM-VTON Arbetsflöde

ComfyUI Workflow: IDM-VTON for Virtual Clothing Try-on
Vill du köra detta arbetsflöde?
  • Fullt operativa arbetsflöden
  • Inga saknade noder eller modeller
  • Inga manuella inställningar krävs
  • Innehåller fantastiska visuella

ComfyUI IDM-VTON Exempel

idm-vton-on-comfyui-realistic-virtual-clothing-try-on-1135

ComfyUI IDM-VTON Beskrivning

IDM-VTON, kort för "Improving Diffusion Models for Authentic Virtual Try-on in the Wild," är en innovativ diffusionsmodell som låter dig realistiskt prova plagg virtuellt med bara några få indata. Det som särskiljer IDM-VTON är dess förmåga att bevara de unika detaljerna och identiteten hos plaggen samtidigt som den genererar virtuella provningsresultat som ser otroligt autentiska ut.

1. Förstå IDM-VTON

I grunden är IDM-VTON en diffusionsmodell som är specifikt utformad för virtuell provning. För att använda den behöver du helt enkelt en representation av en person och ett plagg du vill prova. IDM-VTON gör sedan sitt magiska arbete och skapar ett resultat som ser ut som om personen faktiskt bär plagget. Den uppnår en nivå av plaggfidelitet och autenticitet som överträffar tidigare diffusionsbaserade virtuella provningsmetoder.

2. IDM-VTONs inre funktioner

Så, hur lyckas IDM-VTON med så realistisk virtuell provning? Hemligheten ligger i dess två huvudmoduler som arbetar tillsammans för att koda semantiken hos plaggindatan:

  1. Den första är en bildpromptadapter, eller IP-Adapter i korthet. Denna smarta komponent extraherar hög-nivå semantik av plagget - i huvudsak de nyckelkarakteristika som definierar dess utseende. Denna information smälts sedan in i korsuppmärksamhetslagret hos huvud-UNet diffusionsmodellen.
  2. Den andra modulen är en parallell UNet kallad GarmentNet. Dess uppgift är att koda lågnivåfunktionerna hos plagget - de små detaljerna som gör det unikt. Dessa funktioner smälts sedan in i självuppmärksamhetslagret hos huvud-UNet.

Men det är inte allt! IDM-VTON använder också detaljerade textuella prompts för både plagg och personindata. Dessa prompts ger ytterligare kontext som förbättrar autenticiteten hos det slutliga virtuella provningsresultatet.

3. Använda IDM-VTON i ComfyUI

3.1 Showens stjärna: IDM-VTON-noden

I ComfyUI är "IDM-VTON"-noden kraftpaketet som kör IDM-VTON diffusionsmodell och genererar den virtuella provningsutgången.

För att IDM-VTON-noden ska kunna göra sitt magiska arbete behöver den några nyckelindata:

  1. Pipeline: Detta är den laddade IDM-VTON diffusionspipen som driver hela den virtuella provningsprocessen.
  2. Human Input: En bild av personen som ska prova plagget virtuellt.
  3. Pose Input: En förprocessad DensePose-representation av det mänskliga indatan, vilket hjälper IDM-VTON att förstå personens pose och kroppens form.
  4. Mask Input: En binär mask som anger vilka delar av det mänskliga indatan som är kläder. Denna mask måste konverteras till ett lämpligt format.
  5. Garment Input: En bild av plagget som ska provas virtuellt.

3.2 Förbereda allt

För att få IDM-VTON-noden igång finns det några förberedelsesteg:

  1. Ladda människobilden: En LoadImage-nod används för att ladda bilden av personen. IDM-VTON
  2. Generera posebilden: Människobilden skickas genom en DensePosePreprocessor-nod, som beräknar den DensePose-representation som IDM-VTON behöver. IDM-VTON
  3. Skaffa maskbilden: Det finns två sätt att få klädmasken: IDM-VTON

a. Manuell maskering (Rekommenderas)

  • Högerklicka på den laddade människobilden och välj "Öppna i maskredigerare."
  • I maskredigerarens UI, maskera manuellt klädregionerna.

b. Automatisk maskering

  • Använd en GroundingDinoSAMSegment-nod för att automatiskt segmentera kläderna.
  • Ge noden en textbeskrivning av plagget (som "t-shirt").

Oavsett vilken metod du väljer måste den erhållna masken konverteras till en bild med en MaskToImage-nod, som sedan kopplas till "Mask Image"-indatan för IDM-VTON-noden.

  1. Ladda plaggbilden: Den används för att ladda bilden av plagget.
IDM-VTON

För en djupare inblick i IDM-VTON-modellen, missa inte originalartikeln, "". Och om du är intresserad av att använda IDM-VTON i ComfyUI, se till att kolla in de dedikerade noderna . Stort tack till forskarna och utvecklarna bakom dessa otroliga resurser.

Vill du ha fler ComfyUI arbetsflöden?

RunComfy

© Copyright 2024 RunComfy. Alla Rättigheter Förbehållna.

RunComfy är den främsta ComfyUI plattform, som erbjuder ComfyUI online miljö och tjänster, tillsammans med ComfyUI arbetsflöden med fantastiska visuella.