ComfyUI > Workflows > IDM-VTON | Virtuelles Anprobieren

IDM-VTON | Virtuelles Anprobieren

IDM-VTON, oder Improving Diffusion Models for Authentic Virtual Try-on in the Wild, ist ein bahnbrechendes Diffusionsmodell, das ein realistisches virtuelles Anprobieren von Kleidungsstücken ermöglicht. Durch die Bewahrung der einzigartigen Details und Identität von Kleidungsstücken erzeugt IDM-VTON unglaublich authentische Ergebnisse. Das Modell verwendet einen Bildprompt-Adapter (IP-Adapter), um hochgradige Kleidungssemantiken zu extrahieren, und ein paralleles UNet (GarmentNet), um niedriggradige Merkmale zu kodieren. In ComfyUI treibt der IDM-VTON-Knoten den virtuellen Anprobeprozess an und erfordert Eingaben wie ein menschliches Bild, eine Pose-Darstellung, eine Kleidungsmaske und ein Kleidungsbild.

ComfyUI IDM-VTON Arbeitsablauf

ComfyUI Workflow: IDM-VTON for Virtual Clothing Try-on

Möchtest du diesen Workflow ausführen?

Voll funktionsfähige Workflows
Keine fehlenden Nodes oder Modelle
Keine manuelle Einrichtung erforderlich
Beeindruckende Visualisierungen

ComfyUI IDM-VTON Beispiele

idm-vton-on-comfyui-realistic-virtual-clothing-try-on-1135

ComfyUI IDM-VTON Beschreibung

IDM-VTON, kurz für "Improving Diffusion Models for Authentic Virtual Try-on in the Wild", ist ein innovatives Diffusionsmodell, das es Ihnen ermöglicht, Kleidungsstücke realistisch virtuell anzuprobieren, indem Sie nur wenige Eingaben verwenden. Was IDM-VTON auszeichnet, ist seine Fähigkeit, die einzigartigen Details und die Identität der Kleidungsstücke zu bewahren und gleichzeitig virtuelle Anprobierergebnisse zu erzeugen, die unglaublich authentisch aussehen.

1. Verständnis von IDM-VTON

Im Kern ist IDM-VTON ein Diffusionsmodell, das speziell für das virtuelle Anprobieren entwickelt wurde. Um es zu verwenden, benötigen Sie lediglich eine Darstellung einer Person und ein Kleidungsstück, das Sie anprobieren möchten. IDM-VTON vollbringt dann seine Magie und erzeugt ein Ergebnis, das aussieht, als würde die Person das Kleidungsstück tatsächlich tragen. Es erreicht ein Maß an Kleidungsgenauigkeit und Authentizität, das frühere diffusionsbasierte virtuelle Anprobiermethoden übertrifft.

2. Die Funktionsweise von IDM-VTON

Wie gelingt es IDM-VTON, solch realistische virtuelle Anproben zu ermöglichen? Das Geheimnis liegt in seinen zwei Hauptmodulen, die zusammenarbeiten, um die Semantik der Kleidereingabe zu kodieren:

Das erste ist ein Bildprompt-Adapter, oder kurz IP-Adapter. Diese clevere Komponente extrahiert die hochgradigen Semantiken des Kleidungsstücks - im Wesentlichen die Schlüsselmöglichkeiten, die sein Aussehen definieren. Diese Informationen werden dann in die Cross-Attention-Schicht des Haupt-UNet-Diffusionsmodells integriert.
Das zweite Modul ist ein paralleles UNet namens GarmentNet. Seine Aufgabe ist es, die niedriggradigen Merkmale des Kleidungsstücks zu kodieren - die kleinen Details, die es einzigartig machen. Diese Merkmale werden dann in die Self-Attention-Schicht des Haupt-UNet integriert.

Aber das ist noch nicht alles! IDM-VTON nutzt auch detaillierte Textprompts für sowohl die Kleidungs- als auch die Personeneingaben. Diese Prompts bieten zusätzlichen Kontext, der die Authentizität des endgültigen virtuellen Anprobierergebnisses verbessert.

3. IDM-VTON in ComfyUI zum Einsatz bringen

3.1 Der Star der Show: Der IDM-VTON-Knoten

In ComfyUI ist der "IDM-VTON"-Knoten das Kraftpaket, das das IDM-VTON-Diffusionsmodell ausführt und die virtuelle Anprobierausgabe generiert.

Damit der IDM-VTON-Knoten seine Magie entfalten kann, benötigt er einige wichtige Eingaben:

Pipeline: Dies ist die geladene IDM-VTON-Diffusionspipeline, die den gesamten virtuellen Anprobeprozess antreibt.
Menschliche Eingabe: Ein Bild der Person, die das Kleidungsstück virtuell anprobieren wird.
Pose-Eingabe: Eine vorverarbeitete DensePose-Darstellung der menschlichen Eingabe, die IDM-VTON hilft, die Pose und Körperform der Person zu verstehen.
Masken-Eingabe: Eine binäre Maske, die anzeigt, welche Teile der menschlichen Eingabe Kleidung sind. Diese Maske muss in ein geeignetes Format umgewandelt werden.
Kleidungs-Eingabe: Ein Bild des Kleidungsstücks, das virtuell anprobiert werden soll.

3.2 Alles vorbereiten

Um den IDM-VTON-Knoten in Betrieb zu nehmen, gibt es einige Vorbereitungsschritte:

Laden des menschlichen Bildes: Ein LoadImage-Knoten wird verwendet, um das Bild der Person zu laden.
Erzeugen des Pose-Bildes: Das menschliche Bild wird durch einen DensePosePreprocessor-Knoten geleitet, der die benötigte DensePose-Darstellung berechnet, die IDM-VTON benötigt.
Erhalten des Maskenbildes: Es gibt zwei Möglichkeiten, die Kleidungsmaske zu erhalten:

a. Manuelles Maskieren (empfohlen)

Rechtsklicken Sie auf das geladene menschliche Bild und wählen Sie "In Masken-Editor öffnen."
Maskieren Sie im Masken-Editor-UI manuell die Kleidungsbereiche.

b. Automatisches Maskieren

Verwenden Sie einen GroundingDinoSAMSegment-Knoten, um die Kleidung automatisch zu segmentieren.
Geben Sie dem Knoten eine Textbeschreibung des Kleidungsstücks (wie "T-Shirt").

Unabhängig von der gewählten Methode muss die erhaltene Maske in ein Bild umgewandelt werden, indem ein MaskToImage-Knoten verwendet wird, der dann mit dem "Maskenbild"-Eingang des IDM-VTON-Knotens verbunden wird.

Laden des Kleidungsbildes: Es wird verwendet, um das Bild des Kleidungsstücks zu laden.

Für einen tieferen Einblick in das IDM-VTON-Modell sollten Sie das Originalpapier "" nicht verpassen. Und wenn Sie daran interessiert sind, IDM-VTON in ComfyUI zu verwenden, schauen Sie sich die dedizierten Knoten an. Ein großer Dank geht an die Forscher und Entwickler hinter diesen unglaublichen Ressourcen.

Möchtest du mehr ComfyUI Workflows?

FLUX IPAdapter V2 | XLabs

Erkunden Sie das XLabs FLUX IPAdapter V2 Modell im Vergleich zu V1 für Ihre kreativen Ziele.

Produkt Beleuchtungs-Video | Vid2Vid

Geben Sie ein Video und Lichtmasken ein, um ein Beleuchtungsvideo zu erstellen

CCSR | Konsistenter Bild-/Video-Upscaler

Das CCSR-Modell verbessert das Upscaling von Bildern und Videos durch stärkere Fokussierung auf Inhaltsbeständigkeit.

Produkt-Neubeleuchtung | Magnific.AI Relight Alternative

Heben Sie Ihre Produktfotografie mühelos auf ein neues Niveau, eine erstklassige Alternative zu Magnific.AI Relight.

SVD (Stable Video Diffusion) + SD | Text zu Video

Integrieren Sie Stable Diffusion und Stable Video Diffusion, um Text direkt in ein Video umzuwandeln.

LivePortrait | Porträts animieren | Img2Vid

Animieren Sie Porträts mit Gesichtsausdrücken und Bewegungen aus einem einzigen Bild und Referenzvideo.

AnimateDiff + QR Code ControlNet | Visuelle Effekte (VFX)

Erstellen Sie fesselnde visuelle Effekte mit AnimateDiff und ControlNet (mit QRCode Monster und Lineart).

ReActor | Schneller Gesichtsaustausch

Mit ComfyUI ReActor können Sie ganz einfach die Gesichter von einem oder mehreren Charakteren in Bildern oder Videos austauschen.