ComfyUI  >  Przepływy pracy  >  IDM-VTON | Wirtualne Przymiarki

IDM-VTON | Wirtualne Przymiarki

IDM-VTON, czyli Improving Diffusion Models for Authentic Virtual Try-on in the Wild, to przełomowy model dyfuzji, który pozwala na realistyczne wirtualne przymiarki odzieży. Zachowując unikalne detale i tożsamość odzieży, IDM-VTON generuje niezwykle autentyczne wyniki. Model wykorzystuje adapter obrazowy (IP-Adapter) do ekstrakcji wysokopoziomowej semantyki odzieży oraz równoległy UNet (GarmentNet) do kodowania cech niskopoziomowych. W ComfyUI, węzeł IDM-VTON napędza proces wirtualnej przymiarki, wymagając takich danych wejściowych jak obraz osoby, reprezentacja pozy, maska odzieży i obraz odzieży.

ComfyUI IDM-VTON Przepływ pracy

ComfyUI Workflow: IDM-VTON for Virtual Clothing Try-on
Chcesz uruchomić ten przepływ pracy?
  • W pełni funkcjonalne przepływy pracy
  • Brak brakujących węzłów lub modeli
  • Brak wymaganego ręcznego ustawiania
  • Cechuje się oszałamiającymi wizualizacjami

ComfyUI IDM-VTON Przykłady

idm-vton-on-comfyui-realistic-virtual-clothing-try-on-1135

ComfyUI IDM-VTON Opis

IDM-VTON, skrót od "Improving Diffusion Models for Authentic Virtual Try-on in the Wild," to innowacyjny model dyfuzji, który pozwala na realistyczne wirtualne przymiarki ubrań przy użyciu zaledwie kilku danych wejściowych. Co wyróżnia IDM-VTON, to jego zdolność do zachowania unikalnych detali i tożsamości odzieży, generując wyniki wirtualnych przymiarek wyglądające niezwykle autentycznie.

1. Zrozumienie IDM-VTON

W swojej istocie IDM-VTON to model dyfuzji specjalnie zaprojektowany do wirtualnych przymiarek. Aby go użyć, wystarczy, że posiadasz reprezentację osoby i odzieży, którą chcesz przymierzyć. IDM-VTON działa wtedy swoją magią, generując wynik, który wygląda, jakby osoba naprawdę nosiła tę odzież. Osiąga poziom wierności i autentyczności odzieży, który przewyższa wcześniejsze metody wirtualnych przymiarek oparte na dyfuzji.

2. Wewnętrzne Działanie IDM-VTON

Jak więc IDM-VTON osiąga tak realistyczne wirtualne przymiarki? Sekret tkwi w jego dwóch głównych modułach, które współpracują, aby zakodować semantykę wejścia odzieży:

  1. Pierwszy to adapter obrazowy, znany jako IP-Adapter. Ten sprytny komponent wyodrębnia wysokopoziomową semantykę odzieży - zasadniczo kluczowe cechy definiujące jej wygląd. Następnie łączy te informacje z warstwą cross-attention głównego modelu UNet.
  2. Drugi moduł to równoległy UNet zwany GarmentNet. Jego zadanie polega na kodowaniu niskopoziomowych cech odzieży - szczegółów, które czynią ją unikalną. Te cechy są następnie łączone z warstwą self-attention głównego UNet.

Ale to nie wszystko! IDM-VTON również wykorzystuje szczegółowe tekstowe podpowiedzi zarówno dla wejścia odzieży, jak i osoby. Te podpowiedzi dostarczają dodatkowego kontekstu, który zwiększa autentyczność końcowego wyniku wirtualnej przymiarki.

3. Wykorzystanie IDM-VTON w ComfyUI

3.1 Gwiazda Pokazu: Węzeł IDM-VTON

W ComfyUI "IDM-VTON" to węzeł, który napędza model dyfuzji IDM-VTON i generuje wynik wirtualnej przymiarki.

Aby węzeł IDM-VTON mógł działać, potrzebuje kilku kluczowych danych wejściowych:

  1. Pipeline: Jest to załadowany pipeline dyfuzji IDM-VTON, który napędza cały proces wirtualnej przymiarki.
  2. Human Input: Obraz osoby, która będzie wirtualnie przymierzać odzież.
  3. Pose Input: Wstępnie przetworzona reprezentacja DensePose wejścia osoby, która pomaga IDM-VTON zrozumieć pozę i kształt ciała osoby.
  4. Mask Input: Maska binarna wskazująca, które części wejścia osoby są odzieżą. Ta maska musi być przekonwertowana do odpowiedniego formatu.
  5. Garment Input: Obraz odzieży do wirtualnej przymiarki.

3.2 Przygotowanie Wszystkiego

Aby uruchomić węzeł IDM-VTON, istnieje kilka kroków przygotowawczych:

  1. Ładowanie Obrazu Osoby: Używany jest węzeł LoadImage do załadowania obrazu osoby. IDM-VTON
  2. Generowanie Obrazu Pozy: Obraz osoby jest przetwarzany przez węzeł DensePosePreprocessor, który oblicza reprezentację DensePose potrzebną IDM-VTON. IDM-VTON
  3. Uzyskiwanie Obrazu Maski: Istnieją dwa sposoby na zdobycie maski odzieży: IDM-VTON

a. Ręczne Maskowanie (Zalecane)

  • Kliknij prawym przyciskiem myszy na załadowany obraz osoby i wybierz "Otwórz w Edytorze Masek."
  • W interfejsie edytora masek ręcznie zamaskuj obszary odzieży.

b. Automatyczne Maskowanie

  • Użyj węzła GroundingDinoSAMSegment do automatycznego segmentowania odzieży.
  • Podaj węzłowi tekstowy opis odzieży (np. "t-shirt").

Niezależnie od wybranej metody, uzyskana maska musi zostać przekonwertowana na obraz za pomocą węzła MaskToImage, który następnie jest podłączany do wejścia "Mask Image" węzła IDM-VTON.

  1. Ładowanie Obrazu Odzieży: Służy do załadowania obrazu odzieży.
IDM-VTON

Aby zgłębić model IDM-VTON, nie przegap oryginalnego artykułu "". A jeśli jesteś zainteresowany używaniem IDM-VTON w ComfyUI, koniecznie sprawdź dedykowane węzły . Wielkie podziękowania dla badaczy i deweloperów stojących za tymi niesamowitymi zasobami.

Chcesz więcej przepływów pracy ComfyUI?

RunComfy

© Prawa autorskie 2024 RunComfy. Wszelkie prawa zastrzeżone.

RunComfy jest wiodącą ComfyUI platformą, oferującą ComfyUI online środowisko i usługi, wraz z przepływami pracy ComfyUI cechującymi się oszałamiającymi wizualizacjami.