ComfyUI > Рабочие процессы > IDM-VTON | Виртуальная примерка

IDM-VTON | Виртуальная примерка

IDM-VTON, или Improving Diffusion Models for Authentic Virtual Try-on in the Wild, — это революционная модель диффузии, позволяющая реалистично примерять виртуальную одежду. Сохраняя уникальные детали и идентичность одежды, IDM-VTON генерирует невероятно аутентичные результаты. Модель использует адаптер подсказок изображений (IP-Adapter) для извлечения высокоуровневой семантики одежды и параллельный UNet (GarmentNet) для кодирования низкоуровневых особенностей. В ComfyUI узел IDM-VTON управляет процессом виртуальной примерки, требуя такие входные данные, как изображение человека, представление позы, маска одежды и изображение одежды.

ComfyUI IDM-VTON Рабочий процесс

ComfyUI Workflow: IDM-VTON for Virtual Clothing Try-on

Хотите запустить этот рабочий процесс?

Полностью функциональные рабочие процессы
Нет недостающих узлов или моделей
Не требуется ручная настройка
Отличается потрясающей визуализацией

ComfyUI IDM-VTON Примеры

idm-vton-on-comfyui-realistic-virtual-clothing-try-on-1135

ComfyUI IDM-VTON Описание

IDM-VTON, сокращение от "Improving Diffusion Models for Authentic Virtual Try-on in the Wild," — это инновационная модель диффузии, которая позволяет вам реалистично примерять одежду виртуально, используя всего несколько входных данных. Что отличает IDM-VTON, так это его способность сохранять уникальные детали и идентичность одежды, генерируя результаты виртуальной примерки, которые выглядят невероятно аутентично.

1. Понимание IDM-VTON

В основе IDM-VTON лежит модель диффузии, специально разработанная для виртуальной примерки. Чтобы использовать её, вам просто нужно представление человека и одежды, которую вы хотите примерить. IDM-VTON затем творит чудеса, создавая результат, который выглядит так, будто человек действительно носит одежду. Она достигает уровня точности и аутентичности одежды, который превосходит предыдущие методы виртуальной примерки на основе диффузии.

2. Внутренние механизмы IDM-VTON

Так как же IDM-VTON удается создавать такую реалистичную виртуальную примерку? Секрет кроется в двух основных модулях, которые работают вместе для кодирования семантики входной одежды:

Первый — это адаптер подсказок изображений, сокращенно IP-Adapter. Этот умный компонент извлекает высокоуровневую семантику одежды — по сути, ключевые характеристики, которые определяют её внешний вид. Затем эта информация внедряется в слой перекрестного внимания основной модели диффузии UNet.
Второй модуль — это параллельный UNet под названием GarmentNet. Его задача — кодировать низкоуровневые особенности одежды — мельчайшие детали, которые делают её уникальной. Эти особенности затем внедряются в слой самовнимания основной модели UNet.

Но это еще не всё! IDM-VTON также использует детализированные текстовые подсказки как для одежды, так и для входных данных человека. Эти подсказки предоставляют дополнительный контекст, который усиливает аутентичность окончательного результата виртуальной примерки.

3. Применение IDM-VTON в ComfyUI

3.1 Звезда шоу: Узел IDM-VTON

В ComfyUI узел "IDM-VTON" — это мощный инструмент, который запускает модель диффузии IDM-VTON и генерирует результат виртуальной примерки.

Чтобы узел IDM-VTON творил чудеса, ему нужно несколько ключевых входных данных:

Pipeline: Это загруженный конвейер диффузии IDM-VTON, который управляет всем процессом виртуальной примерки.
Human Input: Изображение человека, который будет виртуально примерять одежду.
Pose Input: Предварительно обработанное представление DensePose входных данных человека, которое помогает IDM-VTON понять позу и форму тела человека.
Mask Input: Бинарная маска, указывающая, какие части входных данных человека являются одеждой. Эта маска должна быть преобразована в соответствующий формат.
Garment Input: Изображение одежды, которую нужно виртуально примерить.

3.2 Подготовка ко всему

Чтобы запустить узел IDM-VTON, необходимо выполнить несколько подготовительных шагов:

Загрузка изображения человека: Узел LoadImage используется для загрузки изображения человека.
Генерация изображения позы: Изображение человека проходит через узел DensePosePreprocessor, который вычисляет представление DensePose, необходимое IDM-VTON.
Получение изображения маски: Существует два способа получить маску одежды:

a. Ручное маскирование (рекомендуется)

Щелкните правой кнопкой мыши на загруженном изображении человека и выберите "Открыть в редакторе масок."
В интерфейсе редактора масок вручную замаскируйте области одежды.

b. Автоматическое маскирование

Используйте узел GroundingDinoSAMSegment для автоматического сегментирования одежды.
Задайте узлу текстовое описание одежды (например, "футболка").

Какой бы метод вы ни выбрали, полученная маска должна быть преобразована в изображение с помощью узла MaskToImage, который затем подключается ко входу "Mask Image" узла IDM-VTON.

Загрузка изображения одежды: Используется для загрузки изображения одежды.

Для более глубокого изучения модели IDM-VTON не пропустите оригинальную статью "". А если вас интересует использование IDM-VTON в ComfyUI, обязательно ознакомьтесь с выделенными узлами . Огромная благодарность исследователям и разработчикам за эти невероятные ресурсы.

Хотите больше рабочих процессов ComfyUI?

FLUX Inpainting | Бесшовное редактирование изображений

Легко заполняйте, удаляйте и улучшайте изображения, бесшовно интегрируя новый контент.

Stable Diffusion 3.5 vs FLUX.1

Сравните Stable Diffusion 3.5 и FLUX.1 в одном рабочем процессе ComfyUI.

Face to Many | 3D, Emoji, Pixel, Clay, Toy, Video game

использует модели LoRA, ControlNet и InstantID для продвинутых преобразований лица в множество стилей

Flux Fill | Inpaint и Outpaint

Официальные Flux Tools - Flux Fill для Inpainting и Outpainting

CogVideoX-5B | Продвинутая Модель Текст-Видео

CogVideoX-5B: Продвинутая модель текст-видео для генерации высококачественных видео.

AnimateDiff + Dynamic Prompts | Текст в видео

Используйте Dynamic Prompts (Wildcards), Animatediff и IPAdapter для создания динамических анимаций или GIF.

ComfyUI Img2Vid | Анимация морфинга

Анимация морфинга с модулями AnimateDiff LCM, IPAdapter, QRCode ControlNet и Custom Mask.

IPAdapter Plus (V2) Attention Mask | Image to Video

Используйте Attention Mask IPAdapter Plus для точного контроля процесса создания изображений.