ComfyUI  >  Рабочие процессы  >  IDM-VTON | Виртуальная примерка

IDM-VTON | Виртуальная примерка

IDM-VTON, или Improving Diffusion Models for Authentic Virtual Try-on in the Wild, — это революционная модель диффузии, позволяющая реалистично примерять виртуальную одежду. Сохраняя уникальные детали и идентичность одежды, IDM-VTON генерирует невероятно аутентичные результаты. Модель использует адаптер подсказок изображений (IP-Adapter) для извлечения высокоуровневой семантики одежды и параллельный UNet (GarmentNet) для кодирования низкоуровневых особенностей. В ComfyUI узел IDM-VTON управляет процессом виртуальной примерки, требуя такие входные данные, как изображение человека, представление позы, маска одежды и изображение одежды.

ComfyUI IDM-VTON Рабочий процесс

ComfyUI Workflow: IDM-VTON for Virtual Clothing Try-on
Хотите запустить этот рабочий процесс?
  • Полностью функциональные рабочие процессы
  • Нет недостающих узлов или моделей
  • Не требуется ручная настройка
  • Отличается потрясающей визуализацией

ComfyUI IDM-VTON Примеры

idm-vton-on-comfyui-realistic-virtual-clothing-try-on-1135

ComfyUI IDM-VTON Описание

IDM-VTON, сокращение от "Improving Diffusion Models for Authentic Virtual Try-on in the Wild," — это инновационная модель диффузии, которая позволяет вам реалистично примерять одежду виртуально, используя всего несколько входных данных. Что отличает IDM-VTON, так это его способность сохранять уникальные детали и идентичность одежды, генерируя результаты виртуальной примерки, которые выглядят невероятно аутентично.

1. Понимание IDM-VTON

В основе IDM-VTON лежит модель диффузии, специально разработанная для виртуальной примерки. Чтобы использовать её, вам просто нужно представление человека и одежды, которую вы хотите примерить. IDM-VTON затем творит чудеса, создавая результат, который выглядит так, будто человек действительно носит одежду. Она достигает уровня точности и аутентичности одежды, который превосходит предыдущие методы виртуальной примерки на основе диффузии.

2. Внутренние механизмы IDM-VTON

Так как же IDM-VTON удается создавать такую реалистичную виртуальную примерку? Секрет кроется в двух основных модулях, которые работают вместе для кодирования семантики входной одежды:

  1. Первый — это адаптер подсказок изображений, сокращенно IP-Adapter. Этот умный компонент извлекает высокоуровневую семантику одежды — по сути, ключевые характеристики, которые определяют её внешний вид. Затем эта информация внедряется в слой перекрестного внимания основной модели диффузии UNet.
  2. Второй модуль — это параллельный UNet под названием GarmentNet. Его задача — кодировать низкоуровневые особенности одежды — мельчайшие детали, которые делают её уникальной. Эти особенности затем внедряются в слой самовнимания основной модели UNet.

Но это еще не всё! IDM-VTON также использует детализированные текстовые подсказки как для одежды, так и для входных данных человека. Эти подсказки предоставляют дополнительный контекст, который усиливает аутентичность окончательного результата виртуальной примерки.

3. Применение IDM-VTON в ComfyUI

3.1 Звезда шоу: Узел IDM-VTON

В ComfyUI узел "IDM-VTON" — это мощный инструмент, который запускает модель диффузии IDM-VTON и генерирует результат виртуальной примерки.

Чтобы узел IDM-VTON творил чудеса, ему нужно несколько ключевых входных данных:

  1. Pipeline: Это загруженный конвейер диффузии IDM-VTON, который управляет всем процессом виртуальной примерки.
  2. Human Input: Изображение человека, который будет виртуально примерять одежду.
  3. Pose Input: Предварительно обработанное представление DensePose входных данных человека, которое помогает IDM-VTON понять позу и форму тела человека.
  4. Mask Input: Бинарная маска, указывающая, какие части входных данных человека являются одеждой. Эта маска должна быть преобразована в соответствующий формат.
  5. Garment Input: Изображение одежды, которую нужно виртуально примерить.

3.2 Подготовка ко всему

Чтобы запустить узел IDM-VTON, необходимо выполнить несколько подготовительных шагов:

  1. Загрузка изображения человека: Узел LoadImage используется для загрузки изображения человека. IDM-VTON
  2. Генерация изображения позы: Изображение человека проходит через узел DensePosePreprocessor, который вычисляет представление DensePose, необходимое IDM-VTON. IDM-VTON
  3. Получение изображения маски: Существует два способа получить маску одежды: IDM-VTON

a. Ручное маскирование (рекомендуется)

  • Щелкните правой кнопкой мыши на загруженном изображении человека и выберите "Открыть в редакторе масок."
  • В интерфейсе редактора масок вручную замаскируйте области одежды.

b. Автоматическое маскирование

  • Используйте узел GroundingDinoSAMSegment для автоматического сегментирования одежды.
  • Задайте узлу текстовое описание одежды (например, "футболка").

Какой бы метод вы ни выбрали, полученная маска должна быть преобразована в изображение с помощью узла MaskToImage, который затем подключается ко входу "Mask Image" узла IDM-VTON.

  1. Загрузка изображения одежды: Используется для загрузки изображения одежды.
IDM-VTON

Для более глубокого изучения модели IDM-VTON не пропустите оригинальную статью "". А если вас интересует использование IDM-VTON в ComfyUI, обязательно ознакомьтесь с выделенными узлами . Огромная благодарность исследователям и разработчикам за эти невероятные ресурсы.

Хотите больше рабочих процессов ComfyUI?

RunComfy

© Авторское право 2024 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией.