IDM-VTON | 虚拟试穿
IDM-VTON,或称为 "Improving Diffusion Models for Authentic Virtual Try-on in the Wild",是一个突破性的扩散模型,允许进行逼真的虚拟服装试穿。通过保留服装的独特细节和身份,IDM-VTON 生成非常真实的效果。该模型利用图像提示适配器(IP-Adapter)提取高层服装语义,并使用并行 UNet(GarmentNet)编码低层特征。在 ComfyUI 中,IDM-VTON 节点推动虚拟试穿过程,需要输入如人像、姿态表示、服装遮罩和服装图片。ComfyUI IDM-VTON 工作流程
ComfyUI IDM-VTON 示例

ComfyUI IDM-VTON 描述
IDM-VTON,简称为 "Improving Diffusion Models for Authentic Virtual Try-on in the Wild",是一种创新的扩散模型,只需少量输入即可实现逼真的虚拟服装试穿。IDM-VTON 的独特之处在于能够保留服装的独特细节和身份,同时生成看起来非常真实的虚拟试穿效果。
1. 理解 IDM-VTON
IDM-VTON 的核心是一个专为虚拟试穿设计的扩散模型。使用它时,您只需提供一个人的表示和您想试穿的服装。然后 IDM-VTON 发挥其魔力,呈现出看起来像是该人实际穿着该服装的效果。它实现了超越以往基于扩散的虚拟试穿方法的服装保真度和真实性。
2. IDM-VTON 的内部运作
那么,IDM-VTON 如何实现如此逼真的虚拟试穿呢?秘诀在于其两个主要模块,它们共同编码服装输入的语义:
- 第一个是图像提示适配器,简称为 IP-Adapter。这个巧妙的组件提取服装的高层语义——本质上是定义其外观的关键特征。然后将这些信息融合到主 UNet 扩散模型的交叉注意力层中。
- 第二个模块是一个并行 UNet,称为 GarmentNet。它的任务是编码服装的低层特征——使其独特的细节。这些特征随后被融合到主 UNet 的自注意力层中。
但这还不是全部!IDM-VTON 还使用详细的文本提示为服装和人像输入提供额外的上下文,以增强最终虚拟试穿结果的真实性。
3. 在 ComfyUI 中应用 IDM-VTON
3.1 节目的明星:IDM-VTON 节点
在 ComfyUI 中,"IDM-VTON" 节点是运行 IDM-VTON 扩散模型并生成虚拟试穿输出的核心。
要让 IDM-VTON 节点发挥其魔力,需要一些关键输入:
- Pipeline:这是加载的 IDM-VTON 扩散管道,支持整个虚拟试穿过程。
- Human Input:要进行虚拟试穿的人的图像。
- Pose Input:经过预处理的 DensePose 表示,帮助 IDM-VTON 理解人的姿态和体型。
- Mask Input:一个二进制遮罩,指示人像输入中的哪些部分是服装。此遮罩需要转换为适当的格式。
- Garment Input:要虚拟试穿的服装的图像。
3.2 准备工作
要启动 IDM-VTON 节点,需要进行一些准备步骤:
- 加载人像:使用 LoadImage 节点加载人像。
- 生成姿态图像:人像通过 DensePosePreprocessor 节点,计算 IDM-VTON 所需的 DensePose 表示。
- 获取遮罩图像:有两种方法获取服装遮罩:
a. 手动遮罩(推荐)
- 右键单击加载的人像并选择 "Open in Mask Editor."
- 在遮罩编辑器 UI 中手动遮罩服装区域。
b. 自动遮罩
- 使用 GroundingDinoSAMSegment 节点自动分割服装。
- 用文本描述服装(如 "t-shirt")提示节点。
无论选择哪种方法,获得的遮罩需要使用 MaskToImage 节点转换为图像,然后连接到 IDM-VTON 节点的 "Mask Image" 输入。
- 加载服装图像:用于加载服装图像。

想更深入了解 IDM-VTON 模型,千万不要错过原始论文,""。如果您有兴趣在 ComfyUI 中使用 IDM-VTON,一定要查看专用节点 。感谢这些出色资源背后的研究人员和开发人员。