Este flujo de trabajo de ComfyUI incorpora el modelo CCSR (Content Consistent Super-Resolution), diseñado para mejorar la consistencia del contenido en tareas de superresolución. Después de la aplicación del modelo CCSR, hay un paso opcional que implica ampliar una vez más agregando ruido y utilizando el modelo de recoloración de ControlNet. Esta es una característica experimental para que los usuarios la exploren.
Por defecto, este flujo de trabajo está configurado para la ampliación de imágenes. Para ampliar videos, simplemente reemplace "load image" con "load video" y cambie "save image" a "combine video".
Los modelos de difusión latente preentrenados han sido reconocidos por su potencial para mejorar la calidad perceptual de los resultados de superresolución de imágenes (SR). Sin embargo, estos modelos a menudo producen resultados variables para imágenes idénticas de baja resolución en diferentes condiciones de ruido. Esta variabilidad, aunque ventajosa para la generación de imágenes a partir de texto, plantea desafíos para las tareas de SR, que exigen consistencia en la preservación del contenido.
Para mejorar la confiabilidad de la SR basada en difusión previa, CCSR (Content Consistent Super-Resolution) utiliza una estrategia que combina modelos de difusión para refinar las estructuras de las imágenes con redes generativas adversarias (GANs) para mejorar los detalles finos. Introduce una estrategia de aprendizaje de pasos de tiempo no uniformes para entrenar una red de difusión compacta. Esta red reconstruye de manera eficiente y estable las estructuras principales de una imagen, mientras que el decodificador preentrenado de un autoencoder variacional (VAE) se ajusta finamente mediante entrenamiento adversario para mejorar los detalles. Este enfoque ayuda a CCSR a reducir notablemente la estocasticidad asociada con los métodos de SR basados en difusión previa, mejorando así la consistencia del contenido en los resultados de SR y acelerando el proceso de generación de imágenes.
real-world_ccsr.ckpt
: Modelo CCSR para la restauración de imágenes del mundo real.
bicubic_ccsr.ckpt
: Modelo CCSR para la restauración de imágenes bicúbicas.
-scale_by
: Este parámetro especifica la escala de superresolución, determinando cuánto se amplían las imágenes o videos de entrada.
-steps
: Se refiere al número de pasos en el proceso de difusión. Controla cuántas iteraciones realiza el modelo para refinar los detalles y estructuras de la imagen.
-t_max
y -t_min
: Estos parámetros establecen los umbrales máximo y mínimo para la estrategia de aprendizaje de pasos de tiempo no uniformes utilizada en el modelo CCSR.
-sampling_method
:
CCSR (Normal, Sin Mosaicos):
Este enfoque utiliza un método de muestreo normal y sin mosaicos. Es sencillo y no divide la imagen en mosaicos para su procesamiento. Si bien esto puede ser efectivo para garantizar la consistencia del contenido en toda la imagen, también consume mucha VRAM. Este método es más adecuado para escenarios donde hay abundante VRAM y se requiere la mayor consistencia posible en toda la imagen.CCSR_Tiled_MixDiff:
Este enfoque en mosaicos procesa cada mosaico de la imagen por separado, lo que ayuda a administrar el uso de VRAM de manera más eficiente al no requerir que la imagen completa esté en la memoria a la vez. Sin embargo, una desventaja notable es la posibilidad de costuras visibles donde se unen los mosaicos, ya que cada mosaico se procesa de forma independiente, lo que lleva a posibles inconsistencias en los bordes de los mosaicos.CCSR_Tiled_VAE_Gaussian_Weights
: Este método tiene como objetivo solucionar el problema de las costuras observado en el enfoque CCSR_Tiled_MixDiff mediante el uso de pesos gaussianos para mezclar los mosaicos de manera más suave. Esto puede reducir significativamente la visibilidad de las costuras, proporcionando una apariencia más consistente en los bordes de los mosaicos. Sin embargo, esta mezcla a veces puede ser menos precisa y podría introducir ruido adicional en la imagen superresuelta, afectando la calidad general de la imagen.-tile_size
, y -tile_stride
: Estos parámetros son parte de la función de difusión en mosaicos, que se integra en CCSR para ahorrar memoria de la GPU durante la inferencia. El mosaico se refiere a procesar la imagen en parches en lugar de en su totalidad, lo que puede ser más eficiente en términos de memoria. -tile_size
especifica el tamaño de cada mosaico y -tile_diffusion_stride
controla el paso o superposición entre mosaicos.
-color_fix_type
: Este parámetro indica el método utilizado para la corrección o el ajuste de color en el proceso de superresolución. adain
es uno de los métodos empleados para la corrección de color para garantizar que los colores en la imagen superresuelta coincidan lo más cerca posible con la imagen original.
La superresolución de imágenes, destinada a recuperar imágenes de alta resolución (HR) a partir de sus contrapartes de baja resolución (LR), aborda el desafío que plantea la degradación de la calidad durante la captura de imágenes. Si bien las técnicas existentes de SR basadas en el aprendizaje profundo se han centrado principalmente en la optimización de la arquitectura de la red neuronal contra degradaciones simples y conocidas, se quedan cortas a la hora de manejar las complejas degradaciones encontradas en escenarios del mundo real. Los avances recientes han incluido el desarrollo de conjuntos de datos y métodos que simulan degradaciones de imágenes más complejas para aproximarse a estos desafíos del mundo real.
El estudio también destaca las limitaciones de las funciones de pérdida tradicionales, como ℓ1 y MSE, que tienden a producir detalles demasiado suaves en los resultados de SR. Aunque la pérdida SSIM y la pérdida perceptual mitigan este problema hasta cierto punto, lograr detalles de imagen realistas sigue siendo un desafío. Los GANs han surgido como un enfoque exitoso para mejorar los detalles de las imágenes, pero su aplicación a imágenes naturales a menudo resulta en artefactos visuales debido a la naturaleza diversa de las escenas naturales.
Los Modelos Probabilísticos de Difusión de Desruidizado (DDPMs) y sus variantes han mostrado una promesa significativa, superando a los GANs en la generación de previos diversos y de alta calidad para la restauración de imágenes, incluida la SR. Sin embargo, estos modelos han tenido dificultades para adaptarse a las degradaciones complejas y variadas presentes en las aplicaciones del mundo real.
El enfoque CCSR busca abordar estos desafíos al garantizar resultados de superresolución estables y consistentes. Aprovecha los previos de difusión para generar estructuras coherentes y emplea entrenamiento generativo adversario para mejorar los detalles y las texturas. Al adoptar una estrategia de muestreo de pasos de tiempo no uniforme y ajustar finamente un decodificador VAE preentrenado, CCSR logra resultados de SR estables y consistentes con el contenido de manera más eficiente que los métodos existentes de SR basados en difusión previa.
Para obtener más información, consúltelo en o en el
© Derechos de autor 2024 RunComfy. Todos los derechos reservados.