ComfyUI  >  Workflow  >  CCSR | Upscaler coerente di immagini/video

CCSR | Upscaler coerente di immagini/video

L'integrazione del modello CCSR (Content Consistent Super-Resolution) all'interno di questo flusso di lavoro di upscaling ComfyUI migliora significativamente l'upscaling di immagini e video. CCSR combina modelli di diffusione con GAN (Generative Adversarial Networks) per perfezionare le strutture delle immagini e migliorare i dettagli fini, superando efficacemente i limiti dei metodi di upscaling tradizionali. Dando priorità alla coerenza dei contenuti, CCSR riduce al minimo la variabilità dei risultati, offrendo un processo di super-risoluzione stabile ed efficiente. Inoltre, il flusso di lavoro di upscaling ComfyUI incorpora un passaggio opzionale dopo l'applicazione di CCSR, che prevede un ulteriore upscaling aggiungendo rumore e utilizzando il modello ControlNet recolor. Questa funzione sperimentale è disponibile per l'esplorazione.

ComfyUI CCSR Workflow

ComfyUI CCSR | ComfyUI Upscale Workflow
Vuoi eseguire questo workflow?
  • Workflow completamente operativi
  • Nessun nodo o modello mancante
  • Nessuna configurazione manuale richiesta
  • Presenta visuali mozzafiato

ComfyUI CCSR Esempi

ComfyUI CCSR Descrizione

1. ComfyUI CCSR | Flusso di lavoro di upscaling ComfyUI

Questo flusso di lavoro ComfyUI incorpora il modello CCSR (Content Consistent Super-Resolution), progettato per migliorare la coerenza dei contenuti nelle attività di super-risoluzione. Dopo l'applicazione del modello CCSR, c'è un passaggio opzionale che prevede un ulteriore upscaling aggiungendo rumore e utilizzando il modello ControlNet recolor. Questa è una funzione sperimentale che gli utenti possono esplorare.

Per impostazione predefinita, questo flusso di lavoro è configurato per l'upscaling delle immagini. Per eseguire l'upscaling dei video, basta sostituire "load image" con "load video" e cambiare "save image" in "combine video".

2. Introduzione a CCSR

I modelli di diffusione latente pre-addestrati sono stati riconosciuti per il loro potenziale nel migliorare la qualità percettiva dei risultati di super-risoluzione (SR) delle immagini. Tuttavia, questi modelli spesso producono risultati variabili per identiche immagini a bassa risoluzione in diverse condizioni di rumore. Questa variabilità, sebbene vantaggiosa per la generazione da testo a immagine, pone sfide per le attività di SR, che richiedono coerenza nella conservazione dei contenuti.

Per migliorare l'affidabilità della SR basata su prior di diffusione, CCSR (Content Consistent Super-Resolution) utilizza una strategia che combina modelli di diffusione per perfezionare le strutture delle immagini con reti avversarie generative (GAN) per migliorare i dettagli fini. Introduce una strategia di apprendimento non uniforme dei timestep per addestrare una rete di diffusione compatta. Questa rete ricostruisce in modo efficiente e stabile le strutture principali di un'immagine, mentre il decoder pre-addestrato di un auto-encoder variazionale (VAE) viene messo a punto mediante addestramento avversario per il miglioramento dei dettagli. Questo approccio aiuta CCSR a ridurre notevolmente la stocasticità associata ai metodi SR basati su prior di diffusione, migliorando così la coerenza dei contenuti nei risultati SR e accelerando il processo di generazione delle immagini.

3. Come usare ComfyUI CCSR per l'upscaling delle immagini

3.1. Modelli CCSR

real-world_ccsr.ckpt: Modello CCSR per il restauro di immagini del mondo reale.

bicubic_ccsr.ckpt: Modello CCSR per il restauro di immagini bicubiche.

Prompt Schedule

3.2. Parametri chiave in CCSR

-scale_by: Questo parametro specifica la scala di super-risoluzione, determinando il grado di ingrandimento delle immagini o dei video di input.

-steps: Si riferisce al numero di passi nel processo di diffusione. Controlla quante iterazioni il modello esegue per perfezionare i dettagli e le strutture dell'immagine.

-t_max e -t_min: Questi parametri impostano le soglie massima e minima per la strategia di apprendimento non uniforme dei timestep utilizzata nel modello CCSR.

-sampling_method:

  • CCSR (Normal, Untiled): Questo approccio utilizza un metodo di campionamento normale e non tassellato. È semplice e non divide l'immagine in tessere per l'elaborazione. Sebbene possa essere efficace per garantire la coerenza dei contenuti su tutta l'immagine, è anche pesante in termini di utilizzo di VRAM. Questo metodo è più adatto a scenari in cui la VRAM è abbondante e si richiede la massima coerenza possibile in tutta l'immagine.
  • CCSR_Tiled_MixDiff: Questo approccio tassellato elabora ogni tessera dell'immagine separatamente, il che aiuta a gestire l'uso della VRAM in modo più efficiente, non richiedendo che l'intera immagine sia in memoria contemporaneamente. Tuttavia, uno svantaggio notevole è la possibilità di cuciture visibili dove le tessere si incontrano, poiché ogni tessera viene elaborata in modo indipendente, portando a possibili incoerenze ai bordi delle tessere.
  • CCSR_Tiled_VAE_Gaussian_Weights: Questo metodo mira a risolvere il problema delle cuciture visibili nell'approccio CCSR_Tiled_MixDiff utilizzando pesi gaussiani per mescolare le tessere in modo più fluido. Ciò può ridurre significativamente la visibilità delle cuciture, fornendo un aspetto più coerente tra i bordi delle tessere. Tuttavia, questa fusione può talvolta essere meno accurata e potrebbe introdurre rumori aggiuntivi nell'immagine super-risolta, influenzando la qualità complessiva dell'immagine.

-tile_size, e -tile_stride: Questi parametri fanno parte della funzione di diffusione tassellata, che è integrata in CCSR per risparmiare memoria GPU durante l'inferenza. La tassellatura si riferisce all'elaborazione dell'immagine in patch piuttosto che in intero, che può essere più efficiente in termini di memoria. -tile_size specifica la dimensione di ogni tessera e -tile_diffusion_stride controlla il passo o la sovrapposizione tra le tessere.

-color_fix_type: Questo parametro indica il metodo utilizzato per la correzione o la regolazione del colore nel processo di super-risoluzione. adain è uno dei metodi impiegati per la correzione del colore per garantire che i colori nell'immagine super-risolta corrispondano il più possibile all'immagine originale.

Prompt Schedule

4. Maggiori dettagli su CCSR

La super-risoluzione delle immagini, volta a recuperare immagini ad alta risoluzione (HR) da controparti a bassa risoluzione (LR), affronta la sfida posta dal degrado della qualità durante l'acquisizione delle immagini. Mentre le tecniche di SR esistenti basate sull'apprendimento profondo si sono concentrate principalmente sull'ottimizzazione dell'architettura della rete neurale rispetto a degradazioni semplici e note, esse non riescono a gestire le degradazioni complesse incontrate negli scenari del mondo reale. I recenti progressi hanno incluso lo sviluppo di dataset e metodi che simulano degradazioni dell'immagine più complesse per approssimare queste sfide del mondo reale.

Lo studio evidenzia anche i limiti delle funzioni di perdita tradizionali, come ℓ1 e MSE, che tendono a produrre dettagli eccessivamente lisci nei risultati SR. Sebbene la perdita SSIM e la perdita percettiva mitigano questo problema in una certa misura, ottenere dettagli realistici dell'immagine rimane una sfida. I GAN sono emersi come un approccio di successo per migliorare i dettagli dell'immagine, ma la loro applicazione alle immagini naturali spesso si traduce in artefatti visivi a causa della natura diversificata delle scene naturali.

I modelli probabilistici di diffusione con denoising (DDPM) e le loro varianti hanno mostrato un notevole potenziale, superando i GAN nel generare prior diversi e di alta qualità per il restauro delle immagini, inclusa la SR. Questi modelli, tuttavia, hanno faticato ad adattarsi alle degradazioni complesse e varie presenti nelle applicazioni del mondo reale.

L'approccio CCSR cerca di affrontare queste sfide garantendo risultati di super-risoluzione stabili e coerenti. Sfrutta i prior di diffusione per generare strutture coerenti e impiega l'addestramento avversario generativo per il miglioramento dei dettagli e della trama. Adottando una strategia di campionamento dei timestep non uniforme e mettendo a punto un decoder VAE pre-addestrato, CCSR raggiunge risultati SR stabili e coerenti con i contenuti in modo più efficiente rispetto ai metodi SR esistenti basati su prior di diffusione.

Per ulteriori informazioni, consultare il github o il paper

Vuoi Altri Workflow di ComfyUI?

RunComfy

© Copyright 2024 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato.