ComfyUI  >  Arbejdsgange  >  CCSR | Konsistent Billede/Video Opskaler

CCSR | Konsistent Billede/Video Opskaler

Integrationen af CCSR (Content Consistent Super-Resolution) modellen i denne ComfyUI op skaleringsarbejdsgang forbedrer markant billede- og videoopskalering. CCSR kombinerer diffusion modeller med GANs (Generative Adversarial Networks) for at forfine billedestrukturer og forbedre fine detaljer, hvilket effektivt overvinder begrænsningerne ved traditionelle op skaleringsmetoder. Ved at prioritere indholdskonsistens minimerer CCSR resultatvariabilitet og tilbyder en stabil og effektiv superopløsningsproces. Derudover indeholder ComfyUI opskaleringsarbejdsgangen et valgfrit trin efter anvendelsen af CCSR, som involverer yderligere opskalering ved at tilføje støj og bruge ControlNet recolor-modellen. Denne eksperimentelle funktion er tilgængelig for dig at udforske.

ComfyUI CCSR Workflow

ComfyUI CCSR | ComfyUI Upscale Workflow
Vil du køre denne arbejdsgang?
  • Fuldt operationelle arbejdsgange
  • Ingen manglende noder eller modeller
  • Ingen manuelle opsætninger krævet
  • Funktioner fantastiske visuals

ComfyUI CCSR Eksempler

ComfyUI CCSR Beskrivelse

1. ComfyUI CCSR | ComfyUI Opskaleringsarbejdsgang

Denne ComfyUI arbejdsgang inkorporerer CCSR (Content Consistent Super-Resolution) modellen, designet til at forbedre indholdskonsistens i superopløsningsopgaver. Efter anvendelsen af CCSR-modellen er der et valgfrit trin, der involverer opskalering en gang til ved at tilføje støj og anvende ControlNet recolor-modellen. Dette er en eksperimentel funktion for brugerne at udforske.

Som standard er denne arbejdsgang opsat til billedeopskalering. For at opskalere videoer, skal du blot erstatte "load image" med "load video" og ændre "save image" til "combine video."

2. Introduktion til CCSR

Forudtrænede latente diffusionsmodeller er blevet anerkendt for deres potentiale til at forbedre den perceptuelle kvalitet af billedsuperopløsnings (SR) resultater. Dog producerer disse modeller ofte variable resultater for identiske lavopløsningsbilleder under forskellige støjforhold. Denne variabilitet, selvom den er fordelagtig for tekst-til-billede generation, udgør udfordringer for SR opgaver, der kræver konsistens i indholdsbevarelse.

For at forbedre pålideligheden af diffusion prior-baseret SR, bruger CCSR (Content Consistent Super-Resolution) en strategi, der kombinerer diffusion modeller til at forfine billedstrukturer med generative adversarial networks (GANs) til at forbedre fine detaljer. Den introducerer en ikke-uniform time-step læringsstrategi til at træne et kompakt diffusionsnetværk. Dette netværk rekonstruerer effektivt og stabilt de vigtigste strukturer i et billede, mens den forudtrænede dekoder af en variational auto-encoder (VAE) finjusteres gennem adversarial træning til detaljeforbedring. Denne tilgang hjælper CCSR med markant at reducere den stokasticitet, der er forbundet med diffusion prior-baserede SR metoder, og dermed forbedre indholdskonsistensen i SR resultater og accelerere billedgenereringsprocessen.

3. Sådan bruger du ComfyUI CCSR til billedeopskalering

3.1. CCSR Modeller

real-world_ccsr.ckpt: CCSR model til restaurering af billeder fra den virkelige verden.

bicubic_ccsr.ckpt: CCSR model til bikubisk billedrestaurering.

Prompt Schedule

3.2. Nøgleparametre i CCSR

-scale_by: Denne parameter specificerer superopløsningsskalaen og bestemmer, hvor meget inputbillederne eller videoerne forstørres.

-steps: Refererer til antallet af trin i diffusionsprocessen. Det kontrollerer, hvor mange iterationer modellen gennemgår for at forfine billeddetaljer og strukturer.

-t_max og -t_min: Disse parametre sætter de maksimale og minimale grænser for den ikke-uniforme time-step læringsstrategi, der anvendes i CCSR-modellen.

-sampling_method:

  • CCSR (Normal, Untiled): Denne tilgang benytter en normal, utiled prøvetagningsmetode. Den er ligetil og opdeler ikke billedet i fliser til behandling. Selvom dette kan være effektivt til at sikre indholdskonsistens på tværs af hele billedet, er det også tungt på VRAM-brug. Denne metode er bedst egnet til scenarier, hvor VRAM er rigeligt, og den højest mulige konsistens på tværs af billedet er påkrævet.
  • CCSR_Tiled_MixDiff: Denne tiled tilgang behandler hver flise af billedet separat, hvilket hjælper med at håndtere VRAM-brug mere effektivt ved ikke at kræve, at hele billedet er i hukommelsen på én gang. Dog er en bemærkelsesværdig ulempe potentialet for synlige sømme, hvor fliser mødes, da hver flise behandles uafhængigt, hvilket kan føre til mulige uoverensstemmelser ved flisekanterne.
  • CCSR_Tiled_VAE_Gaussian_Weights: Denne metode sigter mod at løse sømproblemet set i CCSR_Tiled_MixDiff tilgangen ved at bruge Gaussian vægte til at blande fliserne mere jævnt. Dette kan markant reducere synligheden af sømme og give et mere konsistent udseende på tværs af flisekanter. Dog kan denne blanding nogle gange være mindre præcis og muligvis introducere ekstra støj i det superopløste billede, hvilket påvirker den overordnede billedkvalitet.

-tile_size, og -tile_stride: Disse parametre er en del af den tiled diffusionsfunktion, som er integreret i CCSR for at spare GPU-hukommelse under inferens. Tiling refererer til at behandle billedet i patches frem for hele, hvilket kan være mere hukommelseseffektivt. -tile_size specificerer størrelsen af hver flise, og -tile_diffusion_stride kontrollerer stride eller overlap mellem fliser.

-color_fix_type: Denne parameter angiver metoden, der bruges til farvekorrektion eller justering i superopløsningsprocessen. adain er en af de metoder, der anvendes til farvekorrektion for at sikre, at farverne i det superopløste billede matcher originalbilledet så tæt som muligt.

Prompt Schedule

4. Flere detaljer om CCSR

Billedsuperopløsning, der sigter mod at gendanne højopløsnings (HR) billeder fra lavopløsnings (LR) modstykker, adresserer udfordringen ved kvalitetstab under billedoptagelse. Mens eksisterende dyb læringsbaserede SR-teknikker primært har fokuseret på optimering af neurale netværksarkitekturer mod simple, kendte forringelser, falder de kort i håndteringen af de komplekse forringelser, der opstår i virkelige scenarier. Nylige fremskridt har inkluderet udviklingen af datasæt og metoder, der simulerer mere komplekse billedforringelser for at tilnærme disse virkelige udfordringer.

Studiet fremhæver også begrænsningerne ved traditionelle tabfunktioner, såsom ℓ1 og MSE, som har tendens til at producere alt for glatte detaljer i SR-udgange. Selvom SSIM tab og perceptuelt tab mildner dette problem til en vis grad, forbliver opnåelse af realistiske billeddetaljer en udfordring. GANs er fremstået som en succesfuld tilgang til at forbedre billeddetaljer, men deres anvendelse på naturlige billeder resulterer ofte i visuelle artefakter på grund af den diverse natur af naturscener.

Denoising Diffusion Probabilistic Models (DDPMs) og deres varianter har vist betydeligt potentiale, der overgår GANs i at generere diverse og høj-kvalitets priorer til billedrestaurering, inklusive SR. Disse modeller har dog haft svært ved at tilpasse sig de komplekse og varierede forringelser, der er til stede i virkelige applikationer.

CCSR-tilgangen søger at adressere disse udfordringer ved at sikre stabile og konsistente superopløsningsresultater. Den udnytter diffusion priors til at generere sammenhængende strukturer og anvender generativ adversarial træning til detalje- og teksturforbedring. Ved at adoptere en ikke-uniform time-step samplingsstrategi og finjustere en forudtrænet VAE dekoder, opnår CCSR stabile, indholdskonsistente SR-resultater mere effektivt end eksisterende diffusion prior-baserede SR metoder.

For mere information, tjek det på github eller papir

Vil du have flere ComfyUI-arbejdsgange?

RunComfy

© Ophavsret 2024 RunComfy. Alle rettigheder forbeholdes.

RunComfy er den førende ComfyUI platform, der tilbyder ComfyUI online miljø og tjenester, sammen med ComfyUI-arbejdsgange med fantastiske visuals.