ComfyUI  >  Arbeidsflyter  >  CCSR | Konsistent Bilde/Video Oppskalerer

CCSR | Konsistent Bilde/Video Oppskalerer

Integreringen av CCSR (Content Consistent Super-Resolution) modellen i denne ComfyUI-oppskaleringsarbeidsflyten forbedrer bilde- og videooppskalering betydelig. CCSR kombinerer diffusjonsmodeller med GANs (Generative Adversarial Networks) for å raffinere bildestrukturer og forbedre fine detaljer, og overvinne begrensningene ved tradisjonelle oppskaleringsmetoder. Ved å prioritere innholdskonsistens, minimerer CCSR resultatvariabilitet og tilbyr en stabil og effektiv superoppløsningsprosess. I tillegg inkluderer ComfyUI-oppskaleringsarbeidsflyten et valgfritt steg etter CCSR-applikasjonen, som innebærer ytterligere oppskalering ved å legge til støy og bruke ControlNet-recolor-modellen. Denne eksperimentelle funksjonen er tilgjengelig for deg å utforske.

ComfyUI CCSR Arbeidsflyt

ComfyUI CCSR | ComfyUI Upscale Workflow
Vil du kjøre denne arbeidsflyten?
  • Fullt operasjonelle arbeidsflyter
  • Ingen manglende noder eller modeller
  • Ingen manuelle oppsett kreves
  • Har fantastiske visuelle effekter

ComfyUI CCSR Eksempler

ComfyUI CCSR Beskrivelse

1. ComfyUI CCSR | ComfyUI Oppskaleringsarbeidsflyt

Denne ComfyUI-arbeidsflyten inkorporerer CCSR (Content Consistent Super-Resolution) modellen, designet for å forbedre innholdskonsistens i superoppløsningsoppgaver. Etter anvendelsen av CCSR-modellen er det et valgfritt steg som innebærer å oppskalere enda en gang ved å legge til støy og bruke ControlNet-recolor-modellen. Dette er en eksperimentell funksjon for brukere å utforske.

Som standard er denne arbeidsflyten satt opp for bildeoppskalering. For å oppskalere videoer, bytt ganske enkelt "load image" med "load video" og endre "save image" til "combine video."

2. Introduksjon til CCSR

Forhåndstrente latente diffusjonsmodeller har blitt anerkjent for deres potensial i å forbedre den perseptuelle kvaliteten på bilde-superoppløsnings (SR) resultater. Imidlertid produserer disse modellene ofte varierende resultater for identiske lavoppløsningsbilder under forskjellige støysituasjoner. Denne variabiliteten, selv om den er fordelaktig for tekst-til-bilde-generering, utgjør utfordringer for SR-oppgaver som krever konsistens i innholdsbevaring.

For å forbedre påliteligheten til diffusjonsbaserte SR, bruker CCSR (Content Consistent Super-Resolution) en strategi som kombinerer diffusjonsmodeller for å raffinere bildestrukturer med generative adversarial networks (GANs) for å forbedre fine detaljer. Den introduserer en ikke-uniform tidssteg-læringsstrategi for å trene et kompakt diffusjonsnettverk. Dette nettverket rekonstruerer effektivt og stabilt hovedstrukturene i et bilde, mens den forhåndstrente dekoderen til en variational auto-encoder (VAE) finjusteres gjennom adversarial trening for detaljforbedring. Denne tilnærmingen hjelper CCSR med å redusere stokastisiteten forbundet med diffusjonsbaserte SR-metoder, og dermed forbedre innholdskonsistensen i SR-resultater og akselerere bildegenereringsprosessen.

3. Slik bruker du ComfyUI CCSR for bildeoppskalering

3.1. CCSR Modeller

real-world_ccsr.ckpt: CCSR-modell for restaurering av bilder fra virkeligheten.

bicubic_ccsr.ckpt: CCSR-modell for bikubisk bildegjenoppretting.

Prompt Schedule

3.2. Nøkkelparametere i CCSR

-scale_by: Denne parameteren spesifiserer superoppløsningsskalaen og bestemmer hvor mye inngangsbilder eller videoer forstørres.

-steps: Refererer til antall trinn i diffusjonsprosessen. Det kontrollerer hvor mange iterasjoner modellen går gjennom for å raffinere bildedetaljer og strukturer.

-t_max og -t_min: Disse parameterne setter maksimale og minimale terskler for den ikke-uniforme tidssteg-læringsstrategien som brukes i CCSR-modellen.

-sampling_method:

  • CCSR (Normal, Untiled): Denne tilnærmingen bruker en normal, ikke-tilt delt prøvemetode. Den er enkel og deler ikke opp bildet i fliser for behandling. Selv om dette kan være effektivt for å sikre innholdskonsistens over hele bildet, er det også tungt på VRAM-bruk. Denne metoden er best egnet for scenarier der VRAM er rikelig, og den høyeste mulige konsistensen over bildet er nødvendig.
  • CCSR_Tiled_MixDiff: Denne flisede tilnærmingen behandler hver flis av bildet separat, noe som hjelper med å administrere VRAM-bruk mer effektivt ved ikke å kreve at hele bildet er i minnet samtidig. En merkbar ulempe er imidlertid muligheten for synlige sømmer der flisene møtes, da hver flis behandles uavhengig, noe som kan føre til mulige inkonsistenser ved flisegrensene.
  • CCSR_Tiled_VAE_Gaussian_Weights: Denne metoden har som mål å fikse sømproblemet sett i CCSR_Tiled_MixDiff-tilnærmingen ved å bruke Gaussiske vekter for å blande flisene jevnere. Dette kan betydelig redusere synligheten av sømmer, og gi et mer konsistent utseende over flisegrensene. Imidlertid kan denne blandingen noen ganger være mindre nøyaktig og kan introdusere ekstra støy i det superoppløste bildet, noe som påvirker den totale bildekvaliteten.

-tile_size, og -tile_stride: Disse parameterne er en del av den flisede diffusjonsfunksjonen, som er integrert i CCSR for å spare GPU-minne under inferens. Flising refererer til å behandle bildet i lapper i stedet for i sin helhet, noe som kan være mer minneeffektivt. -tile_size spesifiserer størrelsen på hver flis, og -tile_diffusion_stride kontrollerer steget eller overlappingen mellom fliser.

-color_fix_type: Denne parameteren indikerer metoden som brukes for fargekorrigering eller justering i superoppløsningsprosessen. adain er en av metodene som brukes for fargekorrigering for å sikre at fargene i det superoppløste bildet samsvarer med originalbildet så nært som mulig.

Prompt Schedule

4. Mer informasjon om CCSR

Bilde-superoppløsning, som tar sikte på å gjenopprette høyoppløselige (HR) bilder fra lavoppløselige (LR) motparter, tar for seg utfordringen som kvalitetstap under bildeopptak medfører. Mens eksisterende dyplæringsbaserte SR-teknikker hovedsakelig har fokusert på optimalisering av nevrale nettverksarkitekturer mot enkle, kjente forringelser, klarer de ikke å håndtere de komplekse forringelsene som oppstår i virkelige scenarier. Nylige fremskritt har inkludert utvikling av datasett og metoder som simulerer mer komplekse bildeforringelser for å tilnærme disse virkelige utfordringene.

Studien fremhever også begrensningene ved tradisjonelle tapfunksjoner, som ℓ1 og MSE, som har en tendens til å produsere altfor glatte detaljer i SR-resultater. Selv om SSIM-tap og perseptuelt tap til en viss grad avbøter dette problemet, forblir det en utfordring å oppnå realistiske bildedetaljer. GANs har vist seg å være en vellykket tilnærming for å forbedre bildedetaljer, men deres anvendelse på naturlige bilder resulterer ofte i visuelle artefakter på grunn av den mangfoldige naturen til naturlige scener.

Denoising Diffusion Probabilistic Models (DDPMs) og deres varianter har vist betydelig løfte, og overgår GANs i å generere mangfoldige og høykvalitets priorer for bildegjenoppretting, inkludert SR. Disse modellene har imidlertid slitt med å tilpasse seg de komplekse og varierte forringelsene som er til stede i virkelige applikasjoner.

CCSR-tilnærmingen søker å adressere disse utfordringene ved å sikre stabile og konsistente superoppløsningsresultater. Den utnytter diffusjonspriorer for å generere sammenhengende strukturer og anvender generativ adversarial trening for detalj- og teksturforbedring. Ved å adoptere en ikke-uniform tidssteg-prøvetakingsstrategi og finjustere en forhåndstrent VAE-dekoder, oppnår CCSR stabile, innholdskonsistente SR-resultater mer effektivt enn eksisterende diffusjonsbaserte SR-metoder.

For mer informasjon, sjekk det på github eller paper

Vil du ha Flere ComfyUI Arbeidsflyter?

RunComfy

© Opphavsrett 2024 RunComfy. Alle Rettigheter Forbeholdt.

RunComfy er den fremste ComfyUI plattformen, som tilbyr ComfyUI online miljø og tjenester, sammen med ComfyUI arbeidsflyter med fantastiske visuelle effekter.