ComfyUI  >  Arbetsflöden  >  CCSR | Konsekvent Bild/Video-Uppskalare

CCSR | Konsekvent Bild/Video-Uppskalare

Integrationen av CCSR (Content Consistent Super-Resolution) modellen inom detta ComfyUI uppskalningsarbetsflöde förbättrar bild- och videouppskalning avsevärt. CCSR kombinerar diffusionsmodeller med GANs (Generative Adversarial Networks) för att förfina bildstrukturer och förbättra fina detaljer, vilket effektivt övervinner begränsningarna hos traditionella uppskalningsmetoder. Genom att prioritera innehållskonsekvens minimerar CCSR resultatvariabiliteten och erbjuder en stabil och effektiv superupplösningsprocess. Dessutom innehåller ComfyUI uppskalningsarbetsflöde ett valfritt steg efter CCSR-applikationen, vilket involverar ytterligare uppskalning genom att lägga till brus och använda ControlNet-recolor-modellen. Denna experimentella funktion är tillgänglig för dig att utforska.

ComfyUI CCSR Arbetsflöde

ComfyUI CCSR | ComfyUI Upscale Workflow
Vill du köra detta arbetsflöde?
  • Fullt operativa arbetsflöden
  • Inga saknade noder eller modeller
  • Inga manuella inställningar krävs
  • Innehåller fantastiska visuella

ComfyUI CCSR Exempel

ComfyUI CCSR Beskrivning

1. ComfyUI CCSR | ComfyUI Uppskalningsarbetsflöde

Detta ComfyUI-arbetsflöde innehåller CCSR (Content Consistent Super-Resolution) modellen, utformad för att förbättra innehållskonsekvensen i superupplösningsuppgifter. Efter tillämpningen av CCSR-modellen finns ett valfritt steg som innebär ytterligare uppskalning genom att lägga till brus och använda ControlNet-recolor-modellen. Detta är en experimentell funktion för användare att utforska.

Som standard är detta arbetsflöde inställt för bilduppskalning. För att uppskala videor, ersätt "load image" med "load video" och ändra "save image" till "combine video."

2. Introduktion till CCSR

Förtränade latenta diffusionsmodeller har erkänts för sin potential att förbättra den perceptuella kvaliteten på bildsuperupplösningsresultat (SR). Dessa modeller producerar dock ofta varierande resultat för identiska lågupplösta bilder under olika brusförhållanden. Denna variabilitet, även om den är fördelaktig för text-till-bild-generering, utgör utmaningar för SR-uppgifter som kräver konsekvens i bevarandet av innehåll.

För att förbättra tillförlitligheten hos diffusionsbaserade SR använder CCSR (Content Consistent Super-Resolution) en strategi som kombinerar diffusionsmodeller för att förfina bildstrukturer med generativa adversariala nätverk (GANs) för att förbättra fina detaljer. Den introducerar en icke-enhetlig tidsstegs-inlärningsstrategi för att träna ett kompakt diffusionsnätverk. Detta nätverk rekonstruerar effektivt och stabilt huvudstrukturerna i en bild, medan den förtränade dekodern av en variational auto-encoder (VAE) finjusteras genom adversarial träning för detaljförbättring. Detta tillvägagångssätt hjälper CCSR att avsevärt minska stokasticiteten som är förknippad med diffusionsbaserade SR-metoder, vilket förbättrar innehållskonsekvensen i SR-utgångar och påskyndar bildgenereringsprocessen.

3. Hur man använder ComfyUI CCSR för bilduppskalning

3.1. CCSR Modeller

real-world_ccsr.ckpt: CCSR-modell för verklig bildåterställning.

bicubic_ccsr.ckpt: CCSR-modell för bicubisk bildåterställning.

Prompt Schedule

3.2. Nyckelparametrar i CCSR

-scale_by: Denna parameter specificerar superupplösningsskalan och bestämmer hur mycket ingångsbilderna eller videorna förstoras.

-steps: Avser antalet steg i diffusionsprocessen. Det styr hur många iterationer modellen går igenom för att förfina bilddetaljer och strukturer.

-t_max och -t_min: Dessa parametrar ställer in de maximala och minimala trösklarna för den icke-enhetliga tidsstegs-inlärningsstrategin som används i CCSR-modellen.

-sampling_method:

  • CCSR (Normal, Untiled): Detta tillvägagångssätt använder en normal, otilldelad samplingsmetod. Det är enkelt och delar inte upp bilden i kakor för bearbetning. Medan detta kan vara effektivt för att säkerställa innehållskonsekvens över hela bilden, är det också tungt på VRAM-användning. Denna metod är bäst lämpad för scenarier där VRAM är rikligt och den högsta möjliga konsekvensen över bilden krävs.
  • CCSR_Tiled_MixDiff: Detta kaklade tillvägagångssätt bearbetar varje kaka av bilden separat, vilket hjälper till att hantera VRAM-användning mer effektivt genom att inte kräva att hela bilden är i minnet samtidigt. En anmärkningsvärd nackdel är dock potentialen för synliga sömmar där kakor möts, eftersom varje kaka bearbetas oberoende, vilket leder till möjliga inkonsekvenser vid kakgränserna.
  • CCSR_Tiled_VAE_Gaussian_Weights: Denna metod syftar till att fixa sömproblemet som ses i CCSR_Tiled_MixDiff-tilvägagångssättet genom att använda Gaussiska vikter för att blanda kakorna mer smidigt. Detta kan avsevärt minska synligheten av sömmar och ge ett mer konsekvent utseende över kakgränser. Dock kan denna blandning ibland vara mindre exakt och kan introducera extra brus i den superupplösta bilden, vilket påverkar den övergripande bildkvaliteten.

-tile_size, och -tile_stride: Dessa parametrar är en del av den kaklade diffusionsfunktionen, som är integrerad i CCSR för att spara GPU-minne under inferens. Kakning avser att bearbeta bilden i lappar snarare än helhet, vilket kan vara mer minneseffektivt. -tile_size specificerar storleken på varje kaka, och -tile_diffusion_stride styr steget eller överlappningen mellan kakorna.

-color_fix_type: Denna parameter anger metoden som används för färgkorrigering eller justering i superupplösningsprocessen. adain är en av metoderna som används för färgkorrigering för att säkerställa att färgerna i den superupplösta bilden matchar originalbilden så nära som möjligt.

Prompt Schedule

4. Mer information om CCSR

Bildsuperupplösning, som syftar till att återställa högupplösta (HR) bilder från lågupplösta (LR) motsvarigheter, tar itu med utmaningen som kvalitetssänkning under bildfångst utgör. Medan befintliga djupinlärningsbaserade SR-tekniker främst har fokuserat på optimering av neurala nätverksarkitekturer mot enkla, kända försämringar, är de otillräckliga för att hantera de komplexa försämringar som upplevs i verkliga scenarier. Nya framsteg har inkluderat utvecklingen av datasets och metoder som simulerar mer komplexa bildförsämringar för att approximera dessa verkliga utmaningar.

Studien belyser också begränsningarna hos traditionella förlustfunktioner, såsom ℓ1 och MSE, som tenderar att producera alltför släta detaljer i SR-utgångar. Även om SSIM-förlust och perceptuell förlust mildrar detta problem till viss del, är det fortfarande en utmaning att uppnå realistiska bilddetaljer. GANs har framträtt som ett framgångsrikt tillvägagångssätt för att förbättra bilddetaljer, men deras tillämpning på naturliga bilder resulterar ofta i visuella artefakter på grund av den diversifierade naturen hos naturliga scener.

Denoising Diffusion Probabilistic Models (DDPMs) och deras varianter har visat betydande löften, överträffande GANs i att generera diversifierade och högkvalitativa priors för bildåterställning, inklusive SR. Dessa modeller har dock kämpat med att anpassa sig till de komplexa och varierade försämringar som finns i verkliga applikationer.

CCSR-tilvägagångssättet syftar till att ta itu med dessa utmaningar genom att säkerställa stabila och konsekventa superupplösningsresultat. Det utnyttjar diffusionspriors för att generera sammanhängande strukturer och använder generativ adversarial träning för detalj- och texturförbättring. Genom att anta en icke-enhetlig tidsstegs-samplingsstrategi och finjustera en förtränad VAE-dekoder, uppnår CCSR stabila, innehållskonsekventa SR-resultat mer effektivt än befintliga diffusionsbaserade SR-metoder.

För mer information, kolla på github eller paper

Vill du ha fler ComfyUI arbetsflöden?

RunComfy

© Copyright 2024 RunComfy. Alla Rättigheter Förbehållna.

RunComfy är den främsta ComfyUI plattform, som erbjuder ComfyUI online miljö och tjänster, tillsammans med ComfyUI arbetsflöden med fantastiska visuella.