ComfyUI  >  Arbetsflöden  >  AnimateDiff + ControlNet + AutoMask | Comic Style

AnimateDiff + ControlNet + AutoMask | Comic Style

I detta ComfyUI-arbetsflöde använder vi anpassade noder som Animatediff, ControlNet (med Depth och OpenPose) och Auto Mask för att sömlöst restyla videor. Denna process omvandlar realistiska karaktärer till anime medan de noggrant bevarar de ursprungliga bakgrunderna.

ComfyUI Vid2Vid Arbetsflöde

ComfyUI AnimateDiff, ControlNet and Auto Mask Workflow
Vill du köra detta arbetsflöde?
  • Fullt operativa arbetsflöden
  • Inga saknade noder eller modeller
  • Inga manuella inställningar krävs
  • Innehåller fantastiska visuella

ComfyUI Vid2Vid Exempel

ComfyUI Vid2Vid Beskrivning

1. ComfyUI AnimateDiff, ControlNet och Auto Mask Workflow

Detta ComfyUI-arbetsflöde introducerar en kraftfull metod för videostyling, specifikt inriktad på att omvandla karaktärer till en anime-stil medan de ursprungliga bakgrunderna bevaras. Denna transformation stöds av flera viktiga komponenter, inklusive AnimateDiff, ControlNet och Auto Mask.

AnimateDiff är utformad för differentialanimeringstekniker, vilket möjliggör bibehållandet av en konsekvent kontext inom animationer. Denna komponent fokuserar på att jämna ut övergångar och förbättra rörelsens flyt i restylad videoinnehåll.

ControlNet spelar en kritisk roll i exakt replikering och manipulation av mänskliga poser. Den utnyttjar avancerad poseestimering för att noggrant fånga och kontrollera nyanserna av mänsklig rörelse, vilket underlättar omvandlingen av karaktärer till animeformer medan deras ursprungliga poser bevaras.

Auto Mask är involverad i automatisk segmentering, skicklig på att isolera karaktärer från deras bakgrunder. Denna teknik möjliggör selektiv restyling av videoelement, vilket säkerställer att karaktärsförvandlingar utförs utan att ändra den omgivande miljön, vilket bibehåller de ursprungliga bakgrunderna.

Detta ComfyUI-arbetsflöde realiserar omvandlingen av standardvideoinnehåll till stiliserade animationer, med fokus på effektivitet och kvaliteten på anime-stil karaktärsgenerering.

2. Översikt av AnimateDiff

2.1. Introduktion till AnimateDiff

AnimateDiff framträder som ett AI-verktyg utformat för att animera statiska bilder och textuppmaningar till dynamiska videor, utnyttjande Stable Diffusion-modeller och en specialiserad rörelsemodul. Denna teknik automatiserar animeringsprocessen genom att förutsäga sömlösa övergångar mellan ramar, vilket gör den tillgänglig för användare utan kodningskunskaper eller datorkapacitet genom en gratis onlineplattform.

2.2. Viktiga funktioner av AnimateDiff

2.2.1. Omfattande modellstöd: AnimateDiff är kompatibel med olika versioner, inklusive AnimateDiff v1, v2, v3 för Stable Diffusion V1.5, och AnimateDiff sdxl för Stable Diffusion SDXL. Den tillåter användning av flera rörelsemodeller samtidigt, vilket underlättar skapandet av komplexa och lagerbaserade animationer.

2.2.2. Kontextbatchstorlek bestämmer animationslängd: AnimateDiff möjliggör skapandet av animationer av oändlig längd genom justering av kontextbatchstorleken. Denna funktion tillåter användare att anpassa längden och övergången av animationer för att passa deras specifika krav, vilket ger en mycket anpassningsbar animeringsprocess.

2.2.3. Kontextlängd för mjuka övergångar: Syftet med Uniform Context Length i AnimateDiff är att säkerställa sömlösa övergångar mellan olika segment av en animation. Genom att justera Uniform Context Length kan användare kontrollera övergångsdynamiken mellan scener—längre längder för mjukare, mer sömlösa övergångar, och kortare längder för snabbare, mer uttalade förändringar.

2.2.4. Rörelsedynamik: I AnimateDiff v2 finns specialiserade rörelse-LoRAs tillgängliga för att lägga till filmiska kamerarörelser till animationer. Denna funktion introducerar ett dynamiskt lager till animationer, vilket avsevärt förbättrar deras visuella attraktionskraft.

2.2.5. Avancerade stödfunktioner: AnimateDiff är utformad för att fungera med en mängd olika verktyg inklusive ControlNet, SparseCtrl och IPAdapter, vilket erbjuder betydande fördelar för användare som strävar efter att utöka de kreativa möjligheterna för sina projekt.

3. Översikt av ControlNet

3.1. Introduktion till ControlNet

ControlNet introducerar ett ramverk för att förstärka bilddiffusionsmodeller med villkorliga indata, med målet att förfina och styra bildsyntesprocessen. Den uppnår detta genom att duplicera de neurala nätverksblocken inom en given diffusionsmodell till två uppsättningar: en förblir "låst" för att bevara den ursprungliga funktionaliteten, och den andra blir "träningsbar," anpassad till de specifika förhållandena som tillhandahålls. Denna dubbla struktur tillåter utvecklare att integrera en mängd olika villkorliga indata genom att använda modeller som OpenPose, Tile, IP-Adapter, Canny, Depth, LineArt, MLSD, Normal Map, Scribbles, Segmentation, Shuffle och T2I Adapter, vilket direkt påverkar den genererade utgången. Genom denna mekanism erbjuder ControlNet utvecklare ett kraftfullt verktyg för att kontrollera och manipulera bildgenereringsprocessen, vilket förbättrar diffusionsmodellens flexibilitet och dess tillämplighet för olika kreativa uppgifter.

Förprocessorer och modellintegration

3.1.1. Förprocesskonfiguration: Att börja med ControlNet innebär att välja en lämplig förprocessor. Att aktivera förhandsvisningsalternativet rekommenderas för en visuell förståelse av förprocessens påverkan. Efter förprocessen övergår arbetsflödet till att använda den förprocessade bilden för ytterligare bearbetningssteg.

3.1.2. Modellmatchning: Genom att förenkla modellvalet säkerställer ControlNet kompatibilitet genom att matcha modeller med deras motsvarande förprocessorer baserat på gemensamma nyckelord, vilket underlättar en sömlös integrationsprocess.

3.2. Viktiga funktioner av ControlNet

Djupgående utforskning av ControlNet-modeller

3.2.1. OpenPose Suite: Utformad för exakt detektering av mänskliga poser, omfattar OpenPose-sviten modeller för att upptäcka kroppshållningar, ansiktsuttryck och handrörelser med exceptionell noggrannhet. Olika OpenPose-förprocessorer är skräddarsydda för specifika detekteringskrav, från grundläggande poseanalys till detaljerad fångst av ansikts- och handnyanser.

3.2.2. Tile Resample Model: Förbättrar bildupplösning och detaljer, Tile Resample-modellen används optimalt tillsammans med ett uppskalningsverktyg, med målet att berika bildkvaliteten utan att kompromissa med den visuella integriteten.

3.2.3. IP-Adapter Model: Underlättar innovativ användning av bilder som uppmaningar, IP-Adapter integrerar visuella element från referensbilder i de genererade utgångarna, vilket sammanför text-till-bild-diffusionsmöjligheter för berikat visuellt innehåll.

3.2.4. Canny Edge Detector: Vörd för sina kantdetekteringsmöjligheter, Canny-modellen betonar bilders strukturella essens, vilket möjliggör kreativa visuella omtolkningar samtidigt som kärnkompositioner bibehålls.

3.2.5. Depth Perception Models: Genom en mängd olika djupförprocessorer är ControlNet skicklig på att härleda och tillämpa djupindikationer från bilder, vilket erbjuder ett lager av djup perspektiv i genererade visuella element.

3.2.6. LineArt Models: Omvandlar bilder till konstnärliga linjeteckningar med LineArt-förprocessorer, som tillgodoser olika konstnärliga preferenser från anime till realistiska skisser, ControlNet tillgodoser ett spektrum av stilistiska önskemål.

3.2.7. Scribbles Processing: Med förprocessorer som Scribble HED, Pidinet och xDoG, omvandlar ControlNet bilder till unika klotterkonstverk, vilket erbjuder varierade stilar för kantdetektering och konstnärlig omtolkning.

3.2.8. Segmenteringstekniker: ControlNets segmenteringsmöjligheter klassificerar noggrant bildelement, vilket möjliggör exakt manipulation baserad på objektkategorisering, idealisk för komplexa scenkonstruktioner.

3.2.9. Shuffle Model: Introducerar en metod för färgschemats innovation, Shuffle-modellen randomiserar inmatningsbilder för att generera nya färgmönster, kreativt förändrande originalet samtidigt som dess essens bibehålls.

3.2.10. T2I Adapter Innovations: T2I Adapter-modeller, inklusive Color Grid och CLIP Vision Style, driver ControlNet in i nya kreativa domäner, genom att blanda och anpassa färger och stilar för att producera visuellt tilltalande utgångar som respekterar originalets färgschema eller stilistiska attribut.

3.2.11. MLSD (Mobile Line Segment Detection): Specialiserad på detektering av raka linjer, är MLSD ovärderlig för projekt fokuserade på arkitektoniska och inredningsdesign, prioriterande strukturell tydlighet och precision.

3.2.12. Normal Map Processing: Genom att utnyttja data om ytorientering, replikerar Normal Map-förprocessorer 3D-strukturen av referensbilder, vilket förbättrar den genererade innehållets realism genom detaljerad ytanaly.

Fler ComfyUI-handledningar

Vill du ha fler ComfyUI arbetsflöden?

RunComfy

© Copyright 2024 RunComfy. Alla Rättigheter Förbehållna.

RunComfy är den främsta ComfyUI plattform, som erbjuder ComfyUI online miljö och tjänster, tillsammans med ComfyUI arbetsflöden med fantastiska visuella.