ComfyUI  >  Arbejdsgange  >  AnimateDiff + ControlNet + AutoMask | Comic Style

AnimateDiff + ControlNet + AutoMask | Comic Style

I denne ComfyUI workflow bruger vi tilpassede noder som Animatediff, ControlNet (med Depth og OpenPose) og Auto Mask til sømløst at restyle videoer. Denne proces transformerer realistiske karakterer til anime, mens de omhyggeligt bevarer de oprindelige baggrunde.

ComfyUI Vid2Vid Workflow

ComfyUI AnimateDiff, ControlNet and Auto Mask Workflow
Vil du køre denne arbejdsgang?
  • Fuldt operationelle arbejdsgange
  • Ingen manglende noder eller modeller
  • Ingen manuelle opsætninger krævet
  • Funktioner fantastiske visuals

ComfyUI Vid2Vid Eksempler

ComfyUI Vid2Vid Beskrivelse

1. ComfyUI AnimateDiff, ControlNet og Auto Mask Workflow

Denne ComfyUI workflow introducerer en kraftfuld tilgang til video-restyling, specifikt rettet mod at transformere karakterer til en anime-stil, mens de oprindelige baggrunde bevares. Denne transformation understøttes af flere nøglekomponenter, herunder AnimateDiff, ControlNet og Auto Mask.

AnimateDiff er designet til differential animationsteknikker, hvilket muliggør opretholdelse af en konsistent kontekst inden for animationer. Denne komponent fokuserer på at udglatte overgange og forbedre bevægelsens flydende i restyled videoindhold.

ControlNet spiller en kritisk rolle i præcis menneskelig pose-replikation og manipulation. Det udnytter avanceret pose-estimering til nøjagtigt at fange og kontrollere nuancerne i menneskelig bevægelse, hvilket letter transformationen af karakterer til anime-former, mens deres oprindelige positurer bevares.

Auto Mask er involveret i automatisk segmentering, dygtig til at isolere karakterer fra deres baggrunde. Denne teknologi tillader selektiv restyling af videoelementer, hvilket sikrer, at karaktertransformationer udføres uden at ændre det omgivende miljø, hvilket opretholder integriteten af de oprindelige baggrunde.

Denne ComfyUI workflow realiserer konverteringen af standard videoindhold til stiliserede animationer, med fokus på effektivitet og kvaliteten af anime-stil karaktergenerering.

2. Oversigt over AnimateDiff

2.1. Introduktion til AnimateDiff

AnimateDiff fremstår som et AI-værktøj designet til at animere statiske billeder og tekstprompter til dynamiske videoer ved hjælp af Stable Diffusion-modeller og et specialiseret bevægelsesmodul. Denne teknologi automatiserer animationsprocessen ved at forudsige sømløse overgange mellem rammer, hvilket gør det tilgængeligt for brugere uden kodningsfærdigheder eller computerressourcer gennem en gratis online platform.

2.2. Nøglefunktioner i AnimateDiff

2.2.1. Omfattende Modelunderstøttelse: AnimateDiff er kompatibel med forskellige versioner, herunder AnimateDiff v1, v2, v3 for Stable Diffusion V1.5, og AnimateDiff sdxl for Stable Diffusion SDXL. Det tillader brug af flere bevægelsesmodeller samtidigt, hvilket muliggør skabelsen af komplekse og lagdelte animationer.

2.2.2. Kontekstbatchstørrelse Bestemmer Animationslængde: AnimateDiff muliggør skabelse af animationer af uendelig længde gennem justering af kontekstbatchstørrelsen. Denne funktion tillader brugere at tilpasse længden og overgangen af animationer for at imødekomme deres specifikke krav, hvilket giver en meget tilpasningsdygtig animationsproces.

2.2.3. Kontekstens længde for glatte overgange: Formålet med Uniform Context Length i AnimateDiff er at sikre sømløse overgange mellem forskellige segmenter af en animation. Ved at justere Uniform Context Length kan brugere kontrollere overgangsdynamikken mellem scener—længere længder for glattere, mere sømløse overgange, og kortere længder for hurtigere, mere udtalte ændringer.

2.2.4. Bevægelsesdynamik: I AnimateDiff v2 er specialiserede motion LoRAs tilgængelige for at tilføje filmiske kamerabevægelser til animationer. Denne funktion introducerer et dynamisk lag til animationer, hvilket betydeligt forbedrer deres visuelle appel.

2.2.5. Avancerede understøttelsesfunktioner: AnimateDiff er designet til at arbejde med en række værktøjer, herunder ControlNet, SparseCtrl og IPAdapter, hvilket tilbyder betydelige fordele for brugere, der sigter mod at udvide de kreative muligheder i deres projekter.

3. Oversigt over ControlNet

3.1. Introduktion til ControlNet

ControlNet introducerer en ramme for at udvide billeddiffusionsmodeller med betingede input, med det formål at forfine og styre billedsynteseprocessen. Det opnår dette ved at duplikere de neurale netværksblokke inden for en given diffusionsmodel i to sæt: et forbliver "låst" for at bevare den oprindelige funktionalitet, og det andet bliver "trænbar," tilpasser sig de specifikke betingelser, der er givet. Denne dobbelte struktur tillader udviklere at inkorporere en række betingede input ved hjælp af modeller som OpenPose, Tile, IP-Adapter, Canny, Depth, LineArt, MLSD, Normal Map, Scribbles, Segmentation, Shuffle og T2I Adapter, hvilket direkte påvirker det genererede output. Gennem denne mekanisme tilbyder ControlNet udviklere et kraftfuldt værktøj til at kontrollere og manipulere billedgenereringsprocessen, hvilket forbedrer diffusionsmodellens fleksibilitet og dens anvendelighed til forskellige kreative opgaver.

Forprocessorer og Modelintegration

3.1.1. Forbehandlingskonfiguration: Initiering med ControlNet indebærer valg af en passende forprocessor. Aktivering af forhåndsvisningsmuligheden anbefales for en visuel forståelse af forbehandlingens påvirkning. Efter forbehandling overgår workflowet til at bruge det forbehandlede billede til yderligere behandlingsskridt.

3.1.2. Modelmatchning: Forenkling af modelvalgsprocessen, ControlNet sikrer kompatibilitet ved at tilpasse modeller med deres tilsvarende forprocessorer baseret på delte nøgleord, hvilket letter en sømløs integrationsproces.

3.2. Nøglefunktioner i ControlNet

Dybdegående udforskning af ControlNet-modeller

3.2.1. OpenPose Suite: Designet til præcis menneskelig posedetektion, OpenPose-suiten omfatter modeller til at detektere kropspositurer, ansigtsudtryk og håndbevægelser med enestående nøjagtighed. Forskellige OpenPose-forprocessorer er skræddersyet til specifikke detektionskrav, fra grundlæggende posedetektion til detaljeret fangst af ansigtsudtryk og håndbevægelser.

3.2.2. Tile Resample Model: Forbedring af billedopløsning og detaljer, Tile Resample-modellen bruges optimalt sammen med et opskaleringsværktøj, med det formål at berige billedkvaliteten uden at kompromittere den visuelle integritet.

3.2.3. IP-Adapter Model: Facilitering af innovativ brug af billeder som prompter, IP-Adapteren integrerer visuelle elementer fra referencebilleder i de genererede output, hvilket fusionerer tekst-til-billede-diffusionskapaciteter for beriget visuelt indhold.

3.2.4. Canny Edge Detector: Æret for sine kantdetektionskapaciteter, Canny-modellen fremhæver den strukturelle essens af billeder, hvilket muliggør kreative visuelle nyfortolkninger, mens kernekompositioner opretholdes.

3.2.5. Depth Perception Models: Gennem en række dybdeforprocessorer er ControlNet dygtig til at udlede og anvende dybdeledetråde fra billeder, hvilket tilbyder et lagdelt dybdeperspektiv i genererede visuelle elementer.

3.2.6. LineArt Models: Konverter billeder til kunstneriske linjetegninger med LineArt-forprocessorer, der imødekommer forskellige kunstneriske præferencer fra anime til realistiske skitser, ControlNet imødekommer et spektrum af stilistiske ønsker.

3.2.7. Scribbles Processing: Med forprocessorer som Scribble HED, Pidinet og xDoG transformerer ControlNet billeder til unikke skriblekunstværker, hvilket tilbyder forskellige stilarter til kantdetektion og kunstnerisk nyfortolkning.

3.2.8. Segmenteringsteknikker: ControlNets segmenteringskapaciteter klassificerer præcist billedelementer, hvilket muliggør nøjagtig manipulation baseret på objektkategorisering, ideel til komplekse sceneopbygninger.

3.2.9. Shuffle Model: Introducerer en metode til farveskema-innovation, Shuffle-modellen randomiserer inputbilleder for at generere nye farvemønstre, kreativt ændrende det oprindelige, mens essensen bevares.

3.2.10. T2I Adapter Innovationer: T2I Adapter-modellerne, herunder Color Grid og CLIP Vision Style, driver ControlNet ind i nye kreative domæner, ved at blande og tilpasse farver og stilarter for at producere visuelt overbevisende output, der respekterer originalens farveskema eller stilistiske attributter.

3.2.11. MLSD (Mobile Line Segment Detection): Specialiseret i detektion af lige linjer, MLSD er uvurderlig for projekter fokuseret på arkitektoniske og indretningsdesigns, der prioriterer strukturel klarhed og præcision.

3.2.12. Normal Map Processing: Ved brug af overfladeorienteringsdata replikerer Normal Map-forprocessorer 3D-strukturen af referencebilleder, hvilket forbedrer det genererede indholds realisme gennem detaljeret overfladeanalyse.

Flere ComfyUI-tutorials

Vil du have flere ComfyUI-arbejdsgange?

RunComfy

© Ophavsret 2024 RunComfy. Alle rettigheder forbeholdes.

RunComfy er den førende ComfyUI platform, der tilbyder ComfyUI online miljø og tjenester, sammen med ComfyUI-arbejdsgange med fantastiske visuals.