Updated: 5/28/2024
Hej der! I denne guide vil vi dykke ned i den spændende verden af ControlNet i ComfyUI. Lad os sammen udforske, hvad det bringer til bordet, og hvordan det kan krydre dine projekter!
Vi vil dække:
Hvis du er interesseret i at udforske ControlNet workflow, brug den følgende ComfyUI web. Den er fuldt udstyret med alle de essentielle kundeknuder og modeller, hvilket muliggør problemfri kreativitet uden behov for manuelle opsætninger. Begynd at få praktisk erfaring ved at eksperimentere med ControlNet's funktioner med det samme, eller fortsæt med denne tutorial for at lære, hvordan du bruger ControlNet effektivt.
ControlNet er en transformerende teknologi, der betydeligt forbedrer kapaciteterne af tekst-til-billede diffusion modeller, hvilket tillader hidtil uset rumlig kontrol i billedgenerering. Som en neuralt netværksarkitektur integrerer ControlNet problemfrit med store, fortrænede modeller som Stable Diffusion. Den udnytter den omfattende træning af disse modeller—bygget på milliarder af billeder til at introducere rumlige betingelser i billedskabelsesprocessen. Disse betingelser kan variere fra kanter og menneskelige positurer til dybde- og segmenteringskort, hvilket gør det muligt for brugere at styre billedgenereringen på måder, der ikke tidligere var mulige med tekstprompter alene.
Genialiteten ved ControlNet ligger i dens særprægede metodologi. Oprindeligt sikrer den modelens oprindelige parametre, hvilket sikrer, at den grundlæggende træning forbliver uændret. Derefter introducerer ControlNet en klon af modellens kodningslag til træning, ved hjælp af "zero convolutions." Disse specielt designede konvolutionslag starter med nul vægte, hvilket omhyggeligt integrerer nye rumlige betingelser. Denne tilgang forhindrer, at nogen forstyrrende støj intervenerer, hvilket bevarer modellens oprindelige færdigheder samtidig med at initiere nye læringsbaner.
Traditionelt anvender stabile diffusion modeller tekstprompter som konditioneringsmekanisme til at guide genereringen af billeder, hvilket tilpasser output til specifikationerne i tekstprompten. ControlNet introducerer en yderligere form for konditionering til denne proces, hvilket forbedrer evnen til at styre det genererede billede mere præcist i henhold til både tekstuelle og visuelle input.
Dette trin integrerer ControlNet i din ComfyUI workflow, hvilket muliggør anvendelsen af yderligere konditionering til din billedgenereringsproces. Det lægger grundlaget for at anvende visuel vejledning sammen med tekstprompter.
Positive og Negative Konditionering: Disse input er afgørende for at definere de ønskede resultater og de aspekter, der skal undgås i det genererede billede. De bør være forbundet til "Positive prompt" og "Negative prompt" henholdsvis, hvilket tilpasser sig den tekstuelle konditioneringsdel af processen.
ControlNet Model: Dette input bør være forbundet til outputtet af "Load ControlNet Model" noden. Dette trin er essentielt for at vælge og inkorporere enten en ControlNet eller en T2IAdaptor model i din workflow, hvilket sikrer, at diffusion modellen drager fordel af den specifikke vejledning leveret af din valgte model. Hver model, hvad enten det er en ControlNet eller en T2IAdaptor, er grundigt trænet til at påvirke billedgenereringsprocessen i henhold til visse datatyper eller stilistiske præferencer. Da funktionaliteterne af mange T2IAdaptor modeller tæt aligner med dem af ControlNet modeller, vil vores fokus hovedsageligt være på ControlNet modeller i vores efterfølgende diskussion. Vi vil dog også fremhæve nogle af de mere populære T2IAdaptors for fuldstændighedens skyld.
Preprocessor: "image" inputtet skal være forbundet til en "ControlNet Preprocessor" node, hvilket er afgørende for at tilpasse dit billede til at opfylde de specifikke krav fra den ControlNet model, du bruger. Det er imperativt at bruge den korrekte preprocessor tilpasset din valgte ControlNet model. Dette trin sikrer, at det originale billede gennemgår nødvendige modifikationer—såsom justeringer i format, størrelse, farve, eller anvendelsen af specifikke filtre—til at optimere det til ControlNet's retningslinjer. Efter denne forbehandlingsfase erstattes det originale billede med den modificerede version, som ControlNet derefter bruger. Denne proces garanterer, at dine inputbilleder er præcist forberedt til ControlNet processen.
"Apply ControlNet" noden genererer to afgørende output: Positive og Negative Konditionering. Disse output, fyldt med de nuancerede effekter af ControlNet og visuel vejledning, spiller en central rolle i at styre diffusion modellens adfærd i ComfyUI. Efter dette præsenteres du for et valg: fortsæt til KSampler for prøveudtagningsfasen for yderligere at polere det genererede billede, eller, for dem, der søger et endnu højere niveau af detaljer og tilpasning i deres skabelse, fortsæt med at lagde flere ControlNets. Denne avancerede teknik med at integrere flere ControlNets tillader en mere granulær manipulation af billedets attributter, hvilket tilbyder et forbedret værktøjssæt til skabere, der sigter mod at opnå uovertruffen præcision og kontrol i deres visuelle output.
strength: Denne parameter bestemmer intensiteten af ControlNet's effekt på det genererede billede i ComfyUI. En værdi på 1.0 indebærer fuld styrke, hvilket betyder, at ControlNet's vejledning vil have maksimal indflydelse på diffusion modellens output. Omvendt indikerer en værdi på 0.0 ingen indflydelse, hvilket essentielt deaktiverer effekten af ControlNet på billedgenereringsprocessen.
start_percent: Denne parameter specificerer startpunktet, som en procentdel af diffusion processen, hvor ControlNet begynder at påvirke genereringen. For eksempel betyder indstilling af en startprocent på 20%, at ControlNet's vejledning vil begynde at påvirke billedgenereringen fra 20% mærket af diffusion processen og frem.
end_percent: Analogt med "Start Percent," definerer "End Percent" parameteren punktet, hvor ControlNet's indflydelse ophører. For eksempel, en end-procent på 80% ville betyde, at ControlNet's vejledning stopper med at påvirke billedgenereringen ved 80% færdiggørelsesmærket af diffusion processen, hvilket efterlader de sidste faser uberørte.
Timestep Keyframes i ControlNet tilbyder sofistikeret kontrol over opførelsen af AI-genereret indhold, især når timing og progression er afgørende, såsom i animationer eller udviklende visuelle elementer. Her er en detaljeret gennemgang af nøgleparametrene for at hjælpe dig med at bruge dem effektivt og intuitivt:
prev_timestep_kf: Tænk på prev_timestep_kf som at holde hånd med keyframen, der kommer før i en sekvens. Ved at forbinde keyframes skaber du en glidende overgang eller en storyboard, der guider AI gennem genereringsprocessen, trin for trin, hvilket sikrer, at hver fase flyder logisk ind i den næste.
cn_weights: cn_weights er nyttige til at finjustere outputtet ved at justere specifikke funktioner inden for ControlNet under forskellige faser af genereringsprocessen.
latent_keyframe: latent_keyframe tillader dig at justere, hvor stærkt hver del af AI-modellen påvirker det endelige resultat under en bestemt fase af genereringsprocessen. For eksempel, hvis du genererer et billede, hvor forgrunden skal blive mere detaljeret, efterhånden som processen udvikler sig, kan du øge styrken for de aspekter (latents) af modellen, der er ansvarlige for forgrundsdetaljer i senere keyframes. Omvendt, hvis visse funktioner skal falme i baggrunden over tid, kan du reducere deres styrke i efterfølgende keyframes. Dette niveau af kontrol er særligt nyttigt i skabelsen af dynamiske, udviklende visuelle elementer eller i projekter, hvor præcis timing og progression er afgørende.
mask_optional: Brug opmærksomhedsmasker som spotlights, der fokuserer ControlNet's indflydelse på specifikke områder af dit billede. Uanset om det handler om at fremhæve en karakter i en scene eller understrege et baggrundselement, kan disse masker enten anvendes ensartet eller variere i intensitet, hvilket dirigerer AI's opmærksomhed præcis, hvor du ønsker det.
start_percent: start_percent markerer signalet for, hvornår din keyframe træder i kraft, målt som en procentdel af den samlede genereringsproces. At indstille dette er som at planlægge en skuespillers entré på scenen, hvilket sikrer, at de dukker op på netop det rigtige tidspunkt i forestillingen.
strength: strength giver en overordnet kontrol over den samlede indflydelse af ControlNet.
null_latent_kf_strength: For alle skuespillere (latents), som du ikke eksplicit har instrueret i denne scene (keyframe), fungerer null_latent_kf_strength som en standardinstruktion, der fortæller dem, hvordan de skal opføre sig i baggrunden. Det sikrer, at ingen del af genereringen efterlades uden vejledning, hvilket opretholder en sammenhængende output, selv i områder, du ikke specifikt har adresseret.
inherit_missing: Aktivering af inherit_missing tillader din nuværende keyframe at adoptere eventuelle ikke-specificerede indstillinger fra sin forgænger, som en yngre søskende, der arver tøj. Det er en nyttig genvej, der sikrer kontinuitet og sammenhæng uden behov for at gentage instruktioner.
guarantee_usage: guarantee_usage er din garanti for, at uanset hvad, vil den nuværende keyframe få sin tid til at skinne i processen, selvom det kun er for et kort øjeblik. Det sikrer, at hver keyframe, du har sat op, har en indflydelse, hvilket ærer din detaljerede planlægning i at vejlede AI's kreative proces.
Timestep Keyframes tilbyder den præcision, der er nødvendig for omhyggeligt at vejlede AI's kreative proces, hvilket gør det muligt for dig at skabe den narrative eller visuelle rejse præcis, som du forestiller dig den. De fungerer som et kraftfuldt værktøj til at orkestrere udviklingen af visuelle elementer, især i animation, fra åbningsscenen til afslutningen. Her er et nærmere kig på, hvordan Timestep Keyframes strategisk kan anvendes til at styre progressionen af en animation, hvilket sikrer en glidende overgang fra den indledende ramme til den sidste, perfekt tilpasset dine kunstneriske mål.
Da funktionaliteterne af mange T2IAdaptor modeller tæt aligner med dem af ControlNet modeller, vil vores fokus hovedsageligt være på ControlNet modeller i vores efterfølgende diskussion. Vi vil dog også fremhæve nogle af de mere populære T2IAdaptors for fuldstændighedens skyld.
Preprocessor: Openpose eller DWpose
Tile Resample modellen bruges til detaljeforbedring i billeder. Den er særligt nyttig i forbindelse med en op-skaler for at forbedre billedopløsningen samtidig med at tilføje finere detaljer, ofte brugt til at skærpe og berige teksturer og elementer i et billede.
Preprocessor: Tile
Canny modellen anvender Canny kantdetektionsalgoritmen, en multi-trins proces til at detektere en bred vifte af kanter i billeder. Denne model er gavnlig for at bevare de strukturelle aspekter af et billede, mens den forenkler dets visuelle sammensætning, hvilket gør den nyttig til stiliseret kunst eller forbehandling før yderligere billedmanipulation.
Preprocessors: Canny
Dybde modeller udleder dybdeinformation fra et 2D billede, og oversætter opfattet afstand til et gråskala dybdekort. Hver variant tilbyder en forskellig balance mellem detaljefangst og baggrundsfokus:
Preprocessors: Depth_Midas, Depth_Leres, Depth_Zoe, Depth_Anything, MeshGraphormer_Hand_Refiner. Denne model er meget robust og kan arbejde på ægte dybdekort fra renderingsmotorer.
Lineart modeller konverterer billeder til stiliserede linjetegninger, nyttige til kunstneriske gengivelser eller som en base for yderligere kreativt arbejde:
Preprocessor kan generere detaljerede eller grove linjetegninger fra billeder (Lineart og Lineart_Coarse)
Scribble modeller er designet til at transformere billeder til en krussedulle-lignende fremtoning, der simulerer udseendet af håndtegnede skitser. De er særligt nyttige til kunstnerisk omformning eller som et indledende skridt i en større designworkflow:
Preprocessors: Scribble, Scribble_HED, Scribble_PIDI, og Scribble_XDOG
Segmenteringsmodeller kategoriserer billedpixels til forskellige objektklasser, hver repræsenteret af en bestemt farve. Dette er uvurderligt til at identificere og manipulere individuelle elementer i et billede, såsom at adskille forgrund fra baggrund eller differentiere objekter til detaljeret redigering.
Acceptable Preprocessors: Sam, Seg_OFADE20K (Oneformer ADE20K), Seg_UFADE20K (Uniformer ADE20K), Seg_OFCOCO (Oneformer COCO), eller manuelt oprettede masker.
Shuffle modellen introducerer en ny tilgang ved at randomisere inputbilledets attributter, såsom farveskemaer eller teksturer, uden at ændre sammensætningen. Denne model er særligt effektiv til kreative udforskninger og generering af variationer af et billede med bevaret strukturel integritet, men ændret visuel æstetik. Dens randomiserede natur betyder, at hvert output er unikt, påvirket af frøv ærdien brugt i genereringsprocessen.
Preprocessors: Shuffle
Inpainting modeller inden for ControlNet tillader raffineret redigering inden for specifikke områder af et billede, hvilket opretholder overordnet sammenhæng samtidig med at introducere betydelige variationer eller korrektioner.
For at anvende ControlNet Inpainting, begynd med at isolere det område, du ønsker at regenerere gennem masking. Dette kan gøres ved at højreklikke på det ønskede billede og vælge "Open in MaskEditor" til modifikationer.
I modsætning til andre implementeringer inden for ControlNet, omgår Inpainting behovet for en preprocessor på grund af de direkte modifikationer, der anvendes på billedet. Det er dog afgørende at videresende det redigerede billede til det latente rum via KSampler. Dette sikrer, at diffusion modellen fokuserer udelukkende på at regenerere det maskerede område, mens det opretholder integriteten af de umaskerede områder.
M-LSD (Mobile Line Segment Detection) fokuserer på at detektere lige linjer, ideel til billeder med stærke arkitektoniske elementer, interiører og geometriske former. Det simplificerer scener til deres strukturelle essens, hvilket letter kreative projekter, der involverer menneskeskabte miljøer.
Preprocessors: MLSD.
Normalmaps muliggør simulering af komplekse lys- og tekstureffekter ved at modellere orienteringen af overflader i en visuel scene, i stedet for at stole på farvedata alene. Dette er kritisk for 3D-modellering og simulering opgaver.
Preprocessors: Normal BAE, Normal Midas
ControlNet Soft Edge er designet til at generere billeder med blødere kanter, med fokus på detaljekontrol og naturligt udseende. Det bruger avancerede neurale netværksteknikker til præcis billedmanipulation, hvilket tilbyder større kreativ frihed og problemfri blendingsmuligheder
Robusthed: SoftEdge_PIDI_safe > SoftEdge_HED_safe >> SoftEdge_PIDI > SoftEdge_HED
Maksimal resultatskvalitet: SoftEdge_HED > SoftEdge_PIDI > SoftEdge_HED_safe > SoftEdge_PIDI_safe
I betragtning af afvejningen anbefaler vi at bruge SoftEdge_PIDI som standard. I de fleste tilfælde fungerer det meget godt.
Preprocessors: SoftEdge_PIDI, SoftEdge_PIDI_safe, SoftEdge_HED, SoftEdge_HED_safe.
ControlNet IP2P (Instruct Pix2Pix) modellen skiller sig ud som en unik tilpasning inden for ControlNet rammeværket, skræddersyet til at udnytte Instruct Pix2Pix datasættet til billedtransformationer. Denne ControlNet variant adskiller sig ved at balancere mellem instruktionsprompter og beskrivelsesprompter under dens træningsfase. I modsætning til den konventionelle tilgang i officiel Instruct Pix2Pix, inkorporerer ControlNet IP2P en 50/50 blanding af disse prompttyper, hvilket forbedrer dens alsidighed og effektivitet i at generere ønskede resultater.
t2iadapter color: t2iadapter_color modellen er specifikt designet til at forbedre farvegengivelsen og nøjagtigheden i genererede billeder, når man bruger tekst-til-billede diffusion modeller. Ved at fokusere på farvetilpasning tillader denne model en mere nøjagtig og levende farvepalette, tættere på de beskrivelser, der er givet i tekstprompterne. Den er særlig nyttig til projekter, hvor farvetroskab og specificitet er afgørende, og tilføjer et nyt lag af realisme og detaljer til de genererede billeder.
t2iadapter style: t2iadapter_style modellen retter sig mod de stilistiske aspekter af billedgenerering, hvilket muliggør modifikation og kontrol over den kunstneriske stil i outputbillederne. Denne adapter tillader brugere at guide tekst-til-billede modellen mod at generere billeder, der overholder specifikke kunstneriske stilarter eller æstetikker, der er beskrevet i tekstprompterne. Det er et uvurderligt værktøj til kreative projekter, hvor billedets stil spiller en central rolle, og tilbyder en problemfri måde at blande traditionelle kunststilarter med moderne AI kapaciteter.
For disse segmenter, vil vi dedikere separate artikler til at give en grundig introduktion til hver, givet den betydelige mængde information, vi ønsker at dele.
Brug af flere ComfyUI ControlNets i ComfyUI indebærer en proces med at lagde eller kæde ControlNet modeller for at forfine billedgenereringen med mere præcise kontroller over forskellige aspekter som positur, form, stil og farve.
Således kan du bygge din workflow ved at anvende en ControlNet (f.eks. OpenPose) og derefter fodre dens output ind i en anden ControlNet (f.eks. Canny). Denne lagdelte anvendelse tillader detaljeret tilpasning af billedet, hvor hver ControlNet anvender sine specifikke transformationer eller kontroller. Processen tillader en raffineret kontrol over det endelige output, integreret flere aspekter guidet af forskellige ControlNets.
Hvis du er interesseret i at udforske ControlNet workflow, brug den følgende ComfyUI web. Den er fuldt udstyret med alle de essentielle kundeknuder og modeller, hvilket muliggør problemfri kreativitet uden behov for manuelle opsætninger. Få praktisk erfaring og bliv fortrolig med ControlNet's funktioner nu!
UI Workflow List](https://www.runcomfy.com/da/comfyui-workflows)🌟
© Ophavsret 2024 RunComfy. Alle rettigheder forbeholdes.