ComfyUI  >  Arbeidsflyter  >  PuLID | Nøyaktig ansiktsinnfelling for tekst til bilde

PuLID | Nøyaktig ansiktsinnfelling for tekst til bilde

I denne ComfyUI PuLID-arbeidsflyten bruker vi PuLID-noder for å enkelt legge til en bestemt persons ansikt til en forhåndstrent tekst-til-bilde (T2I) modell. Dette lar deg lage høykvalitets, realistiske ansiktsbilder som nøyaktig fanger personens likhet. Vi bruker også IPAdapter Plus for stiloverføring, noe som gir deg presis kontroll over både ansiktstrekkene og den kunstneriske stilen til bildene. Denne kombinasjonen sikrer at de genererte bildene ikke bare ser ut som individet, men også samsvarer med ønsket visuell estetikk.

ComfyUI PuLID Arbeidsflyt

ComfyUI PuLID Workflow
Vil du kjøre denne arbeidsflyten?
  • Fullt operasjonelle arbeidsflyter
  • Ingen manglende noder eller modeller
  • Ingen manuelle oppsett kreves
  • Har fantastiske visuelle effekter

ComfyUI PuLID Eksempler

comfyui-pulid-customized-face-generation-1095

ComfyUI PuLID Beskrivelse

Hva er PuLID?

PuLID (Pure and Lightning ID customization) er en ny metode for tuning-fri identitets (ID) tilpasning i tekst-til-bilde genereringsmodeller. Det har som mål å integrere en spesifikk ID (f.eks. en persons ansikt) i en forhåndstrent tekst-til-bilde modell uten å forstyrre modellens opprinnelige evner. Dette gjør det mulig å generere bilder av den spesifikke personen mens man fortsatt kan endre attributter, stiler, bakgrunner osv. ved hjelp av tekstprompter.

PuLID inkorporerer to nøkkelkomponenter:

  1. En "Lightning T2I" gren som raskt genererer høykvalitetsbilder betinget av ID i bare noen få denoiseringssteg, sammen med den standard diffusjonsgrenen. Dette gjør det mulig å beregne et nøyaktig ID-tap for å forbedre troverdigheten til det genererte ansiktet.
  2. Kontrastive justeringstap mellom Lightning T2I-baner med og uten ID-betingelse. Dette instruerer modellen om hvordan man integrerer ID-informasjonen uten å forurense modellens opprinnelige evne til å følge prompter og generere bilder.

Hvordan PuLID fungerer

PuLIDs arkitektur består av en konvensjonell diffusjonstreningsgren og den nye Lightning T2I-grenen:

  1. I diffusjonsgrenen følger PuLID den standard diffusjonstreningsprosessen med iterativ denoising. ID-betingelsen er beskåret fra måltreningsbildet.
  2. Lightning T2I-grenen utnytter nylige hurtigprøvetakingsmetoder for å generere et høykvalitetsbilde betinget av ID-prompten i bare 4 denoiseringssteg, startende fra ren støy.
  3. Innenfor Lightning T2I-grenen er to stier konstruert - en betinget kun av tekstprompten, den andre betinget av både ID og tekstprompten. UNET-funksjonene til disse stiene er justert ved hjelp av kontrastive tap:
    • Et semantisk justeringstap sikrer at modellens respons på tekstprompten er lik med og uten ID-betingelse. Dette bevarer modellens opprinnelige evne til å følge prompter.
    • Et layoutjusteringstap opprettholder konsistensen i det genererte bildelayoutet før og etter ID-innsetting.
  4. Lightning T2I-grenen gjør det mulig å beregne et nøyaktig ID-tap mellom den genererte ansiktsinnfellingen og den virkelige ID-innfellingen, siden den produserer et rent, denoised utgangsansikt. Dette forbedrer troverdigheten til den genererte ID.

Hvordan bruke ComfyUI PuLID

Bruk av ComfyUI PuLID-arbeidsflyten for å anvende ID-tilpasning til en modell involverer flere nøkkelparametere i "Apply PuLID"-noden:

ComfyUI PuLID

"Apply PuLID" påkrevde innganger:

  • model: Basen tekst-til-bilde diffusjonsmodell som skal tilpasses med den spesifikke ID. Dette er vanligvis en forhåndstrent modell som Stable Diffusion.
  • pulid: De lastede PuLID modellvektene, som definerer hvordan ID-informasjonen blir satt inn i basemodellen. Ulike PuLID vektfiler kan trenes for å prioritere enten ID-troverdighet eller bevaring av modellens opprinnelige genereringsstil.
  • eva_clip: Den lastede Eva-CLIP-modellen for koding av ansiktstrekk fra ID-referansebildet(ene). Eva-CLIP produserer en meningsfull ansiktstrekkinnfelling.
  • face_analysis: Den lastede InsightFace-modellen for å gjenkjenne og beskjære ansiktet i ID-referansebildet(ene). Dette sikrer at bare relevante ansiktstrekk blir kodet.
  • image: Referansebildet eller bildene som viser den spesifikke ID som skal settes inn i modellen. Flere bilder av samme identitet kan gis for å forbedre ID-innfellingen.
  • method: Velger ID-innsettingsmetoden, med alternativer "fidelity", "style" og "neutral". "fidelity" prioriterer maksimal likhet med ID-referansen selv om genereringskvaliteten forringes. "style" fokuserer på å bevare modellens opprinnelige genereringsevner med en lavere ID-troverdighet. "neutral" balanserer de to.
  • weight: Kontrollerer styrken til ID-innsettingen, fra 0 (ingen effekt) til 5 (ekstremt sterk). Standard er 1. Høyere vekt forbedrer ID-troverdigheten, men risikerer å overstyre modellens opprinnelige generering.
  • start_at: Denoising-steg (som en prosentandel fra 0 til 1) for å begynne å anvende PuLID ID-tilpasningen. Standard er 0, som starter ID-innsettingen fra det første denoising-steg. Kan økes for å starte ID-innsettingen senere i denoising-prosessen.
  • end_at: Denoising-steg (som en prosentandel fra 0 til 1) for å stoppe å anvende PuLID ID-tilpasningen. Standard er 1, som anvender ID-innsettingen til slutten av denoising. Kan reduseres for å stoppe ID-innsettingen før de siste denoising-stegene.

"Apply PuLID" valgfrie innganger:

  • attn_mask: Et valgfritt gråskalamaskebilde for å kontrollere romlig hvor ID-tilpasningen anvendes. Hvite områder av masken mottar full ID-innsettingseffekt, svarte områder er upåvirket, grå områder mottar delvis effekt. Nyttig for å lokalisere ID til bare ansiktsregionen.

"Apply PuLID" utganger:

  • MODEL: Inngangsmodellen med PuLID ID-tilpasningen anvendt. Denne tilpassede modellen kan brukes i andre ComfyUI-noder for bildegenerering. De genererte bildene vil avbilde ID-en mens de fortsatt er kontrollerbare via prompt.

Justering av disse parameterne lar deg finjustere PuLID ID-innsettingen for å oppnå ønsket balanse mellom ID-troverdighet og genereringskvalitet. Generelt gir en vekt på 1 med metode "neutral" et pålitelig utgangspunkt, som deretter kan justeres basert på resultatene. Start_at og end_at-parametrene gir ytterligere kontroll over når ID trer i kraft i denoising, med mulighet for å lokalisere effekten via en attn_mask.

For mer informasjon, vennligst besøk github

Vil du ha Flere ComfyUI Arbeidsflyter?

RunComfy

© Opphavsrett 2024 RunComfy. Alle Rettigheter Forbeholdt.

RunComfy er den fremste ComfyUI plattformen, som tilbyr ComfyUI online miljø og tjenester, sammen med ComfyUI arbeidsflyter med fantastiske visuelle effekter.