Hva er PuLID?
PuLID (Pure and Lightning ID customization) er en ny metode for tuning-fri identitets (ID) tilpasning i tekst-til-bilde genereringsmodeller. Det har som mål å integrere en spesifikk ID (f.eks. en persons ansikt) i en forhåndstrent tekst-til-bilde modell uten å forstyrre modellens opprinnelige evner. Dette gjør det mulig å generere bilder av den spesifikke personen mens man fortsatt kan endre attributter, stiler, bakgrunner osv. ved hjelp av tekstprompter.
PuLID inkorporerer to nøkkelkomponenter:
- En "Lightning T2I" gren som raskt genererer høykvalitetsbilder betinget av ID i bare noen få denoiseringssteg, sammen med den standard diffusjonsgrenen. Dette gjør det mulig å beregne et nøyaktig ID-tap for å forbedre troverdigheten til det genererte ansiktet.
- Kontrastive justeringstap mellom Lightning T2I-baner med og uten ID-betingelse. Dette instruerer modellen om hvordan man integrerer ID-informasjonen uten å forurense modellens opprinnelige evne til å følge prompter og generere bilder.
Hvordan PuLID fungerer
PuLIDs arkitektur består av en konvensjonell diffusjonstreningsgren og den nye Lightning T2I-grenen:
- I diffusjonsgrenen følger PuLID den standard diffusjonstreningsprosessen med iterativ denoising. ID-betingelsen er beskåret fra måltreningsbildet.
- Lightning T2I-grenen utnytter nylige hurtigprøvetakingsmetoder for å generere et høykvalitetsbilde betinget av ID-prompten i bare 4 denoiseringssteg, startende fra ren støy.
- Innenfor Lightning T2I-grenen er to stier konstruert - en betinget kun av tekstprompten, den andre betinget av både ID og tekstprompten. UNET-funksjonene til disse stiene er justert ved hjelp av kontrastive tap:
- Et semantisk justeringstap sikrer at modellens respons på tekstprompten er lik med og uten ID-betingelse. Dette bevarer modellens opprinnelige evne til å følge prompter.
- Et layoutjusteringstap opprettholder konsistensen i det genererte bildelayoutet før og etter ID-innsetting.
- Lightning T2I-grenen gjør det mulig å beregne et nøyaktig ID-tap mellom den genererte ansiktsinnfellingen og den virkelige ID-innfellingen, siden den produserer et rent, denoised utgangsansikt. Dette forbedrer troverdigheten til den genererte ID.
Hvordan bruke ComfyUI PuLID
Bruk av ComfyUI PuLID-arbeidsflyten for å anvende ID-tilpasning til en modell involverer flere nøkkelparametere i "Apply PuLID"-noden:
"Apply PuLID" påkrevde innganger:
- model: Basen tekst-til-bilde diffusjonsmodell som skal tilpasses med den spesifikke ID. Dette er vanligvis en forhåndstrent modell som Stable Diffusion.
- pulid: De lastede PuLID modellvektene, som definerer hvordan ID-informasjonen blir satt inn i basemodellen. Ulike PuLID vektfiler kan trenes for å prioritere enten ID-troverdighet eller bevaring av modellens opprinnelige genereringsstil.
- eva_clip: Den lastede Eva-CLIP-modellen for koding av ansiktstrekk fra ID-referansebildet(ene). Eva-CLIP produserer en meningsfull ansiktstrekkinnfelling.
- face_analysis: Den lastede InsightFace-modellen for å gjenkjenne og beskjære ansiktet i ID-referansebildet(ene). Dette sikrer at bare relevante ansiktstrekk blir kodet.
- image: Referansebildet eller bildene som viser den spesifikke ID som skal settes inn i modellen. Flere bilder av samme identitet kan gis for å forbedre ID-innfellingen.
- method: Velger ID-innsettingsmetoden, med alternativer "fidelity", "style" og "neutral". "fidelity" prioriterer maksimal likhet med ID-referansen selv om genereringskvaliteten forringes. "style" fokuserer på å bevare modellens opprinnelige genereringsevner med en lavere ID-troverdighet. "neutral" balanserer de to.
- weight: Kontrollerer styrken til ID-innsettingen, fra 0 (ingen effekt) til 5 (ekstremt sterk). Standard er 1. Høyere vekt forbedrer ID-troverdigheten, men risikerer å overstyre modellens opprinnelige generering.
- start_at: Denoising-steg (som en prosentandel fra 0 til 1) for å begynne å anvende PuLID ID-tilpasningen. Standard er 0, som starter ID-innsettingen fra det første denoising-steg. Kan økes for å starte ID-innsettingen senere i denoising-prosessen.
- end_at: Denoising-steg (som en prosentandel fra 0 til 1) for å stoppe å anvende PuLID ID-tilpasningen. Standard er 1, som anvender ID-innsettingen til slutten av denoising. Kan reduseres for å stoppe ID-innsettingen før de siste denoising-stegene.
"Apply PuLID" valgfrie innganger:
- attn_mask: Et valgfritt gråskalamaskebilde for å kontrollere romlig hvor ID-tilpasningen anvendes. Hvite områder av masken mottar full ID-innsettingseffekt, svarte områder er upåvirket, grå områder mottar delvis effekt. Nyttig for å lokalisere ID til bare ansiktsregionen.
"Apply PuLID" utganger:
- MODEL: Inngangsmodellen med PuLID ID-tilpasningen anvendt. Denne tilpassede modellen kan brukes i andre ComfyUI-noder for bildegenerering. De genererte bildene vil avbilde ID-en mens de fortsatt er kontrollerbare via prompt.
Justering av disse parameterne lar deg finjustere PuLID ID-innsettingen for å oppnå ønsket balanse mellom ID-troverdighet og genereringskvalitet. Generelt gir en vekt på 1 med metode "neutral" et pålitelig utgangspunkt, som deretter kan justeres basert på resultatene. Start_at og end_at-parametrene gir ytterligere kontroll over når ID trer i kraft i denoising, med mulighet for å lokalisere effekten via en attn_mask.
For mer informasjon, vennligst besøk github