PhotoMakerV2란 무엇인가
PhotoMakerV2는 PhotoMaker의 업그레이드 버전으로, 개인화된 텍스트-이미지 생성을 위한 효율적인 방법을 제공합니다. 몇 장의 입력 정체성 이미지와 텍스트 프롬프트를 사용하여 현실적인 사진을 합성합니다.
PhotoMakerV2의 주요 기능:
- 높은 효율성: 개인화된 사진을 빠르게 생성합니다.
- 우수한 정체성 보존: 입력된 정체성의 유사성을 유지합니다.
- 유연한 텍스트 제어: 프롬프트에서 맥락, 스타일, 속성 등을 지정할 수 있습니다.
- 향상된 정체성 보존: PhotoMaker V1에 비해 개선되었습니다.
PhotoMakerV2는 다양한 맥락에서 개인의 사진을 현실적으로 생성하고, 외모를 스타일링하며, 나이와 성별 같은 속성을 변경하고, 정체성을 병합하며, 오래된 사진이나 예술 작품에서 사람들을 현대화합니다. 수많은 창의적 가능성을 열어줍니다.
PhotoMakerV2 작동 방식
PhotoMakerV2는 하나 이상의 입력 정체성 이미지를 "stacked ID embedding"으로 인코딩하여 정체성 정보를 캡슐화한 통합 표현으로 사용합니다.
이 임베딩은 텍스트 프롬프트와 결합되어 텍스트-이미지 확산 모델에 입력됩니다. 모델은 프롬프트에 설명된 맥락에서 임베딩된 정체성을 묘사하는 이미지를 생성합니다.
작동 방식의 주요 측면:
- 입력된 얼굴 이미지에서 정체성 정보를 추출하기 위해 정체성 인코더를 사용합니다
- 외부 얼굴 인식 모델(InsightFace)을 활용하여 정체성 보존을 개선합니다
- 정체성을 포괄적으로 캡처하기 위해 여러 정체성 이미지를 스택 임베딩에 인코딩합니다
- 스택 ID 임베딩을 확산 모델의 교차 주의 계층에 입력합니다
- 텍스트 프롬프트로 생성 과정을 안내하면서 정체성 정보를 적응적으로 병합합니다
- 정체성 지향 데이터셋으로 훈련하여 식별 능력을 향상시킵니다
ComfyUI PhotoMakerV2 사용법
ComfyUI에서 PhotoMakerV2를 사용하려면 주로 PhotoMakerEncodePlus 노드와 상호작용합니다. 일반적인 워크플로우는 다음과 같습니다:
- "PhotoMaker Loader Plus" 노드를 사용하여 PhotoMakerV2 모델을 로드합니다.
- "Prepare Images For CLIP Vision" 노드를 사용하여 하나 이상의 정체성 이미지를 로드합니다.
- "PhotoMaker InsightFace Loader" 노드를 사용하여 PhotoMakerV2에 필요한 InsightFace 모델을 로드합니다.
- 이러한 노드의 출력을 "PhotoMaker Encode Plus" 노드의 해당 입력에 연결합니다.
- "PhotoMaker Encode Plus" 노드에서 원하는 이미지를 설명하는 프롬프트를 지정합니다. 정체성이 나타나야 하는 프롬프트에 특별한 트리거 단어를 사용합니다.
- "PhotoMaker Encode Plus"의 출력 조건을 "KSampler" 노드에 연결하여 이미지를 생성합니다.
자세한 내용은 및 를 방문하십시오. 모든 공로는 그들의 기여에 돌아갑니다.