PhotoMakerV2とは
PhotoMakerV2は、PhotoMakerのアップグレード版で、個人向けのテキストから画像生成の効率的な方法を提供します。少数の入力アイデンティティ画像とテキストプロンプトを使用して、リアルな写真を合成します。
PhotoMakerV2の主な機能:
- 高効率: 短時間で個人写真を生成します。
- 優れたアイデンティティ保護: 入力アイデンティティの特徴を保ちます。
- 柔軟なテキスト制御: プロンプトでコンテキスト、スタイル、属性などを指定できます。
- 向上したアイデンティティの忠実度: PhotoMaker V1と比較して向上。
PhotoMakerV2は、さまざまなコンテキストで人物のフォトリアリスティックな画像を生成し、外観をスタイリングし、年齢や性別などの属性を変更し、アイデンティティを統合し、古い写真やアートワークから人々を現代風にします。数多くの創造的な可能性を解き放ちます。
PhotoMakerV2の仕組み
PhotoMakerV2は、1つ以上の入力アイデンティティ画像を"stacked ID embedding"にエンコードし、アイデンティティ情報をカプセル化した統一表現として機能します。
このエンベディングはテキストプロンプトと組み合わせて、テキストから画像へのディフュージョンモデルに入力されます。モデルは次に、プロンプトで説明されたコンテキストで埋め込まれたアイデンティティを描写する画像を生成します。
仕組みの主要な側面:
- アイデンティティエンコーダーを使用して入力顔画像からアイデンティティ情報を抽出
- 外部の顔認識モデル(InsightFace)を活用してアイデンティティ保護を向上
- 複数のアイデンティティ画像をスタックエンベディングにエンコードして包括的にアイデンティティをキャプチャ
- スタックIDエンベディングをディフュージョンモデルのクロスアテンションレイヤーに入力
- テキストプロンプトで生成をガイドしながらアイデンティティ情報を適応的に統合
- アイデンティティ指向のデータセットでトレーニングして識別能力を向上
ComfyUI PhotoMakerV2の使用方法
ComfyUIでPhotoMakerV2を使用するには、主にPhotoMakerEncodePlusノードを操作します。典型的なワークフローは次のとおりです:
- "PhotoMaker Loader Plus"ノードを使用してPhotoMakerV2モデルをロードします。
- "Prepare Images For CLIP Vision"ノードを使用して1つ以上のアイデンティティ画像をロードします。
- PhotoMakerV2に必要なInsightFaceモデルを"PhotoMaker InsightFace Loader"ノードを使用してロードします。
- これらのノードの出力を"PhotoMaker Encode Plus"ノードの対応する入力に接続します。
- "PhotoMaker Encode Plus"ノードで、希望する画像を説明するプロンプトを指定します。アイデンティティが表示されるべき場所に特別なトリガーワードを使用します。
- "PhotoMaker Encode Plus"からの出力条件を"KSampler"ノードに接続して画像を生成します。
詳細については、およびをご覧ください。すべてのクレジットはそれらの貢献に帰属します。