เวิร์กโฟลว์ของ ComfyUI นี้ถูกออกแบบมาเพื่อสร้างแอนิเมชันจากภาพอ้างอิงโดยใช้ AnimateDiff และ IP-Adapter โหนด AnimateDiff ผสมผสานตัวเลือกของแบบจำลองและบริบทเพื่อปรับการเคลื่อนไหวของแอนิเมชัน ในทางกลับกัน โหนด IP-Adapter ช่วยให้สามารถใช้ภาพเป็น prompt ในลักษณะที่สามารถเลียนแบบสไตล์ องค์ประกอบ หรือคุณลักษณะใบหน้าของภาพอ้างอิงได้ ซึ่งช่วยเพิ่มการปรับแต่งและคุณภาพของแอนิเมชันหรือภาพที่สร้างขึ้นอย่างมาก
กรุณาดูรายละเอียดเพิ่มเติมที่ วิธีการใช้ AnimateDiff ใน ComfyUI
IP-Adapter ย่อมาจาก "Image Prompt Adapter" ซึ่งเป็นวิธีการใหม่ในการเพิ่มความสามารถในการใช้ภาพเป็น prompt ในงานสร้างภาพให้กับแบบจำลอง text-to-image diffusion IP-Adapter มุ่งเน้นที่จะแก้ไขข้อจำกัดของ text prompts ที่มักจะต้องใช้การปรับแต่ง prompt ที่ซับซ้อนเพื่อสร้างภาพที่ต้องการ การนำเสนอ image prompts ร่วมกับ text ช่วยให้มีวิธีการที่เป็นธรรมชาติและมีประสิทธิภาพมากขึ้นในการควบคุมกระบวนการสร้างภาพ
แบบจำลองต่าง ๆ ของ IP-Adapter
ชุด IP-Adapter ประกอบด้วยแบบจำลองหลายแบบ แต่ละแบบถูกออกแบบมาเพื่อการใช้งานเฉพาะและระดับความซับซ้อนของการสร้างภาพ นี่คือภาพรวมของแบบจำลองต่าง ๆ ที่มีอยู่:
3.1.1. v1.5 Models
ip-adapter_sd15
: แบบจำลองมาตรฐานสำหรับเวอร์ชัน 1.5 ซึ่งใช้พลังของ IP-Adapter สำหรับการปรับสภาพภาพต่อภาพและการเพิ่ม text promptip-adapter_sd15_light
: เวอร์ชันเบาของแบบจำลองมาตรฐาน ซึ่งเหมาะสำหรับการใช้งานที่ไม่ต้องการทรัพยากรมาก แต่ยังคงใช้เทคโนโลยี IP-Adapterip-adapter-plus_sd15
: แบบจำลองที่ปรับปรุงแล้วซึ่งสร้างภาพที่สอดคล้องกับภาพอ้างอิงดั้งเดิมมากขึ้น โดยปรับปรุงรายละเอียดที่ละเอียดอ่อนip-adapter-plus-face_sd15
: คล้ายกับ IP-Adapter Plus แต่เน้นการจำลองคุณลักษณะใบหน้าอย่างแม่นยำมากขึ้นในภาพที่สร้างip-adapter-full-face_sd15
: แบบจำลองที่เน้นรายละเอียดใบหน้าทั้งหมด โดยให้ผลลัพธ์ที่คล้ายกับการ "เปลี่ยนใบหน้า" ด้วยความชัดเจนสูงip-adapter_sd15_vit-G
: แบบจำลองที่ใช้ Vision Transformer (ViT) BigG image encoder สำหรับการสกัดรายละเอียดคุณลักษณะของภาพมากขึ้น3.1.2. SDXL Models
ip-adapter_sdxl
: แบบจำลองพื้นฐานสำหรับ SDXL ซึ่งถูกออกแบบมาเพื่อจัดการกับ prompt ภาพที่ใหญ่และซับซ้อนมากขึ้นip-adapter_sdxl_vit-h
: แบบจำลอง SDXL ที่จับคู่กับ ViT H image encoder เพื่อสมดุลระหว่างประสิทธิภาพกับการใช้ทรัพยากรip-adapter-plus_sdxl_vit-h
: เวอร์ชันขั้นสูงของแบบจำลอง SDXL ที่มีรายละเอียดและคุณภาพของ prompt ภาพที่ปรับปรุงip-adapter-plus-face_sdxl_vit-h
: เวอร์ชัน SDXL ที่เน้นรายละเอียดใบหน้า เหมาะสำหรับโครงการที่ต้องการความแม่นยำของใบหน้าเป็นหลัก3.1.3. FaceID Models
FaceID
: แบบจำลองที่ใช้ InsightFace เพื่อสกัด Face ID embeddings มอบวิธีการใหม่ในการสร้างภาพที่เกี่ยวข้องกับใบหน้าFaceID Plus
: เวอร์ชันปรับปรุงของแบบจำลอง FaceID ซึ่งรวม InsightFace สำหรับคุณลักษณะใบหน้าและ CLIP image encoding สำหรับคุณลักษณะใบหน้าทั่วไปFaceID Plus v2
: การปรับปรุงของ FaceID Plus ด้วย checkpoint แบบจำลองที่ปรับปรุงและความสามารถในการตั้งค่าน้ำหนักบน embedding ภาพของ CLIPFaceID Portrait
: แบบจำลองที่คล้ายกับ FaceID แต่ถูกออกแบบมาเพื่อรับภาพใบหน้าที่ถูกครอบหลายภาพเพื่อการปรับสภาพใบหน้าที่หลากหลายมากขึ้น3.1.4. SDXL FaceID Models
FaceID SDXL
: เวอร์ชัน SDXL ของ FaceID โดยคงใช้แบบจำลอง InsightFace เหมือนกับ v1.5 แต่ปรับขนาดสำหรับการใช้งาน SDXLFaceID Plus v2 SDXL
: การปรับตัวของ FaceID Plus v2 สำหรับ SDXL เพื่อการสร้างภาพความละเอียดสูงด้วยความชัดเจนที่ปรับปรุง3.2.1. การรวม text และ image prompt: ความสามารถพิเศษของ IP-Adapter ในการใช้ทั้ง text และ image prompts ช่วยให้สามารถสร้างภาพแบบ multimodal ซึ่งเป็นเครื่องมือที่หลากหลายและทรงพลังในการควบคุมผลลัพธ์ของแบบจำลอง diffusion
3.2.2. กลไกการข้ามความสนใจที่แยกออกจากกัน: IP-Adapter ใช้กลยุทธ์การข้ามความสนใจที่แยกออกจากกัน ซึ่งเพิ่มประสิทธิภาพของแบบจำลองในการประมวลผลรูปแบบที่หลากหลายโดยการแยกคุณลักษณะ text และ image
3.2.3. แบบจำลองน้ำหนักเบา: แม้ว่าจะมีฟังก์ชันที่ครอบคลุม แต่ IP-Adapter ยังมีจำนวนพารามิเตอร์ที่ค่อนข้างต่ำ (22M) โดยให้ประสิทธิภาพที่เทียบเท่าหรือเกินกว่าของแบบจำลองที่ปรับแต่ง image prompt
3.2.4. ความเข้ากันได้และการทั่วไป: IP-Adapter ถูกออกแบบมาเพื่อความเข้ากันได้กว้างกับเครื่องมือควบคุมที่มีอยู่และสามารถนำไปใช้กับแบบจำลองที่กำหนดเองที่มาจากแบบจำลองพื้นฐานเดียวกันเพื่อเพิ่มการทั่วไป
3.2.5. การควบคุมโครงสร้าง: IP-Adapter สนับสนุนการควบคุมโครงสร้างรายละเอียด เพื่อให้ผู้สร้างสามารถนำทางกระบวนการสร้างภาพได้อย่างแม่นยำมากขึ้น
3.2.6. ความสามารถในการสร้างภาพต่อภาพและการเติมภาพ: ด้วยการสนับสนุนการแปลภาพต่อภาพที่ใช้ภาพนำทางและการเติมภาพ IP-Adapter ขยายขอบเขตของการใช้งานที่เป็นไปได้ ทำให้เกิดการใช้งานที่สร้างสรรค์และเป็นประโยชน์ในงานสร้างภาพที่หลากหลาย
3.2.7. การปรับแต่งด้วย encoders ที่แตกต่างกัน: IP-Adapter อนุญาตให้ใช้ encoders ที่หลากหลาย เช่น OpenClip ViT H 14 และ ViT BigG 14 เพื่อประมวลผลภาพอ้างอิง ความยืดหยุ่นนี้ช่วยให้สามารถจัดการกับความละเอียดและความซับซ้อนของภาพที่แตกต่างกัน ทำให้เป็นเครื่องมือที่หลากหลายสำหรับผู้สร้างที่ต้องการปรับกระบวนการสร้างภาพให้ตรงกับความต้องการหรือผลลัพธ์ที่ต้องการ
การนำเทคโนโลยี IP-Adapter มาใช้ในโครงการสร้างภาพไม่เพียงแต่ทำให้การสร้างภาพที่ซับซ้อนและละเอียดอ่อนง่ายขึ้น แต่ยังช่วยเพิ่มคุณภาพและความชัดเจนของภาพที่สร้างขึ้นให้ตรงกับ prompts ดั้งเดิมอย่างมาก โดยการเชื่อมช่องว่างระหว่าง text และ image prompts IP-Adapter มอบวิธีการที่ทรงพลัง เป็นธรรมชาติ และมีประสิทธิภาพในการควบคุมรายละเอียดของการสร้างภาพ ทำให้เป็นเครื่องมือที่ขาดไม่ได้ในคลังอาวุธของศิลปินดิจิทัล นักออกแบบ และผู้สร้างที่ทำงานภายในเวิร์กโฟลว์ของ ComfyUI หรือบริบทอื่น ๆ ที่ต้องการการสร้างภาพที่มีคุณภาพสูงและปรับแต่งได้
© ลิขสิทธิ์ 2024 RunComfy. สงวนลิขสิทธิ์