Omost ย่อมาจาก "ภาพของคุณเกือบเสร็จแล้ว!" เป็นโครงการนวัตกรรมที่แปลงความสามารถในการเขียนโค้ดของ Large Language Models (LLM) เป็นการสร้างภาพ หรือการประกอบภาพอย่างแม่นยำ ชื่อ "Omost" มีความหมายสองประการ: มันบอกว่าเมื่อใดก็ตามที่คุณใช้ Omost ภาพของคุณเกือบสมบูรณ์แล้ว และยังหมายถึง "omni" (multi-modal) และ "most" (ได้รับประโยชน์สูงสุดจากมัน)
Omost มีโมเดล LLM ที่ผ่านการฝึกอบรมล่วงหน้าที่สร้างโค้ดเพื่อประกอบเนื้อหาภาพด้วยตัวแทน Canvas เสมือนของ Omost ซึ่ง Canvas นี้สามารถถูกแสดงผลโดยการนำไปใช้ของเครื่องสร้างภาพเฉพาะเพื่อสร้างภาพสุดท้าย Omost ออกแบบมาเพื่อทำให้กระบวนการสร้างภาพง่ายและมีประสิทธิภาพสำหรับศิลปิน AI
Omost ใช้ Canvas เสมือนที่องค์ประกอบของภาพถูกอธิบายและวางตำแหน่ง Canvas ถูกแบ่งออกเป็นตาราง 9x9=81 ตำแหน่ง ทำให้สามารถวางองค์ประกอบได้อย่างแม่นยำ ตำแหน่งเหล่านี้ถูกปรับให้ละเอียดขึ้นเป็นกล่องขอบเขต ทำให้มีตำแหน่งที่เป็นไปได้ 729 ตำแหน่งสำหรับแต่ละองค์ประกอบ วิธีการที่มีโครงสร้างนี้รับรองว่าองค์ประกอบถูกวางอย่างแม่นยำและสม่ำเสมอ
องค์ประกอบบน Canvas ได้รับการกำหนดพารามิเตอร์ distance_to_viewer
ซึ่งช่วยจัดเรียงเป็นชั้นจากพื้นหลังไปยังเบื้องหน้า พารามิเตอร์นี้ทำหน้าที่เป็นตัวบ่งชี้ความลึกสัมพัทธ์ รับรองว่าองค์ประกอบที่ใกล้กว่าจะปรากฏอยู่ด้านหน้าขององค์ประกอบที่อยู่ไกลออกไป นอกจากนี้ พารามิเตอร์ HTML_web_color_name
ยังให้การแทนสีหยาบสำหรับการแสดงผลเบื้องต้น ซึ่งสามารถปรับปรุงด้วยโมเดล diffusion สีเริ่มต้นนี้ช่วยในการมองเห็นการประกอบก่อนการปรับแต่ง
Omost ใช้ sub-prompts ซึ่งเป็นคำอธิบายสั้น ๆ ที่เป็นอิสระขององค์ประกอบ เพื่อสร้างการประกอบภาพที่ละเอียดและสอดคล้องกัน แต่ละ sub-prompt มีน้อยกว่า 75 โทเคนและอธิบายองค์ประกอบอย่างอิสระ Sub-prompts เหล่านี้ถูกรวมเข้าด้วยกันเป็น prompts ที่สมบูรณ์สำหรับ LLM ในการประมวลผล รับรองว่าภาพที่สร้างขึ้นมีความแม่นยำและมีความหมาย วิธีการนี้รับรองว่าการเข้ารหัสข้อความมีประสิทธิภาพและหลีกเลี่ยงข้อผิดพลาดในการตัดข้อความที่มีความหมาย
Omost ใช้เทคนิคการจัดการความสนใจขั้นสูงเพื่อจัดการ prompt ภูมิภาค รับรองว่าทุกส่วนของภาพถูกสร้างขึ้นอย่างถูกต้องตามคำอธิบายที่ให้ เทคนิคเช่นการจัดการคะแนนความสนใจรับรองว่าการกระตุ้นภายในพื้นที่ที่ถูกปิดกั้นได้รับการส่งเสริม ในขณะที่พื้นที่ภายนอกถูกลดทอน การควบคุมความสนใจอย่างแม่นยำนี้ส่งผลให้การสร้างภาพที่มีคุณภาพสูงและเฉพาะภูมิภาค
llm_name
: ชื่อของโมเดล LLM ที่ผ่านการฝึกอบรมล่วงหน้าที่จะโหลด ตัวเลือกที่มีได้แก่:
lllyasviel/omost-phi-3-mini-128k-8bits
lllyasviel/omost-llama-3-8b-4bits
lllyasviel/omost-dolphin-2.9-llama3-8b-4bits
พารามิเตอร์นี้กำหนดว่าจะโหลดโมเดลใด โดยแต่ละโมเดลมีความสามารถและการปรับให้เหมาะสมที่แตกต่างกัน
OMOST_LLM
: โมเดล LLM ที่โหลดแล้วเอาต์พุตนี้ให้โมเดล LLM ที่โหลดแล้ว พร้อมที่จะสร้างคำอธิบายและการประกอบภาพ
llm
: โมเดล LLM ที่โหลดโดย OmostLLMLoader
text
: ข้อความ prompt เพื่อสร้างภาพ นี่คืออินพุตหลักที่คุณอธิบายฉากหรือองค์ประกอบที่คุณต้องการสร้างmax_new_tokens
: จำนวนโทเคนใหม่สูงสุดที่จะสร้าง สิ่งนี้ควบคุมความยาวของข้อความที่สร้าง โดยจำนวนที่สูงกว่าจะอนุญาตให้มีคำอธิบายที่ละเอียดขึ้นtop_p
: ควบคุมความหลากหลายของผลลัพธ์ที่สร้าง ค่าใกล้ 1.0 รวมความเป็นไปได้ที่หลากหลายมากขึ้น ในขณะที่ค่าที่ต่ำกว่าจะเน้นที่ผลลัพธ์ที่เป็นไปได้มากที่สุดtemperature
: ควบคุมความสุ่มของผลลัพธ์ที่สร้าง ค่าที่สูงขึ้นส่งผลให้มีผลลัพธ์ที่สุ่มมากขึ้น ในขณะที่ค่าที่ต่ำกว่าจะทำให้ผลลัพธ์มีความแน่นอนมากขึ้นconversation
(ไม่บังคับ): บริบทการสนทนาก่อนหน้า สิ่งนี้ทำให้โมเดลสามารถดำเนินการต่อจากการโต้ตอบก่อนหน้า รักษาบริบทและความสอดคล้องกันOMOST_CONVERSATION
: ประวัติการสนทนา รวมถึงการตอบสนองใหม่ สิ่งนี้ช่วยในการติดตามการสนทนาและรักษาบริบทในการโต้ตอบหลายครั้งOMOST_CANVAS_CONDITIONING
: พารามิเตอร์การปรับสภาพ Canvas ที่สร้างขึ้นสำหรับการแสดงผล พารามิเตอร์เหล่านี้กำหนดวิธีการวางและอธิบายองค์ประกอบบน Canvascanvas_conds
: พารามิเตอร์การปรับสภาพ Canvas พารามิเตอร์เหล่านี้รวมถึงคำอธิบายและตำแหน่งขององค์ประกอบบน CanvasIMAGE
: ภาพที่แสดงผลตามการปรับสภาพ Canvas เอาต์พุตนี้เป็นการแสดงผลภาพของฉากที่อธิบาย ซึ่งสร้างจากพารามิเตอร์การปรับสภาพcanvas_conds
: พารามิเตอร์การปรับสภาพ Canvasclip
: โมเดล CLIP สำหรับการเข้ารหัสข้อความ โมเดลนี้เข้ารหัสคำอธิบายข้อความเป็นเวกเตอร์ที่สามารถใช้โดยเครื่องสร้างภาพglobal_strength
: ความแข็งแรงของการปรับสภาพทั่วโลก สิ่งนี้ควบคุมว่าคำอธิบายโดยรวมมีผลกระทบต่อภาพมากแค่ไหนregion_strength
: ความแข็งแรงของการปรับสภาพภูมิภาค สิ่งนี้ควบคุมว่าคำอธิบายภูมิภาคเฉพาะมีผลกระทบต่อพื้นที่ที่เกี่ยวข้องมากแค่ไหนoverlap_method
: วิธีการจัดการพื้นที่ที่ทับซ้อนกัน (เช่น overlay
, average
) สิ่งนี้กำหนดวิธีการผสมพื้นที่ที่ทับซ้อนกันในภาพpositive
(ไม่บังคับ): การปรับสภาพเชิงบวกเพิ่มเติม สิ่งนี้สามารถรวม prompt หรือเงื่อนไขเพิ่มเติมเพื่อเพิ่มประสิทธิภาพด้านเฉพาะของภาพCONDITIONING
: พารามิเตอร์การปรับสภาพสำหรับการสร้างภาพ พารามิเตอร์เหล่านี้แนะนำกระบวนการสร้างภาพ รับรองว่าผลลัพธ์ตรงกับฉากที่อธิบายMASK
: หน้ากากที่ใช้สำหรับการปรับสภาพ สิ่งนี้ช่วยในการดีบักและการปรับเงื่อนไขเพิ่มเติมให้กับภูมิภาคเฉพาะjson_str
: สตริง JSON ที่แสดงถึงพารามิเตอร์การปรับสภาพ Canvas สิ่งนี้ช่วยในการโหลดเงื่อนไขที่กำหนดไว้ล่วงหน้าจากไฟล์ JSONOMOST_CANVAS_CONDITIONING
: พารามิเตอร์การปรับสภาพ Canvas ที่โหลดแล้ว พารามิเตอร์เหล่านี้เป็นการเริ่มต้น Canvas ด้วยเงื่อนไขเฉพาะ พร้อมสำหรับการสร้างภาพ© ลิขสิทธิ์ 2024 RunComfy. สงวนลิขสิทธิ์