Omost, "Görüntünüz neredeyse hazır!" kısaltması, Büyük Dil Modellerinin (LLM) kodlama yeteneklerini görüntü oluşturma, daha doğrusu görüntü birleştirme yeteneklerine dönüştüren yenilikçi bir projedir. "Omost" ismi çift anlamlıdır: Her Omost kullanışınızda görüntünüz neredeyse tamamlanmış olur ve aynı zamanda "omni" (çok modlu) ve "most" (en iyi şekilde yararlanma) anlamlarını taşır.
Omost, Omost'un sanal Tuval ajanını kullanarak görüntü görsel içeriği oluşturmak için kod üreten önceden eğitilmiş LLM modelleri sunar. Bu Tuval, nihai görüntüleri oluşturmak için görüntü oluşturucuların belirli uygulamaları tarafından işlenebilir. Omost, görüntü oluşturma sürecini basitleştirmek ve geliştirmek için tasarlanmıştır, AI sanatçıları için erişilebilir ve verimli hale getirir.
Omost, görüntü öğelerinin tanımlandığı ve konumlandırıldığı sanal bir Tuval kullanır. Tuval, öğelerin hassas bir şekilde yerleştirilmesini sağlayan 9x9=81 pozisyondan oluşan bir ızgaraya bölünmüştür. Bu pozisyonlar, her öğe için 729 farklı olası konum sağlayan sınırlayıcı kutulara daha da ayrıntılı hale getirilir. Bu yapılandırılmış yaklaşım, öğelerin doğru ve tutarlı bir şekilde yerleştirilmesini sağlar.
Tuvaldeki öğelere, onları arka plandan ön plana katmanlara ayırmaya yardımcı olan bir distance_to_viewer
parametresi atanır. Bu parametre, daha yakın öğelerin daha uzaktakilerin önünde görünmesini sağlayan göreceli bir derinlik göstergesi olarak işlev görür. Ayrıca, HTML_web_color_name
parametresi, başlangıçta kaba bir renk temsili sağlar ve bu, difüzyon modelleri kullanılarak rafine edilebilir. Bu başlangıç rengi, kompozisyonu ince ayar yapmadan önce görselleştirmeye yardımcı olur.
Omost, ayrıntılı ve tutarlı görüntü kompozisyonları oluşturmak için kısa, bağımsız öğe açıklamaları olan alt komutları kullanır. Her alt komut 75'ten az token içerir ve bir öğeyi bağımsız olarak tanımlar. Bu alt komutlar, LLM'nin işlemesi için tam komutlar haline getirilir ve oluşturulan görüntülerin doğru ve anlamsal olarak zengin olmasını sağlar. Bu yöntem, metin kodlamasının verimli olmasını ve anlamsal kesilme hatalarını önler.
Omost, verilen açıklamalara dayanarak her görüntü parçasının doğru bir şekilde oluşturulmasını sağlamak için gelişmiş dikkat manipülasyon tekniklerini uygular. Dikkat puanı manipülasyonu gibi teknikler, maskelenmiş alanlar içindeki aktivasyonların teşvik edilmesini sağlarken, dışındakiler caydırılır. Bu dikkat üzerindeki hassas kontrol, yüksek kaliteli, bölgeye özgü görüntü oluşturma sağlar.
llm_name
: Yüklenecek önceden eğitilmiş LLM modelinin adı. Mevcut seçenekler şunları içerir:
lllyasviel/omost-phi-3-mini-128k-8bits
lllyasviel/omost-llama-3-8b-4bits
lllyasviel/omost-dolphin-2.9-llama3-8b-4bits
Bu parametre, her biri farklı yetenekler ve optimizasyonlar sunan hangi modelin yükleneceğini belirtir.
OMOST_LLM
: Yüklenen LLM modeli.Bu çıktı, görüntü açıklamaları ve kompozisyonları oluşturmak için hazır olan yüklenen LLM'yi sağlar.
llm
: OmostLLMLoader
tarafından yüklenen LLM modeli.text
: Görüntü oluşturmak için metin komutu. Bu, oluşturmak istediğiniz sahneyi veya öğeleri tanımladığınız ana giriştir.max_new_tokens
: Oluşturulacak yeni tokenların maksimum sayısı. Bu, oluşturulan metnin uzunluğunu kontrol eder, daha ayrıntılı açıklamalara izin veren daha yüksek bir sayı.top_p
: Oluşturulan çıktının çeşitliliğini kontrol eder. 1.0'a yakın bir değer daha çeşitli olasılıkları içerirken, daha düşük bir değer en olası sonuçlara odaklanır.temperature
: Oluşturulan çıktının rastgeleliğini kontrol eder. Daha yüksek değerler daha rastgele çıktılar üretirken, daha düşük değerler çıktıyı daha belirleyici hale getirir.conversation
(İsteğe bağlı): Önceki konuşma bağlamı. Bu, modelin önceki etkileşimlerden devam etmesine izin verir, bağlamı ve tutarlılığı korur.OMOST_CONVERSATION
: Yeni yanıt dahil olmak üzere konuşma geçmişi. Bu, diyaloğu takip etmeye ve birden fazla etkileşim boyunca bağlamı korumaya yardımcı olur.OMOST_CANVAS_CONDITIONING
: İşleme için oluşturulan Tuval şartlandırma parametreleri. Bu parametreler, öğelerin Tuval üzerindeki yerleşimini ve tanımını tanımlar.canvas_conds
: Tuval şartlandırma parametreleri. Bu parametreler, Tuval üzerindeki öğelerin ayrıntılı açıklamalarını ve konumlarını içerir.IMAGE
: Tuval şartlandırmasına dayalı olarak oluşturulan görüntü. Bu çıktı, şartlandırma parametrelerinden oluşturulan sahnenin görsel temsilidir.canvas_conds
: Tuval şartlandırma parametreleri.clip
: Metin kodlaması için CLIP modeli. Bu model, metin açıklamalarını görüntü oluşturucu tarafından kullanılabilecek vektörlere kodlar.global_strength
: Küresel şartlandırmanın gücü. Bu, genel açıklamanın görüntüyü ne kadar güçlü bir şekilde etkilediğini kontrol eder.region_strength
: Bölgesel şartlandırmanın gücü. Bu, belirli bölgesel açıklamaların kendi alanlarını ne kadar güçlü bir şekilde etkilediğini kontrol eder.overlap_method
: Örtüşen alanları ele alma yöntemi (örneğin, overlay
, average
). Bu, görüntüde örtüşen bölgelerin nasıl harmanlanacağını tanımlar.positive
(İsteğe bağlı): Ek pozitif şartlandırma. Bu, görüntünün belirli yönlerini geliştirmek için ek komutlar veya koşullar içerebilir.CONDITIONING
: Görüntü oluşturma için şartlandırma parametreleri. Bu parametreler, oluşturma sürecini yönlendirir ve çıktının tanımlanan sahneye uymasını sağlar.MASK
: Şartlandırma için kullanılan maske. Bu, belirli bölgelere ek koşullar uygulamak ve hata ayıklamak için yardımcı olur.json_str
: Tuval şartlandırma parametrelerini temsil eden JSON dizesi. Bu, bir JSON dosyasından önceden tanımlanmış şartların yüklenmesine olanak tanır.OMOST_CANVAS_CONDITIONING
: Yüklenen Tuval şartlandırma parametreleri. Bu parametreler, görüntü oluşturma için belirli şartlarla Tuvali başlatır.© Telif Hakkı 2024 RunComfy. Tüm Hakları Saklıdır.