Omost, kort for "Bildet ditt er nesten der!", er et innovativt prosjekt som konverterer Large Language Models' (LLM) kodingskapasiteter til bildegenerering, eller mer presist, bildekomponeringsevner. Navnet "Omost" har en dobbel betydning: det antyder at hver gang du bruker Omost, er bildet ditt nesten komplett, og det betyr også "omni" (multi-modal) og "most" (få mest ut av det).
Omost gir forhåndstrente LLM-modeller som genererer kode for å komponere visuell bildeinnhold ved hjelp av Omost's virtuelle Canvas-agent. Dette Canvas kan deretter gjengis av spesifikke implementeringer av bildegeneratorer for å lage de endelige bildene. Omost er designet for å forenkle og forbedre bildegenereringsprosessen, noe som gjør det tilgjengelig og effektivt for AI-kunstnere.
Omost bruker et virtuelt Canvas hvor elementer av bildet er beskrevet og plassert. Canvas er delt inn i et rutenett på 9x9=81 posisjoner, som tillater presis plassering av elementer. Disse posisjonene er ytterligere raffinert til avgrensningsbokser, som gir 729 forskjellige mulige plasseringer for hvert element. Denne strukturerte tilnærmingen sikrer at elementene plasseres nøyaktig og konsekvent.
Elementer på Canvas er tildelt en distance_to_viewer
-parameter, som hjelper til med å sortere dem i bakgrunn-til-forgrunn lag. Denne parameteren fungerer som en relativ dybdeindikator, og sikrer at nærmere elementer vises foran de som er lengre borte. I tillegg gir HTML_web_color_name
-parameteren en grov fargegjengivelse for innledende rendering, som kan raffineres ved bruk av diffusjonsmodeller. Denne innledende fargen hjelper med å visualisere komposisjonen før finjustering.
Omost bruker sub-prompts, som er korte, selvstendige beskrivelser av elementer, for å generere detaljerte og sammenhengende bildekomposisjoner. Hver sub-prompt er mindre enn 75 tokens og beskriver et element uavhengig. Disse sub-prompts er slått sammen til komplette prompts for LLM å prosessere, noe som sikrer at de genererte bildene er nøyaktige og semantisk rike. Denne metoden sikrer at tekstkoding er effektiv og unngår semantiske avkortingsfeil.
Omost implementerer avanserte oppmerksomhetsmanipuleringsteknikker for å håndtere regionale prompts, som sikrer at hver del av bildet genereres nøyaktig basert på de gitte beskrivelsene. Teknikker som manipulering av oppmerksomhetspoeng sikrer at aktiveringene innenfor maskerte områder oppmuntres, mens de utenfor avskrekker. Denne presise kontrollen over oppmerksomheten resulterer i høykvalitets, regionsspesifikk bildegenerering.
llm_name
: Navnet på den forhåndstrente LLM-modellen som skal lastes. Tilgjengelige alternativer inkluderer:
lllyasviel/omost-phi-3-mini-128k-8bits
lllyasviel/omost-llama-3-8b-4bits
lllyasviel/omost-dolphin-2.9-llama3-8b-4bits
Denne parameteren spesifiserer hvilken modell som skal lastes, hver med forskjellige kapasiteter og optimaliseringer.
OMOST_LLM
: Den lastede LLM-modellen.Denne utdataen gir den lastede LLM, klar til å generere bildebeskrivelser og komposisjoner.
llm
: LLM-modellen lastet av OmostLLMLoader
.text
: Tekstprompten for å generere et bilde. Dette er hovedinnputen hvor du beskriver scenen eller elementene du vil generere.max_new_tokens
: Maksimalt antall nye tokens som skal genereres. Dette kontrollerer lengden på den genererte teksten, med et høyere antall som tillater mer detaljerte beskrivelser.top_p
: Kontrollerer mangfoldet av den genererte utdataen. En verdi nærmere 1.0 inkluderer flere forskjellige muligheter, mens en lavere verdi fokuserer på de mest sannsynlige utfallene.temperature
: Kontrollerer tilfeldigheten av den genererte utdataen. Høyere verdier resulterer i mer tilfeldige utdataer, mens lavere verdier gjør utdataen mer deterministisk.conversation
(valgfritt): Tidligere samtalekontekst. Dette lar modellen fortsette fra tidligere interaksjoner, og opprettholder kontekst og sammenheng.OMOST_CONVERSATION
: Samtaleloggen, inkludert det nye svaret. Dette hjelper med å spore dialogen og opprettholde kontekst på tvers av flere interaksjoner.OMOST_CANVAS_CONDITIONING
: De genererte Canvas conditioning-parametrene for rendering. Disse parameterne definerer hvordan elementene er plassert og beskrevet på Canvas.canvas_conds
: Canvas conditioning-parametrene. Disse parameterne inkluderer detaljerte beskrivelser og posisjoner av elementer på Canvas.IMAGE
: Det gjengitte bildet basert på Canvas conditioning. Denne utdataen er den visuelle representasjonen av den beskrevne scenen, generert fra conditioning-parametrene.canvas_conds
: Canvas conditioning-parametrene.clip
: CLIP-modellen for tekstkoding. Denne modellen koder tekstbeskrivelsene til vektorer som kan brukes av bildegeneratoren.global_strength
: Styrken på den globale conditioning. Dette kontrollerer hvor sterkt den overordnede beskrivelsen påvirker bildet.region_strength
: Styrken på den regionale conditioning. Dette kontrollerer hvor sterkt de spesifikke regionale beskrivelsene påvirker sine respektive områder.overlap_method
: Metoden for å håndtere overlappende områder (f.eks., overlay
, average
). Dette definerer hvordan overlappende regioner skal blandes i bildet.positive
(valgfritt): Ytterligere positiv conditioning. Dette kan inkludere ekstra prompts eller betingelser for å forbedre spesifikke aspekter av bildet.CONDITIONING
: Conditioning-parametrene for bildegenerering. Disse parameterne veileder bildegenereringsprosessen og sikrer at utdataen matcher den beskrevne scenen.MASK
: Masken brukt for conditioning. Dette hjelper med feilsøking og anvendelse av ytterligere betingelser på spesifikke regioner.json_str
: JSON-strengen som representerer Canvas conditioning-parametrene. Dette lar deg laste forhåndsdefinerte betingelser fra en JSON-fil.OMOST_CANVAS_CONDITIONING
: De lastede Canvas conditioning-parametrene. Disse parameterne initialiserer Canvas med spesifikke betingelser, klar for bildegenerering.© Opphavsrett 2024 RunComfy. Alle Rettigheter Forbeholdt.