ComfyUI  >  Arbejdsgange  >  Omost | Forbedr Billedskabelse

Omost | Forbedr Billedskabelse

Omost udnytter Large Language Models til at transformere kodning til detaljerede billedkompositioner. Ved at bruge et struktureret Canvas og sofistikeret prompt engineering sikrer Omost nøjagtig og effektiv billedgenerering

ComfyUI Omost Arbejdsgang

ComfyUI Omost: Enhance Image Creation
Vil du køre denne arbejdsgang?
  • Fuldt operationelle arbejdsgange
  • Ingen manglende noder eller modeller
  • Ingen manuelle opsætninger krævet
  • Funktioner fantastiske visuals

ComfyUI Omost Eksempler

comfyui-omost-enhance-image-creation-1100

ComfyUI Omost Beskrivelse

1. Hvad er Omost?

Omost, kort for "Dit billede er næsten færdigt!", er et innovativt projekt, der omdanner Large Language Models' (LLM) kodningsevner til billedgenerering, eller mere præcist, billedkomponeringsevner. Navnet "Omost" har en dobbelt betydning: det indebærer, at hver gang du bruger Omost, er dit billede næsten færdigt, og det betyder også "omni" (multi-modal) og "most" (at få det meste ud af det).

Omost leverer prætrænede LLM-modeller, der genererer kode til at komponere billedvisuelt indhold ved hjælp af Omost's virtuelle Canvas agent. Dette Canvas kan derefter gengives af specifikke implementeringer af billedgeneratorer til at skabe de endelige billeder. Omost er designet til at forenkle og forbedre billedgenereringsprocessen, hvilket gør det tilgængeligt og effektivt for AI-kunstnere.

2. Hvordan Omost Fungerer

2.1. Canvas og Beskrivelser

Omost bruger et virtuelt Canvas, hvor elementer af billedet beskrives og placeres. Canvas er opdelt i et gitter på 9x9=81 positioner, hvilket muliggør præcis placering af elementer. Disse positioner er yderligere raffinerede til afgrænsningsbokse, hvilket giver 729 forskellige mulige placeringer for hvert element. Denne strukturerede tilgang sikrer, at elementerne placeres præcist og konsekvent.

How Omost Works

2.2. Dybde og Farve

Elementerne på Canvas tildeles en distance_to_viewer parameter, som hjælper med at sortere dem i baggrund-til-forgrund lag. Denne parameter fungerer som en relativ dybdeindikator, der sikrer, at tættere elementer vises foran dem, der er længere væk. Derudover giver HTML_web_color_name parameteren en grov farverepræsentation til den indledende rendering, som kan raffineres ved hjælp af diffusionsmodeller. Denne indledende farve hjælper med at visualisere kompositionen inden finjustering.

How Omost Works

2.3. Prompt Engineering

Omost bruger sub-prompts, som er korte, selvstændige beskrivelser af elementer, til at generere detaljerede og sammenhængende billedkompositioner. Hver sub-prompt er mindre end 75 tokens og beskriver et element uafhængigt. Disse sub-prompts flettes sammen til komplette prompts for LLM at behandle, hvilket sikrer, at de genererede billeder er præcise og semantisk rige. Denne metode sikrer, at tekstkodningen er effektiv og undgår semantiske afkortningsfejl.

2.4. Regional Prompter

Omost implementerer avancerede opmærksomhedsmanipulationsteknikker til at håndtere regionale prompts, hvilket sikrer, at hver del af billedet genereres præcist baseret på de givne beskrivelser. Teknikker som manipulation af opmærksomhedsscore sikrer, at aktiveringer inden for maskerede områder opmuntres, mens de udenfor afskrækkes. Denne præcise kontrol over opmærksomhed resulterer i høj-kvalitets, regionsspecifik billedgenerering.

3. Detaljeret Forklaring af ComfyUI Omost Noder

3.1. Omost LLM Loader Node

How Omost Works

Inputparametre for Omost LLM Loader Node

  • llm_name: Navnet på den prætrænede LLM-model, der skal indlæses. Tilgængelige muligheder inkluderer:
    • lllyasviel/omost-phi-3-mini-128k-8bits
    • lllyasviel/omost-llama-3-8b-4bits
    • lllyasviel/omost-dolphin-2.9-llama3-8b-4bits

Denne parameter specificerer, hvilken model der skal indlæses, hver med forskellige kapaciteter og optimeringer.

Outputparametre for Omost LLM Loader Node

  • OMOST_LLM: Den indlæste LLM-model.

Denne output leverer den indlæste LLM, klar til at generere billedbeskrivelser og kompositioner.

3.2. Omost LLM Chat Node

How Omost Works

Inputparametre for Omost LLM Chat Node

  • llm: LLM-modellen indlæst af OmostLLMLoader.
  • text: Tekstprompten til at generere et billede. Dette er den primære input, hvor du beskriver scenen eller elementerne, du vil generere.
  • max_new_tokens: Maksimalt antal nye tokens, der skal genereres. Dette styrer længden af den genererede tekst, hvor et højere antal tillader mere detaljerede beskrivelser.
  • top_p: Styrer diversiteten af det genererede output. En værdi tættere på 1.0 inkluderer flere forskellige muligheder, mens en lavere værdi fokuserer på de mest sandsynlige udfald.
  • temperature: Styrer tilfældigheden af det genererede output. Højere værdier resulterer i mere tilfældige outputs, mens lavere værdier gør outputtet mere deterministisk.
  • conversation (valgfri): Tidligere samtalekontekst. Dette tillader modellen at fortsætte fra tidligere interaktioner, hvilket opretholder konteksten og sammenhængen.

Outputparametre for Omost LLM Chat Node

  • OMOST_CONVERSATION: Samtalens historie, inklusive det nye svar. Dette hjælper med at spore dialogen og opretholde konteksten på tværs af flere interaktioner.
  • OMOST_CANVAS_CONDITIONING: De genererede Canvas-betingelsesparametre til rendering. Disse parametre definerer, hvordan elementerne placeres og beskrives på Canvas.

3.3. Omost Render Canvas Conditioning Node

How Omost Works

Inputparametre for Omost Render Canvas Conditioning Node

  • canvas_conds: Canvas-betingelsesparametrene. Disse parametre inkluderer detaljerede beskrivelser og positioner af elementer på Canvas.

Outputparametre for Omost Render Canvas Conditioning Node

  • IMAGE: Det renderede billede baseret på Canvas-betingelsen. Denne output er den visuelle repræsentation af den beskrevne scene, genereret fra betingelsesparametrene.

3.4. Omost Layout Cond Node

How Omost Works

Inputparametre for Omost Layout Cond Node

  • canvas_conds: Canvas-betingelsesparametrene.
  • clip: CLIP-modellen til tekstkodning. Denne model koder tekstbeskrivelserne til vektorer, der kan bruges af billedgeneratoren.
  • global_strength: Styrken af den globale betingelse. Dette styrer, hvor stærkt den overordnede beskrivelse påvirker billedet.
  • region_strength: Styrken af den regionale betingelse. Dette styrer, hvor stærkt de specifikke regionale beskrivelser påvirker deres respektive områder.
  • overlap_method: Metoden til at håndtere overlappende områder (f.eks., overlay, average). Dette definerer, hvordan man blander overlappende regioner i billedet.
  • positive (valgfri): Yderligere positiv betingelse. Dette kan inkludere ekstra prompts eller betingelser for at forbedre specifikke aspekter af billedet.

Outputparametre for Omost Layout Cond Node

  • CONDITIONING: Betingelsesparametrene for billedgenerering. Disse parametre guider billedgenereringsprocessen og sikrer, at outputtet matcher den beskrevne scene.
  • MASK: Masken, der bruges til betingelsen. Dette hjælper med debugging og anvendelse af yderligere betingelser på specifikke regioner.

3.5. Omost Load Canvas Conditioning Node

How Omost Works

Inputparametre for Omost Load Canvas Conditioning Node

  • json_str: JSON-strengen, der repræsenterer Canvas-betingelsesparametrene. Dette tillader indlæsning af foruddefinerede betingelser fra en JSON-fil.

Outputparametre for Omost Load Canvas Conditioning Node

  • OMOST_CANVAS_CONDITIONING: De indlæste Canvas-betingelsesparametre. Disse parametre initialiserer Canvas med specifikke betingelser, klar til billedgenerering.

Vil du have flere ComfyUI-arbejdsgange?

RunComfy

© Ophavsret 2024 RunComfy. Alle rettigheder forbeholdes.

RunComfy er den førende ComfyUI platform, der tilbyder ComfyUI online miljø og tjenester, sammen med ComfyUI-arbejdsgange med fantastiske visuals.