ComfyUI>Workflow>Omost | Migliora la Creazione di Immagini

Omost | Migliora la Creazione di Immagini

Workflow Name: RunComfy/Omost

Workflow ID: 0000...1100

Omost sfrutta i Large Language Models per trasformare la codifica in composizioni di immagini dettagliate. Utilizzando una Canvas strutturata e un'ingegneria dei prompt sofisticata, Omost garantisce una generazione di immagini accurata ed efficiente

1. Cos'è Omost?

Omost, abbreviazione di "La tua immagine è quasi pronta!", è un progetto innovativo che converte le capacità di codifica dei Large Language Models (LLM) in generazione di immagini, o più precisamente, in capacità di composizione di immagini. Il nome "Omost" ha un doppio significato: implica che ogni volta che usi Omost, la tua immagine è quasi completa, e significa anche "omni" (multi-modale) e "most" (ottenere il massimo).

Omost fornisce modelli LLM preaddestrati che generano codice per comporre contenuti visivi utilizzando l'agente virtuale Canvas di Omost. Questo Canvas può poi essere renderizzato da implementazioni specifiche di generatori di immagini per creare le immagini finali. Omost è progettato per semplificare e migliorare il processo di generazione di immagini, rendendolo accessibile ed efficiente per gli artisti AI.

2. Come Funziona Omost

2.1. Canvas e Descrizioni

Omost utilizza una Canvas virtuale dove gli elementi dell'immagine sono descritti e posizionati. La Canvas è divisa in una griglia di 9x9=81 posizioni, permettendo un posizionamento preciso degli elementi. Queste posizioni sono ulteriormente raffinate in riquadri di delimitazione, fornendo 729 diverse posizioni possibili per ciascun elemento. Questo approccio strutturato garantisce che gli elementi siano posizionati in modo accurato e coerente.

2.2. Profondità e Colore

Agli elementi sulla Canvas viene assegnato un parametro distance_to_viewer, che aiuta a ordinarli in livelli dal fondo al primo piano. Questo parametro funge da indicatore di profondità relativa, garantendo che gli elementi più vicini appaiano davanti a quelli più lontani. Inoltre, il parametro HTML_web_color_name fornisce una rappresentazione approssimativa del colore per il rendering iniziale, che può essere raffinata utilizzando modelli di diffusione. Questo colore iniziale aiuta a visualizzare la composizione prima della rifinitura.

2.3. Ingegneria dei Prompt

Omost utilizza sub-prompts, che sono brevi descrizioni autonome degli elementi, per generare composizioni di immagini dettagliate e coerenti. Ogni sub-prompt è inferiore a 75 token e descrive un elemento in modo indipendente. Questi sub-prompts sono uniti in prompt completi per essere elaborati dall'LLM, garantendo che le immagini generate siano accurate e semanticamente ricche. Questo metodo garantisce che la codifica del testo sia efficiente ed eviti errori di troncamento semantico.

2.4. Prompt Regionali

Omost implementa tecniche avanzate di manipolazione dell'attenzione per gestire i prompt regionali, garantendo che ogni parte dell'immagine venga generata accuratamente in base alle descrizioni fornite. Tecniche come la manipolazione dei punteggi di attenzione garantiscono che le attivazioni all'interno delle aree mascherate siano incoraggiate, mentre quelle al di fuori siano scoraggiate. Questo controllo preciso sull'attenzione si traduce in una generazione di immagini di alta qualità e specifica per regione.

3. Spiegazione Dettagliata dei Nodi di ComfyUI Omost

3.1. Nodo Omost LLM Loader

Parametri di Input del Nodo Omost LLM Loader

llm_name: Il nome del modello LLM preaddestrato da caricare. Le opzioni disponibili includono:
- lllyasviel/omost-phi-3-mini-128k-8bits
- lllyasviel/omost-llama-3-8b-4bits
- lllyasviel/omost-dolphin-2.9-llama3-8b-4bits

Questo parametro specifica quale modello caricare, ognuno offrendo diverse capacità e ottimizzazioni.

Parametri di Output del Nodo Omost LLM Loader

OMOST_LLM: Il modello LLM caricato.

Questo output fornisce l'LLM caricato, pronto per generare descrizioni e composizioni di immagini.

3.2. Nodo Omost LLM Chat

Parametri di Input del Nodo Omost LLM Chat

llm: Il modello LLM caricato dal OmostLLMLoader.
text: Il prompt di testo per generare un'immagine. Questo è l'input principale dove descrivi la scena o gli elementi che vuoi generare.
max_new_tokens: Numero massimo di nuovi token da generare. Questo controlla la lunghezza del testo generato, con un numero più alto che consente descrizioni più dettagliate.
top_p: Controlla la diversità dell'output generato. Un valore vicino a 1.0 include possibilità più diverse, mentre un valore più basso si concentra sugli esiti più probabili.
temperature: Controlla la casualità dell'output generato. Valori più alti risultano in output più casuali, mentre valori più bassi rendono l'output più deterministico.
conversation (Opzionale): Contesto della conversazione precedente. Questo permette al modello di continuare dalle interazioni precedenti, mantenendo il contesto e la coerenza.

Parametri di Output del Nodo Omost LLM Chat

OMOST_CONVERSATION: La cronologia della conversazione, inclusa la nuova risposta. Questo aiuta a tracciare il dialogo e mantenere il contesto attraverso interazioni multiple.
OMOST_CANVAS_CONDITIONING: I parametri di condizionamento del Canvas generati per il rendering. Questi parametri definiscono come gli elementi sono posizionati e descritti sulla Canvas.

3.3. Nodo Omost Render Canvas Conditioning

Parametri di Input del Nodo Omost Render Canvas Conditioning

canvas_conds: I parametri di condizionamento del Canvas. Questi parametri includono descrizioni dettagliate e posizioni degli elementi sulla Canvas.

Parametri di Output del Nodo Omost Render Canvas Conditioning

IMAGE: L'immagine renderizzata basata sul condizionamento del Canvas. Questo output è la rappresentazione visiva della scena descritta, generata dai parametri di condizionamento.

3.4. Nodo Omost Layout Cond

Parametri di Input del Nodo Omost Layout Cond

canvas_conds: I parametri di condizionamento del Canvas.
clip: Il modello CLIP per la codifica del testo. Questo modello codifica le descrizioni testuali in vettori che possono essere utilizzati dal generatore di immagini.
global_strength: La forza del condizionamento globale. Questo controlla quanto fortemente la descrizione complessiva influenza l'immagine.
region_strength: La forza del condizionamento regionale. Questo controlla quanto fortemente le descrizioni regionali specifiche influenzano le rispettive aree.
overlap_method: Il metodo per gestire le aree sovrapposte (es. overlay, average). Questo definisce come fondere le regioni sovrapposte nell'immagine.
positive (Opzionale): Condizionamento positivo aggiuntivo. Questo può includere prompt o condizioni extra per migliorare aspetti specifici dell'immagine.

Parametri di Output del Nodo Omost Layout Cond

CONDITIONING: I parametri di condizionamento per la generazione dell'immagine. Questi parametri guidano il processo di generazione dell'immagine, garantendo che l'output corrisponda alla scena descritta.
MASK: La maschera utilizzata per il condizionamento. Questo aiuta nel debugging e nell'applicazione di condizioni aggiuntive a regioni specifiche.

3.5. Nodo Omost Load Canvas Conditioning

Parametri di Input del Nodo Omost Load Canvas Conditioning

json_str: La stringa JSON che rappresenta i parametri di condizionamento del Canvas. Questo permette di caricare condizioni predefinite da un file JSON.

Parametri di Output del Nodo Omost Load Canvas Conditioning

OMOST_CANVAS_CONDITIONING: I parametri di condizionamento del Canvas caricati. Questi parametri inizializzano la Canvas con condizioni specifiche, pronti per la generazione di immagini.

Want More ComfyUI Workflows?

Wan 2.1 LoRA

Migliora la generazione video Wan 2.1 con modelli LoRA per uno stile e una personalizzazione avanzati.

Mesh Graphormer ControlNet | Correggi le mani

Mesh Graphormer ControlNet corregge le mani malformate nelle immagini preservando il resto.

IPAdapter Plus (V2) | Stile e Composizione

IPAdapter Plus consente un efficace trasferimento di stile e composizione, funzionando come un LoRA a immagine singola.

CogvideoX Fun | Modello Video-a-Video

CogVideoX Fun: Modello avanzato video-a-video per la generazione di video di alta qualità.

ComfyUI Phantom | Soggetto a Video

Generazione di video basata su riferimento utilizzando Wan2.1 14B

Wan 2.2 FLF2V | Generazione Video da Primo a Ultimo Fotogramma

Genera video fluidi da un fotogramma iniziale e finale utilizzando Wan 2.2 FLF2V.

FLUX IPAdapter V2 | XLabs

Esplora il modello XLabs FLUX IPAdapter V2 rispetto a V1 per i tuoi obiettivi creativi.

AnimateDiff + ControlNet + IPAdapter V1 | Stile Anime Giapponese

Trasforma i tuoi video in anime giapponesi affascinanti.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.