Omost, abreviação de "Sua imagem está quase pronta!", é um projeto inovador que converte as capacidades de codificação dos Modelos de Linguagem de Grande Escala (LLM) em geração de imagens, ou mais precisamente, em capacidades de composição de imagens. O nome "Omost" tem um duplo significado: implica que toda vez que você usa o Omost, sua imagem está quase completa, e também significa "omni" (multimodal) e "most" (aproveitar ao máximo).
Omost fornece modelos LLM pré-treinados que geram código para compor conteúdo visual de imagens usando o agente virtual Canvas do Omost. Este Canvas pode então ser renderizado por implementações específicas de geradores de imagens para criar as imagens finais. O Omost é projetado para simplificar e aprimorar o processo de geração de imagens, tornando-o acessível e eficiente para artistas de IA.
Omost usa um Canvas virtual onde elementos da imagem são descritos e posicionados. O Canvas é dividido em uma grade de 9x9=81 posições, permitindo colocação precisa dos elementos. Essas posições são refinadas em caixas delimitadoras, proporcionando 729 locais diferentes possíveis para cada elemento. Esta abordagem estruturada garante que os elementos sejam colocados de maneira precisa e consistente.
Elementos no Canvas recebem um parâmetro distance_to_viewer
, que ajuda a classificá-los em camadas do fundo para o primeiro plano. Este parâmetro atua como um indicador de profundidade relativa, garantindo que elementos mais próximos apareçam na frente dos que estão mais distantes. Além disso, o parâmetro HTML_web_color_name
fornece uma representação de cor grosseira para a renderização inicial, que pode ser refinada usando modelos de difusão. Esta cor inicial ajuda a visualizar a composição antes do ajuste fino.
Omost usa sub-prompts, que são breves descrições autossuficientes de elementos, para gerar composições de imagens detalhadas e coerentes. Cada sub-prompt tem menos de 75 tokens e descreve um elemento de forma independente. Esses sub-prompts são mesclados em prompts completos para o LLM processar, garantindo que as imagens geradas sejam precisas e semanticamente ricas. Este método garante que a codificação de texto seja eficiente e evita erros de truncamento semântico.
Omost implementa técnicas avançadas de manipulação de atenção para lidar com prompts regionais, garantindo que cada parte da imagem seja gerada com precisão com base nas descrições fornecidas. Técnicas como a manipulação de pontuação de atenção garantem que as ativações dentro das áreas mascaradas sejam incentivadas, enquanto as de fora sejam desencorajadas. Este controle preciso sobre a atenção resulta em uma geração de imagens de alta qualidade e específica para a região.
llm_name
: O nome do modelo LLM pré-treinado para carregar. Opções disponíveis incluem:
lllyasviel/omost-phi-3-mini-128k-8bits
lllyasviel/omost-llama-3-8b-4bits
lllyasviel/omost-dolphin-2.9-llama3-8b-4bits
Este parâmetro especifica qual modelo carregar, cada um oferecendo diferentes capacidades e otimizações.
OMOST_LLM
: O modelo LLM carregado.Esta saída fornece o LLM carregado, pronto para gerar descrições e composições de imagens.
llm
: O modelo LLM carregado pelo OmostLLMLoader
.text
: O prompt de texto para gerar uma imagem. Esta é a entrada principal onde você descreve a cena ou elementos que deseja gerar.max_new_tokens
: Número máximo de novos tokens a serem gerados. Isso controla o comprimento do texto gerado, com um número maior permitindo descrições mais detalhadas.top_p
: Controla a diversidade da saída gerada. Um valor mais próximo de 1.0 inclui mais possibilidades diversas, enquanto um valor mais baixo foca nos resultados mais prováveis.temperature
: Controla a aleatoriedade da saída gerada. Valores mais altos resultam em saídas mais aleatórias, enquanto valores mais baixos tornam a saída mais determinística.conversation
(Opcional): Contexto de conversa anterior. Isso permite que o modelo continue a partir de interações anteriores, mantendo o contexto e a coerência.OMOST_CONVERSATION
: O histórico da conversa, incluindo a nova resposta. Isso ajuda a rastrear o diálogo e manter o contexto em várias interações.OMOST_CANVAS_CONDITIONING
: Os parâmetros de condicionamento do Canvas gerado para renderização. Esses parâmetros definem como os elementos são colocados e descritos no Canvas.canvas_conds
: Os parâmetros de condicionamento do Canvas. Esses parâmetros incluem descrições detalhadas e posições dos elementos no Canvas.IMAGE
: A imagem renderizada com base no condicionamento do Canvas. Esta saída é a representação visual da cena descrita, gerada a partir dos parâmetros de condicionamento.canvas_conds
: Os parâmetros de condicionamento do Canvas.clip
: O modelo CLIP para codificação de texto. Este modelo codifica as descrições de texto em vetores que podem ser usados pelo gerador de imagens.global_strength
: A força do condicionamento global. Isso controla o quanto a descrição geral afeta a imagem.region_strength
: A força do condicionamento regional. Isso controla o quanto as descrições regionais específicas afetam suas respectivas áreas.overlap_method
: O método para lidar com áreas sobrepostas (por exemplo, overlay
, average
). Isso define como mesclar regiões sobrepostas na imagem.positive
(Opcional): Condicionamento positivo adicional. Isso pode incluir prompts ou condições extras para aprimorar aspectos específicos da imagem.CONDITIONING
: Os parâmetros de condicionamento para a geração de imagens. Esses parâmetros guiam o processo de geração de imagens, garantindo que a saída corresponda à cena descrita.MASK
: A máscara usada para o condicionamento. Isso ajuda na depuração e na aplicação de condições adicionais a regiões específicas.json_str
: A string JSON representando os parâmetros de condicionamento do Canvas. Isso permite carregar condições predefinidas de um arquivo JSON.OMOST_CANVAS_CONDITIONING
: Os parâmetros de condicionamento do Canvas carregados. Esses parâmetros inicializam o Canvas com condições específicas, pronto para a geração de imagens.© Copyright 2024 RunComfy. Todos os Direitos Reservados.