Omost, afkorting voor "Your image is almost there!", is een innovatief project dat de codering van Large Language Models (LLM) omzet naar beeldgeneratie, of meer precies, beeldsamenstelling. De naam "Omost" heeft een dubbele betekenis: het impliceert dat elke keer dat u Omost gebruikt, uw beeld bijna compleet is, en het betekent ook "omni" (multimodaal) en "most" (het meeste eruit halen).
Omost biedt voorgetrainde LLM-modellen die code genereren om visuele beeldinhoud samen te stellen met behulp van Omost's virtuele Canvas-agent. Dit Canvas kan vervolgens worden gerenderd door specifieke implementaties van beeldgeneratoren om de uiteindelijke beelden te creëren. Omost is ontworpen om het beeldgeneratieproces te vereenvoudigen en te verbeteren, waardoor het toegankelijk en efficiënt wordt voor AI-kunstenaars.
Omost gebruikt een virtueel Canvas waar elementen van het beeld worden beschreven en gepositioneerd. Het Canvas is verdeeld in een raster van 9x9=81 posities, waardoor nauwkeurige plaatsing van elementen mogelijk is. Deze posities worden verder verfijnd in begrenzingsvakken, waardoor 729 verschillende mogelijke locaties voor elk element ontstaan. Deze gestructureerde aanpak zorgt ervoor dat elementen nauwkeurig en consistent worden geplaatst.
Elementen op het Canvas krijgen een distance_to_viewer
-parameter toegewezen, die helpt ze te sorteren in lagen van achtergrond naar voorgrond. Deze parameter fungeert als een relatieve diepte-indicator, waardoor dichterbij gelegen elementen voor die verder weg verschijnen. Daarnaast biedt de HTML_web_color_name
-parameter een grove kleurweergave voor de eerste rendering, die verfijnd kan worden met behulp van diffusie-modellen. Deze eerste kleur helpt bij het visualiseren van de compositie vóór het verfijnen.
Omost gebruikt sub-prompts, die korte, op zichzelf staande beschrijvingen van elementen zijn, om gedetailleerde en samenhangende beeldcomposities te genereren. Elke sub-prompt is minder dan 75 tokens en beschrijft een element onafhankelijk. Deze sub-prompts worden samengevoegd tot complete prompts voor de LLM om te verwerken, waardoor de gegenereerde beelden nauwkeurig en semantisch rijk zijn. Deze methode zorgt ervoor dat de tekstcodering efficiënt is en semantische truncatiefouten vermijdt.
Omost implementeert geavanceerde aandachtmanipulatietechnieken om regionale prompts te verwerken, waardoor elk deel van het beeld nauwkeurig wordt gegenereerd op basis van de gegeven beschrijvingen. Technieken zoals manipulatie van aandachtsscores zorgen ervoor dat de activaties binnen gemaskeerde gebieden worden gestimuleerd, terwijl die daarbuiten worden ontmoedigd. Deze precieze controle over aandacht resulteert in hoogwaardige, regi-specifieke beeldgeneratie.
llm_name
: De naam van het voorgetrainde LLM-model om te laden. Beschikbare opties zijn onder andere:
lllyasviel/omost-phi-3-mini-128k-8bits
lllyasviel/omost-llama-3-8b-4bits
lllyasviel/omost-dolphin-2.9-llama3-8b-4bits
Deze parameter specificeert welk model moet worden geladen, elk met verschillende mogelijkheden en optimalisaties.
OMOST_LLM
: Het geladen LLM-model.Deze uitvoer biedt het geladen LLM, klaar om beeldbeschrijvingen en composities te genereren.
llm
: Het LLM-model geladen door de OmostLLMLoader
.text
: De tekstprompt om een beeld te genereren. Dit is de belangrijkste invoer waar u de scène of elementen beschrijft die u wilt genereren.max_new_tokens
: Maximum aantal nieuwe tokens om te genereren. Dit bepaalt de lengte van de gegenereerde tekst, waarbij een hoger aantal gedetailleerdere beschrijvingen mogelijk maakt.top_p
: Bepaalt de diversiteit van de gegenereerde uitvoer. Een waarde dichter bij 1.0 omvat meer diverse mogelijkheden, terwijl een lagere waarde zich richt op de meest waarschijnlijke uitkomsten.temperature
: Bepaalt de willekeurigheid van de gegenereerde uitvoer. Hogere waarden resulteren in meer willekeurige uitvoer, terwijl lagere waarden de uitvoer meer deterministisch maken.conversation
(Optional): Vorige gesprekcontext. Dit stelt het model in staat om door te gaan met eerdere interacties, waardoor context en samenhang behouden blijven.OMOST_CONVERSATION
: De gespreksgeschiedenis, inclusief de nieuwe reactie. Dit helpt bij het volgen van de dialoog en het behouden van context over meerdere interacties.OMOST_CANVAS_CONDITIONING
: De gegenereerde Canvas-conditioneringsparameters voor rendering. Deze parameters bepalen hoe de elementen op het Canvas worden geplaatst en beschreven.canvas_conds
: De Canvas-conditioneringsparameters. Deze parameters omvatten gedetailleerde beschrijvingen en posities van elementen op het Canvas.IMAGE
: Het gerenderde beeld op basis van de Canvas-conditionering. Deze uitvoer is de visuele weergave van de beschreven scène, gegenereerd uit de conditioneringsparameters.canvas_conds
: De Canvas-conditioneringsparameters.clip
: Het CLIP-model voor tekstcodering. Dit model codeert de tekstbeschrijvingen in vectoren die door de beeldgenerator kunnen worden gebruikt.global_strength
: De sterkte van de globale conditionering. Dit bepaalt hoe sterk de algemene beschrijving het beeld beïnvloedt.region_strength
: De sterkte van de regionale conditionering. Dit bepaalt hoe sterk de specifieke regionale beschrijvingen hun respectieve gebieden beïnvloeden.overlap_method
: De methode om overlappende gebieden te verwerken (bijv. overlay
, average
). Dit bepaalt hoe overlappende gebieden in het beeld worden gemengd.positive
(Optional): Extra positieve conditionering. Dit kan extra prompts of voorwaarden omvatten om specifieke aspecten van het beeld te verbeteren.CONDITIONING
: De conditioneringsparameters voor beeldgeneratie. Deze parameters leiden het beeldgeneratieproces, waardoor de uitvoer overeenkomt met de beschreven scène.MASK
: Het masker dat wordt gebruikt voor de conditionering. Dit helpt bij het debuggen en het toepassen van extra voorwaarden op specifieke gebieden.json_str
: De JSON-string die de Canvas-conditioneringsparameters vertegenwoordigt. Dit maakt het mogelijk om vooraf gedefinieerde condities uit een JSON-bestand te laden.OMOST_CANVAS_CONDITIONING
: De geladen Canvas-conditioneringsparameters. Deze parameters initialiseren het Canvas met specifieke condities, klaar voor beeldgeneratie.© Copyright 2024 RunComfy. Alle Rechten Voorbehouden.