Updated: 5/17/2024
Bonjour, artistes AI ! 👋 Bienvenue dans notre tutoriel convivial pour les débutants sur ComfyUI, un outil incroyablement puissant et flexible pour créer de magnifiques œuvres d'art générées par l'IA. 🎨 Dans ce guide, nous vous guiderons à travers les bases de ComfyUI, explorerons ses fonctionnalités et vous aiderons à libérer son potentiel pour amener votre art AI au niveau supérieur. 🚀
Nous couvrirons :
ComfyUI, c'est comme avoir une baguette magique 🪄 pour créer facilement de superbes œuvres d'art générées par l'IA. À la base, ComfyUI est une interface utilisateur graphique (GUI) basée sur des nœuds construite au-dessus de Stable Diffusion, un modèle d'apprentissage profond à la pointe de la technologie qui génère des images à partir de descriptions textuelles. 🌟 Mais ce qui rend ComfyUI vraiment spécial, c'est la façon dont il permet aux artistes comme vous de libérer votre créativité et de donner vie à vos idées les plus folles.
Imaginez un canevas numérique où vous pouvez construire vos propres workflows uniques de génération d'images en connectant différents nœuds, chacun représentant une fonction ou une opération spécifique. 🧩 C'est comme bâtir une recette visuelle pour vos chefs-d'œuvre générés par l'IA !
Vous voulez générer une image à partir de zéro en utilisant une invite textuelle ? Il y a un nœud pour ça ! Vous devez appliquer un échantillonneur spécifique ou ajuster le niveau de bruit ? Ajoutez simplement les nœuds correspondants et regardez la magie opérer. ✨
Mais voici la meilleure partie : ComfyUI décompose le workflow en éléments réarrangeables, vous donnant la liberté de créer vos propres workflows personnalisés adaptés à votre vision artistique. 🖼️ C'est comme avoir une boîte à outils personnalisée qui s'adapte à votre processus créatif.
AUTOMATIC1111 est l'interface graphique par défaut pour Stable Diffusion. Alors, devriez-vous utiliser ComfyUI à la place ? Comparons :
✅ Avantages de l'utilisation de ComfyUI :
❌ Inconvénients de l'utilisation de ComfyUI :
Nous pensons que la meilleure façon d'apprendre ComfyUI est de se plonger dans des exemples et d'en faire l'expérience directement. 🙌 C'est pourquoi nous avons créé ce tutoriel unique qui se distingue des autres. Dans ce tutoriel, vous trouverez un guide détaillé étape par étape que vous pourrez suivre.
Mais voici la meilleure partie : 🌟 Nous avons intégré ComfyUI directement dans cette page web ! Vous pourrez interagir avec des exemples ComfyUI en temps réel tout au long du guide.🌟 Plongeons-nous dedans !
Commençons par le cas le plus simple : générer une image à partir d'un texte. Cliquez sur Queue Prompt pour exécuter le workflow. Après une courte attente, vous devriez voir votre première image générée ! Pour vérifier votre file d'attente, cliquez simplement sur View Queue.
Voici un workflow texte-à-image par défaut à essayer :
Le workflow ComfyUI se compose de deux blocs de construction de base : les nœuds et les arêtes.
Tout d'abord, sélectionnez un modèle Stable Diffusion Checkpoint dans le nœud Load Checkpoint. Cliquez sur le nom du modèle pour voir les modèles disponibles. Si cliquer sur le nom du modèle ne fait rien, vous devrez peut-être télécharger un modèle personnalisé.
Vous verrez deux nœuds étiquetés CLIP Text Encode (Prompt). L'invite du haut est connectée à l'entrée positive du nœud KSampler, tandis que l'invite du bas est connectée à l'entrée négative. Entrez donc votre invite positive dans celle du haut et votre invite négative dans celle du bas.
Le nœud CLIP Text Encode convertit l'invite en jetons et les encode en embeddings à l'aide de l'encodeur de texte.
💡 Astuce : Utilisez la syntaxe (mot-clé:poids) pour contrôler le poids d'un mot-clé, par exemple, (mot-clé:1.2) pour augmenter son effet ou (mot-clé:0.8) pour le diminuer.
Cliquez sur Queue Prompt pour exécuter le workflow. Après une courte attente, votre première image sera générée !
La puissance de ComfyUI réside dans sa configurabilité. Comprendre ce que fait chaque nœud vous permet de les adapter à vos besoins. Mais avant de plonger dans les détails, jetons un coup d'œil au processus Stable Diffusion pour mieux comprendre le fonctionnement de ComfyUI.
Le processus Stable Diffusion peut être résumé en trois étapes principales :
Maintenant que nous avons une compréhension de haut niveau du processus Stable Diffusion, plongeons dans les composants et nœuds clés de ComfyUI qui rendent ce processus possible.
Le nœud Load Checkpoint dans ComfyUI est crucial pour sélectionner un modèle Stable Diffusion. Un modèle Stable Diffusion se compose de trois composants principaux : MODEL, CLIP et VAE. Explorons chaque composant et sa relation avec les nœuds correspondants dans ComfyUI.
Il est important de noter que le VAE est un composant distinct du modèle de langage CLIP. Alors que CLIP se concentre sur le traitement des invites textuelles, le VAE s'occupe de la conversion entre les espaces pixel et latent.
Le nœud CLIP Text Encode dans ComfyUI est responsable de la prise des invites fournies par l'utilisateur et de leur transmission au modèle de langage CLIP. CLIP est un puissant modèle de langage qui comprend le sens sémantique des mots et peut les associer à des concepts visuels. Lorsqu'une invite est saisie dans le nœud CLIP Text Encode, elle subit un processus de transformation où chaque mot est converti en embeddings. Ces embeddings sont des vecteurs de haute dimension qui capturent les informations sémantiques des mots. En transformant les invites en embeddings, CLIP permet au MODEL de générer des images qui reflètent fidèlement le sens et l'intention des invites données.
Dans le processus texte-à-image, la génération commence par une image aléatoire dans l'espace latent. Cette image aléatoire sert d'état initial avec lequel le MODEL travaille. La taille de l'image latente est proportionnelle à la taille réelle de l'image dans l'espace pixel. Dans ComfyUI, vous pouvez ajuster la hauteur et la largeur de l'image latente pour contrôler la taille de l'image générée. De plus, vous pouvez définir la taille du batch pour déterminer le nombre d'images générées à chaque exécution.
Les tailles optimales pour les images latentes dépendent du modèle Stable Diffusion spécifique utilisé. Pour les modèles SD v1.5, les tailles recommandées sont 512x512 ou 768x768, tandis que pour les modèles SDXL, la taille optimale est 1024x1024. ComfyUI offre une gamme de formats d'image courants parmi lesquels choisir, tels que 1:1 (carré), 3:2 (paysage), 2:3 (portrait), 4:3 (paysage), 3:4 (portrait), 16:9 (écran large) et 9:16 (vertical). Il est important de noter que la largeur et la hauteur de l'image latente doivent être divisibles par 8 pour assurer la compatibilité avec l'architecture du modèle.
Le VAE (Variational AutoEncoder) est un composant crucial dans le modèle Stable Diffusion qui gère la conversion des images entre l'espace pixel et l'espace latent. Il se compose de deux parties principales : un encodeur d'image et un décodeur d'image.
L'encodeur d'image prend une image dans l'espace pixel et la compresse en une représentation latente de dimension inférieure. Ce processus de compression réduit considérablement la taille des données, permettant un traitement et un stockage plus efficaces. Par exemple, une image de taille 512x512 pixels peut être compressée en une représentation latente de taille 64x64.
D'autre part, le décodeur d'image, également appelé décodeur VAE, est responsable de la reconstruction de l'image à partir de la représentation latente dans l'espace pixel. Il prend la représentation latente compressée et l'étend pour générer l'image finale.
L'utilisation d'un VAE offre plusieurs avantages :
Cependant, il y a aussi quelques inconvénients à prendre en compte :
Malgré ces limitations, le VAE joue un rôle essentiel dans le modèle Stable Diffusion en permettant une conversion efficace entre l'espace pixel et l'espace latent, facilitant une génération plus rapide et un contrôle plus précis sur les images générées.
Le nœud KSampler dans ComfyUI est au cœur du processus de génération d'images dans Stable Diffusion. Il est responsable du débruitage de l'image aléatoire dans l'espace latent pour correspondre à l'invite fournie par l'utilisateur. Le KSampler utilise une technique appelée diffusion inverse, où il affine itérativement la représentation latente en supprimant le bruit et en ajoutant des détails significatifs basés sur les indications des embeddings CLIP.
Le nœud KSampler offre plusieurs paramètres qui permettent aux utilisateurs d'affiner le processus de génération d'images :
Seed : La valeur de la seed contrôle le bruit initial et la composition de l'image finale. En définissant une seed spécifique, les utilisateurs peuvent obtenir des résultats reproductibles et maintenir la cohérence entre plusieurs générations.
Control_after_generation : Ce paramètre détermine comment la valeur de la seed change après chaque génération. Il peut être réglé sur randomize (générer une nouvelle seed aléatoire pour chaque exécution), increment (augmenter la valeur de la seed de 1), decrement (diminuer la valeur de la seed de 1) ou fixed (garder la valeur de la seed constante).
Step : Le nombre d'étapes d'échantillonnage détermine l'intensité du processus de raffinement. Des valeurs plus élevées entraînent moins d'artefacts et des images plus détaillées, mais augmentent également le temps de génération.
Sampler_name : Ce paramètre permet aux utilisateurs de choisir l'algorithme d'échantillonnage spécifique utilisé par le KSampler. Différents algorithmes d'échantillonnage peuvent donner des résultats légèrement différents et avoir des vitesses de génération variables.
Scheduler : Le scheduler contrôle la façon dont le niveau de bruit change à chaque étape du processus de débruitage. Il détermine le taux auquel le bruit est supprimé de la représentation latente.
Denoise : Le paramètre denoise définit la quantité de bruit initial qui doit être effacée par le processus de débruitage. Une valeur de 1 signifie que tout le bruit sera supprimé, donnant une image propre et détaillée.
En ajustant ces paramètres, vous pouvez affiner le processus de génération d'images pour obtenir les résultats souhaités.
Chez RunComfy, nous avons créé l'expérience ComfyUI en ligne ultime rien que pour vous. Dites adieu aux installations compliquées ! 🎉 Essayez ComfyUI Online maintenant et libérez votre potentiel artistique comme jamais auparavant ! 🎉
Le workflow Image-à-Image génère une image basée sur une invite et une image d'entrée. Essayez-le vous-même !
Pour utiliser le workflow Image-à-Image :
Pour plus de workflows ComfyUI premium, visitez notre 🌟Liste des workflows ComfyUI🌟
Grâce à son extrême configurabilité, ComfyUI est l'une des premières interfaces graphiques à prendre en charge le modèle Stable Diffusion XL. Essayons-le !
Pour utiliser le workflow ComfyUI SDXL :
Plongeons dans quelque chose de plus complexe : l'inpainting ! Lorsque vous avez une superbe image mais que vous souhaitez modifier des parties spécifiques, l'inpainting est la meilleure méthode. Essayez-le ici !
Pour utiliser le workflow d'inpainting :
L'outpainting est une autre technique passionnante qui vous permet d'étendre vos images au-delà de leurs limites d'origine. 🌆 C'est comme avoir une toile infinie sur laquelle travailler !
Pour utiliser le workflow Outpainting ComfyUI :
Pour plus de workflows premium d'inpainting/outpainting, visitez notre 🌟Liste des workflows ComfyUI🌟
Ensuite, explorons l'upscale ComfyUI. Nous allons introduire trois workflows fondamentaux pour vous aider à upscaler efficacement.
Il existe deux méthodes principales pour l'upscale :
Deux façons d'y parvenir :
Une autre méthode d'upscale est Upscale Latent, également connue sous le nom de Hi-res Latent Fix Upscale, qui upscale directement dans l'espace latent.
Pour plus de workflows premium de restauration/upscale, visitez notre 🌟Liste des workflows ComfyUI🌟
Préparez-vous à faire passer votre art AI au niveau supérieur avec ControlNet, une technologie révolutionnaire qui bouleverse la génération d'images !
ControlNet est comme une baguette magique 🪄 qui vous donne un contrôle sans précédent sur vos images générées par l'IA. Il travaille main dans la main avec des modèles puissants comme Stable Diffusion, améliorant leurs capacités et vous permettant de guider le processus de création d'images comme jamais auparavant !
Imaginez pouvoir spécifier les bords, les poses humaines, la profondeur ou même les cartes de segmentation de l'image souhaitée. 🌠 Avec ControlNet, vous pouvez le faire !
Si vous êtes impatient d'approfondir le monde de ControlNet et de libérer tout son potentiel, nous vous avons couverts. Consultez notre tutoriel détaillé sur la maîtrise de ControlNet dans ComfyUI ! 📚 Il est rempli de guides étape par étape et d'exemples inspirants pour vous aider à devenir un pro de ControlNet. 🏆
ComfyUI Manager est un nœud personnalisé qui vous permet d'installer et de mettre à jour d'autres nœuds personnalisés via l'interface ComfyUI. Vous trouverez le bouton Manager dans le menu Queue Prompt.
Si un workflow nécessite des nœuds personnalisés que vous n'avez pas installés, suivez ces étapes :
Double-cliquez sur n'importe quelle zone vide pour faire apparaître un menu permettant de rechercher des nœuds.
Les embeddings, également connus sous le nom d'inversion textuelle, sont une fonctionnalité puissante de ComfyUI qui vous permet d'injecter des concepts ou des styles personnalisés dans vos images générées par l'IA. 💡 C'est comme apprendre à l'IA un nouveau mot ou une nouvelle phrase et l'associer à des caractéristiques visuelles spécifiques.
Pour utiliser les embeddings dans ComfyUI, tapez simplement "embedding:" suivi du nom de votre embedding dans la boîte d'invite positive ou négative. Par exemple :
embedding: BadDream
Lorsque vous utilisez cette invite, ComfyUI recherchera un fichier d'embedding nommé "BadDream" dans le dossier ComfyUI > models > embeddings. 📂 S'il trouve une correspondance, il appliquera les caractéristiques visuelles correspondantes à votre image générée.
Les embeddings sont un excellent moyen de personnaliser votre art AI et d'obtenir des styles ou des esthétiques spécifiques. 🎨 Vous pouvez créer vos propres embeddings en les entraînant sur un ensemble d'images représentant le concept ou le style souhaité.
Se souvenir des noms exacts de vos embeddings peut être fastidieux, surtout si vous en avez une grande collection. 😅 C'est là que le nœud personnalisé ComfyUI-Custom-Scripts vient à la rescousse !
Pour activer l'autocomplétion des noms d'embedding :
Une fois le nœud ComfyUI-Custom-Scripts installé, vous bénéficierez d'une utilisation plus conviviale des embeddings. 😊 Commencez simplement à taper "embedding:" dans une boîte d'invite, et une liste des embeddings disponibles apparaîtra. Vous pourrez alors sélectionner l'embedding souhaité dans la liste, vous faisant gagner du temps et des efforts !
Saviez-vous que vous pouvez contrôler la force de vos embeddings ? 💪 Puisque les embeddings sont essentiellement des mots-clés, vous pouvez leur appliquer des poids comme vous le feriez avec des mots-clés normaux dans vos invites.
Pour ajuster le poids d'un embedding, utilisez la syntaxe suivante :
(embedding: BadDream:1.2)
Dans cet exemple, le poids de l'embedding "BadDream" est augmenté de 20%. Ainsi, des poids plus élevés (par exemple, 1.2) rendront l'embedding plus proéminent, tandis que des poids plus faibles (par exemple, 0.8) réduiront son influence. 🎚e0f Cela vous donne encore plus de contrôle sur le résultat final !
LoRA, abréviation de Low-rank Adaptation, est une autre fonctionnalité passionnante de ComfyUI qui vous permet de modifier et d'affiner vos modèles checkpoint. 🎨 C'est comme ajouter un petit modèle spécialisé au-dessus de votre modèle de base pour obtenir des styles spécifiques ou incorporer des éléments personnalisés.
Les modèles LoRA sont compacts et efficaces, ce qui les rend faciles à utiliser et à partager. Ils sont couramment utilisés pour des tâches telles que la modification du style artistique d'une image ou l'injection d'une personne ou d'un objet spécifique dans le résultat généré.
Lorsque vous appliquez un modèle LoRA à un modèle checkpoint, il modifie les composants MODEL et CLIP tout en laissant le VAE (Variational Autoencoder) intact. Cela signifie que le LoRA se concentre sur l'ajustement du contenu et du style de l'image sans altérer sa structure globale.
L'utilisation de LoRA dans ComfyUI est simple. Jetons un coup d'œil à la méthode la plus simple :
ComfyUI combinera alors le modèle checkpoint et le modèle LoRA pour créer une image qui reflète les invites spécifiées et intègre les modifications introduites par le LoRA.
Mais que faire si vous voulez appliquer plusieurs LoRAs à une seule image ? Pas de problème ! ComfyUI vous permet d'utiliser deux LoRAs ou plus dans le même workflow texte-à-image.
Le processus est similaire à l'utilisation d'un seul LoRA, mais vous devrez sélectionner plusieurs modèles LoRA au lieu d'un seul. ComfyUI appliquera les LoRAs de manière séquentielle, ce qui signifie que chaque LoRA s'appuiera sur les modifications introduites par le précédent.
Cela ouvre tout un monde de possibilités pour combiner différents styles, éléments et modifications dans vos images générées par l'IA. 🌍💡 Expérimentez différentes combinaisons de LoRAs pour obtenir des résultats uniques et créatifs !
Félicitations pour avoir terminé ce guide du débutant sur ComfyUI ! 🙌 Vous êtes maintenant prêt à plonger dans le monde passionnant de la création d'art AI. Mais pourquoi se soucier de l'installation alors que vous pouvez commencer à créer immédiatement ? 🤔
Chez RunComfy, nous avons simplifié l'utilisation de ComfyUI en ligne sans aucune configuration. Notre service ComfyUI Online est préchargé avec plus de 200 nœuds et modèles populaires, ainsi que plus de 50 workflows époustouflants pour inspirer vos créations.
🌟 Que vous soyez un débutant ou un artiste AI expérimenté, RunComfy a tout ce dont vous avez besoin pour donner vie à vos visions artistiques. 💡 N'attendez plus – essayez ComfyUI Online maintenant et découvrez la puissance de la création d'art AI au bout de vos doigts ! 🚀
© Droits d'auteur 2024 RunComfy. Tous droits réservés.