Sommaire
- Les diffèrents types de modèles
- Modèles de base
- Modèles fine-tunés
- Qu'est-ce que le fine-tuning ?
- Pourquoi les gens les créent-ils ?
- Comment sont-ils créés ?
- Les principaux modèles pour Stable Diffusion
- Modèles de base
- Stable Diffusion 3
- Stable Diffusion XL
- SDXL Turbo
- Stable Diffusion 2.0 et 2.1
- Stable Diffusion 1.5
- Stable Diffusion 1.4
- Modèles fine-tunés
- Copax TimeLessXL (SDXL)
- blue_pencil-XL (SDXL)
- DynaVision XL (SDXL)
- Open Journey (SD 1.5)
- Anything V3 (SD 1.5)
- Arcane Diffusion (SD 1.5)
- Woolitize Diffusion (SD 1.5)
- Dreamshaper (SD 1.5)
- Deliberate (SD 1.5)
- Où trouver plus de modèles ?
- Comment utiliser ces modèles ?
Les modèles, également appelés checkpoints (ou points de contrôle en français), sont des fichiers créés suite à un entraînement de Stable Diffusion partir d’images spécifiques.
Ces modèles peuvent être adaptés à un style, un genre ou un sujet particulier, mais il existe des modèles génériques, capables de générer toutes sortes d'images. Ce que les modèles peuvent générer dépend donc des données utilisées pour les entraîner : les images et textes qui y sont associés vont en effet déterminer ce que le modèle pourra représenté et les mots clefs qu’il reconnaitra.
Les diffèrents types de modèles
Modèles de base
Ce sont les principaux modèles utilisé par Stable Diffusion, ceux qui ont été créé à partir d’un très très grand nombre d’images et qui forment la base de la capacité de création d’images.
Comme ces modèles demandent énormément d’images pour être créés, il n’y en a pas beaucoup de diffèrents. Les plus connus sont ceux publiés par la société qui a créé Stable Diffusion : Stablity AI - En général, ce sont d’ailleurs de ces modèles que l’on parle quand on parle de Stable Diffusion.
Il y a actuellement 5 modèles de base : 1.4, 1.5, 2.0 et 2.1, SDXL, SDXL Turbo et 3. Nous les détaillons plus loin dans cet article mais sachez déjà qu’il y a d’importantes différences entre chaque génération.
Modèles fine-tunés
Qu'est-ce que le fine-tuning ?
Le fine-tuning est une technique courante en apprentissage automatique qui consiste à prendre un modèle déjà entraîné sur un large ensemble de données, et à l'entraîner un peu plus sur un ensemble de données spécifiques.
Un modèle fine-tuné sera ainsi “biaisé” vers la génération d'images similaires à celles utilisées pour cet entrainement, tout en conservant la polyvalence du modèle d'origine.
Pourquoi les gens les créent-ils ?
Les modèles de base de Stable Diffusion sont excellents mais ils ne conviennent pas pour tout.
Par exemple, ils peuvent générer des images de style manga ou anime avec le mot-clé "anime" dans le prompt. Mais il est plus difficile de les utiliser de manière éffiace pour sous-genre d'anime (chibbi, shonen, kodomo). Au lieu de passer du temps à peaufiner des prompts complexes pour des cas aussi spécifiques, on peut fine-tuner le modèle avec des images pour ces sous-genre.
De même, les modèles de bases connaissent de nombreuses célébrités et des personnages américains ou mondialement connus comme Ryan Reynolds ou Harry Potter, mais sont en général moins efficaces pour des célébrités plus locales comme Hanouna ou des fictions moins populaires. Le fine-tuning peut être utilisé pour leur “apprendre” qui sont ces personnages.
Comment sont-ils créés ?
Il existe quatre principales méthodes de fine-tuning : l'entraînement supplémentaire, Dreambooth, l’inversion textuelle et les LoRAs. Elles reposent toute sur un modèle de base de Stable Diffusion comme le 1.5 ou SDXL.
- L'entraînement supplémentaire est réalisé en entraînant un modèle de base avec un ensemble de données supplémentaire qui vous intéresse. Par exemple, vous pouvez entraîner Stable Diffusion v1.5 avec un ensemble de données supplémentaire de voitures vintage pour biaiser l'esthétique des voitures vers le sous-genre. Cet entrainement génère un nouveau modèle sous la forme d’un fichier checkpoints. C’est essentiellement de ce type de fine-tuning dont nous parlerons dans la suite de cet article.
- Dreambooth est une technique développée à l'origine par Google qui permet d'injecter des sujets personnalisés dans les modèles texte-image. Il fonctionne avec aussi peu que 3 à 5 images personnalisées. Cette méthode a été popularisé très rapidement car c’est elle qui a permit la création des premiers services permettant de créer des avatars personnalisés avec l’IA : Vous pouvez prendre quelques photos de vous-même et utiliser Dreambooth pour vous insérer dans le modèle. Son principal inconvenient est qu’en ajoutant de nouvelles données au modèle existant, le fichier checkpoint qui en résulte peut devenir très lourd (5Gb ou plus).
- Une autre technique de fine-tuning plus récente est appelée inversion textuelle (textuel inversion en anglais, aussi appelée embedding). L'objectif est similaire à Dreambooth : injecter un sujet personnalisé dans le modèle avec seulement quelques exemples pour lequel on crée un nouveau mot-clé unique. Avec cette méthode, seul la partie textuelle du modèle est fine-tunée, tout en conservant le reste du modèle inchangé. En d’autres termes, il s'agit d'apprendre au modèle la signification d’un nouveau mot, sans modifier les concepts visuels qu’il connait déjà. Son gros avantages est qu’il génères des fichiers complémentaires au modéle lui-même. Ces fichiers sont beaucoup plus léger à échanger et peuvent, parfois, fonctionner avec d’autres modèles que celui de départ.
- LoRA (pour Low-Rank Adaptation) désigne une technique mathématique utilisée pour réduire le nombre de paramètres qui doivent être entraînés lors du fine-tuning des modèles. Elle fonctionne en créant une différence de modèle au lieu de sauvegarder le modèle entier. Les fichiers LoRA sont donc encore plus petits et faciles à échanger que les embedding.
Cet article est cependant dédiés aux fichiers checkpoint, qu’on appèle simplement modèle. Les fichiers d’inversion textuelle et LoRAs sont des cas différents qui ne s’utilisent pas de la même façons et nous en parlerons dans d’autres articles.
Apprenez en plus sur les LoRAs et leur utilisation dans notre Guide des LoRAs
Les principaux modèles pour Stable Diffusion
Modèles de base
Stable Diffusion 3
Stable Diffusion 3 est le dernier modèle de génération d’image conçu par Stability AI.
Il ne s'agit pas d'un modèle unique mais plutôt d'une série de modèles dont la taille varie considérablement. Cette gamme s'étend de 800 millions à 8 milliards de paramètres.
Consulter le Guide Stable Diffusion 3 pour tout savoir sur cette série de modèle.
Stable Diffusion XL
Stable Diffusion XL ou SDXL est un modèle de génération d'images conçu pour produire des résultats plus photoréalistes avec des images et des compositions plus détaillées par rapport aux modèles précédents, y compris la version 2.1.
Avec Stable Diffusion XL, vous pouvez créer des images plus réalistes avec une meilleure génération de visages, produire du texte lisible dans les images et obtenir des résultats plus esthétiquement plaisant en utilisant des prompts plus courtes.
Consulter le Guide SDXL pour tout savoir sur SDXL et apprendre à l’utiliser
SDXL Turbo
SDXL turbo est une version optimisée de SDXL de manière à générer des images beaucoup plus rapidement.
Le résultat est un modèle capable de générer des images en temps-réel, ou presque, avec une qualité très proche de celle du modèle de départ (SDXL). Son utilisation demande un paramétrage précis, légèrement diffèrent de celui utilisé pour des modèles standard.
Consulter le Guide SDXL Turbo pour tout savoir sur SDXL Turbo et son utilisation
Stable Diffusion 2.0 et 2.1
Stability AI a publié une nouvelle série de modèles de deuxième génération. Jusqu'à présent, les modèles 2.0 et 2.1 ont été publiés. Le principal changement dans les modèles v2 sont les suivantes :
- En plus de 512×512 pixels, une version de résolution supérieure de 768×768 pixels est disponible.
- Les images pornographiques ou érotiques ont été retirés de l'entraînement, de sorte qu’il n’est plus possible de générer des images explicites.
On pourrait croire que que tout le monde est passé aux modèles de seconde génération dès leur sortie. Cependant, la communauté des utilisateurs de Stable Diffusion a considéré que les images étaient souvent de moins bonne qualité dans le modèle 2.0 - En grande partie parce que des mots clefs qui étaient devenus communs grâce au prompt engineering comme des noms de célébrités et d’artistes ne fonctionnent pas sur ce modèle.
Le modèle 2.1 a partiellement résolu ces problèmes. Les images ont meilleure allure dès le départ et il est plus facile de générer un style artistique avec. Cependant, la plupart des gens n'ont pas complètement abandonné les modèles de première génération. Beaucoup ont utilisé le 2.1 occasionnellement mais passaient la plupart de leur temps avec les modèles de première génération.
Stable Diffusion 1.5
La version 1.5 a été publiée en octobre 2022 par Runway ML, un partenaire de Stability AI. Le modèle est basé sur la version privée 1.2 avec des entraînements supplémentaires.
La présentation ne mentionne pas vraiment quelle est l'amélioration apportée. Il produit des résultats légèrement différents par rapport de la version 1.4, mais ils ne sont pas toujours meilleurs. Comme la version 1.4, vous pouvez considérer le 1.5 comme un modèle polyvalent.
C’est un bon choix comme modèle initial qui peut être utilisée de manière pratiquement interchangeable avec le 1.4.
Pour une comparaison des résultats entre les version 1.4 et 1.5, vous pouvez consulter cette vidéo youtube (sous-titrées en francais).
Stable Diffusion 1.4
Diffusé en août 2022 par Stability AI, le modèle 1.4 est considéré comme le premier modèle publique de Stable Diffusion Stable.
C’est un modèle d’usage général. La plupart du temps, il suffit de l'utiliser tel quel pour créer des images de qualité.
Modèles fine-tunés
Copax TimeLessXL (SDXL)
TimeLessXS est un modèle générique capable de créer des images de différents types et dans différents styles - avec cependant un certain penchant pour les images de type réalistes ou photoréalistes.
blue_pencil-XL (SDXL)
Ce modèle est une fusion d’une série d’autre modèles SDXL qui donne d’intéressant résultats - principalement pour lé génération d’illustrations de type anime.
DynaVision XL (SDXL)
DynaVision XL est un modèle formé à partir d’une série d’images photoréalistes puis fusionné avec d’autres modèles et LoRA pour atteindre un rendu de type animation 3D, proche du travail de studio comme Pixar ou Dreamworks.
Open Journey (SD 1.5)
Open Journey est un modèle fine-tuné par PromptHero avec des images générées par Midjourney v4, une autre IA de génération d’image. Il a une esthétique différente et est un bon modèle polyvalent dans un style essentiellement art digital.
Les images de Midjourney sont très populaires en raison de leur esthétique, mais cette IA n’est disponible que via Discord et est payante. Openjourney se présente comme une alternative gratuite qui s'appuie sur des images préalablement générée avec Midjourney .
Note: pour utiliser au mieux ce modèle, il faut l’activer en ajoutant le mot clef
mdjrny-v4 style
au début du prompt.Anything V3 (SD 1.5)
Anything V3 est un modèle spécialisé conçu pour produire des images de style anime de haute qualité. Il a été entrainé avec des descriptions qui utilisent les tags danbooru (comme 1girl, cheveux blancs) et ceux-ci peuvent donc être utilisé dans les prompts.
C’est LE modèle pour générer des images dans un style manga ou anime et il est très largement urtilisé malgrè le mystère qui entoure sa création (on sait juste qu’il vient de Chine) et sa tendance à générer des personnages féminins fortement sexualisés.
Arcane Diffusion (SD 1.5)
Arcane Diffusion est un modèle fine-tuné à partir d’image tirée de la série Netflix Arcane. Il permet d’obtenir des images et des portraits dans le style assez marqué et esthétique de cette série à succès.
Note: pour utiliser au mieux ce modèle, il faut l’activer en ajotant le mot clef
arcane style
au début du prompt.Woolitize Diffusion (SD 1.5)
Ce modèle étrangement populaire est fine-tuné pour générer des photos d’élèments frabiqué en laine crochetée.
Note: pour utiliser au mieux ce modèle, il faut l’activer en ajotant le mot clef
woolitize
au début du prompt.Dreamshaper (SD 1.5)
Cela modèle à d’abord été créé faire de bons portraits qui ne ressemblent pas à des images de synthèse ou à des photos avec des tas de filtres, mais plutôt à de véritables peintures. Le résultat est un modèle capable de créer des portraits mais aussi de superbes paysages et des personnages dans un style plus manga.
Deliberate (SD 1.5)
Ce modèle vous donne la possibilité de créer tout ce que vous voulez. Plus vous avez de connaissances sur les instructions à donner, meilleurs seront les résultats que vous obtiendrez. Cela signifie essentiellement que vous n'obtiendrez jamais un résultat parfait avec seulement quelques mots. Vous devrez créez votre prompt avec un niveau de détail plutôt extrême pour obtenir le meilleur de ce modèle.
Où trouver plus de modèles ?
De nombreux modèles sont partagés en ligne par la communauté Stable Diffusion. Voici les deux principales ressources pour trouver des nouveaux modèles et checkpoints :
- Hugging Face, la plus grosse communauté de chercheurs, utilisateurs et créateurs d’IA a pas mal de modèles disponibles. Mais il n’est pas forcément facile d’y effectuer des recherches - surtout qu’on y trouve des modèles pour toutes sortes d’IA différentes.
- Civitai.com est lui, totalement dédié à Stable Diffusion et esty beaucoup plus simple à parcourir pour chercher et trouver des nouveaux modèles.
Comment utiliser ces modèles ?
Quand vous installez Stable Diffusion ou le faites tourner dans un Google Colab, vous installer en même temps un modèle de base. C’est le plus souvent le modèle 1.5 ou SDXL qui sont préconfigurés.
Par la suite, l’installation d’un modèle complémentaire dépends de votre installation. Comme nous recommandons l’utilisation de l’interface Automatic 1111 ou celle de Fooocus, nous allons nous concentrer sur celle-ci et vous expliquez comment utiliser un fichier de modèle avec :
Installer un modèle Stable Diffusion dans Automatic1111
- Télécharger le fichier de points de contrôle (Idéalement au format
.safetensors
, mais ce peut être un.ckpt
)
- Placer le fichier dans le repertoire
/stable-diffusion-webui/models/Stable-diffusion
de votre installation. (si vous utilisez le google colab, ce repertoire se trouve dans le repertoire /sd qui a été créé sur votre google drive)
- Lancer automatic 1111
- Cliquer sur le sélecteur en haut à gauche de l’interface pour choisir le modèle.
- Attendre que le modèle se charge.
- Voilà, vous pouvez utiliser le modèle pour générer vos images !
Installer un modèle Stable Diffusion dans Fooocus
- Télécharger le fichier de points de contrôle (Idéalement au format
.safetensors
, mais ce peut être un.ckpt
)
- Placer le fichier dans le repertoire
/models/checkpoints
de votre installation.
- Lancer Fooocus
- Cliquer sur Advanced en dessous du champs prompt pour afficher les options avancées et ouvrir l’onlget Models dans la colonne apparue à droite.
- Choisir de le modèle dans le premier sélecteur. Au besoin, cliquer sur Refresh All Files en bas pour rafraichir la liste des modèles.
- Voilà, vous pouvez utiliser le modèle pour générer vos images !
Important : Fooocus ne peut utiliser que des checkpoint basés sur SDXL - Si votre modèle n’apparait pas dans la liste, c’est probablement qu’il est basé sur une autre version.
Ecrit par