Stable Diffusion XL
Stable Diffusion XL, également connu sous le nom de SDXL, est un modèle de pointe pour la génération d'images par intelligence artificielle créé par Stability AI.
Il se distingue par sa capacité à générer des images plus réalistes, des textes lisibles, des visages photoréalistes, une meilleure composition d'image et une meilleure esthétique - tout cela en utilisant des instructions plus courtes et plus simples qu’avec les modèles précèdent.
Malgré ces progrès, SDXL suit la vision d’origine de Stability AI : faciliter la création d'images par IA pour tous, que ce soit pour les geeks enthousiastes, les artistes, ou les développeurs professionnel.
Stable Diffusion XL Online
Modifiez le prompt ci-dessous et cliquez sur le bouton Generate pour créer votre image avec SDXL.
Besoin d’inspiration ? Nous avons compilés une série de Prompts SDXL inspirants et simples à utiliser pour démarrer avec SDXL et générer des images époustouflantes.
Comment utiliser SDXL ?
Pour l’utiliser directement en ligne, ClipDrop, PlayGroundAI ou ArtBot sont parmi les générateurs d’images en ligne les plus populaires.
Si vous souhaitez installer et utiliser Stable Diffusion XL sur votre machine, il est recommandé d’utiliser une interface graphique comme Fooocus, Automatic1111 ou ComfyUI.
Enfin, il existe aussi des offres d’hébergement sur le Cloud comme Diffus ou RunDiffusion qui permettent d’utiliser Stable Diffusion XL comme si était installé sur votre propre ordinateur mais sans avoir besoin de gérer l’installation ni de disposer d’un GPU puissant.
Retrouvez dans ces articles les explications détaillées pour utiliser SDXL sur différentes plateformes :
Configuration requise
SDXL est un modèle très large et très complet - par conséquent, il requiert une puissance de calcul plus grande que la V1.5 de Stable Diffusion.
Si un minimum de 4Go est nécessaire pour le GPU, il est quand même recommandé d’utiliser une carte d’au moins 8Go - 12Go étant nécessaires pour une utilisation vraiment confortable.
→ Consultez notre article pour plus de détails sur les GPU, CPU et RAM requis pour utiliser Stable Diffusion XL sur votre ordinateur.
Conseils d’utilisations
Scott, un membre de l’équipe de Stability, à partager quelques conseils sur l’utilisation de SDXL 1.0 :
- Negative prompt : les prompts négatifs ne sont plus aussi importante qu’avec les modèle 1.5 et 2.1. De nombreux termes négatif couramment utilisés comme “extra fingers” (doigts supplémentaire) ou “bad hands” (mains ratées) sont carrément inutiles.
- Poids des mots-clés : Il n’est plus nécessaire d'utiliser un poids de mot-clé élevé comme dans les modèles précédents. De plus, diminuer le poids des mot clefs peu important est maintenant recommandé plutôt que d’augmenter celui des autres.
- Safetensor. Utilisez toujours la version .safetensor, pas la version .ckpt. Elle est plus sûre et n'exécutera pas de codes malveillant sur votre machine.
- Taille de l'image. La taille standard est de 1024×1024 mais SDXL prend en charge différentes dimensions. La qualité du résultat varie cependant avec à la taille. Voici les tailles d'images recommandées et utilisées dans DreamStudio, le générateur d'images officiel de Stability AI :
- 12:5 – 1536 x 640
- 7:4 – 1344 x 768 (proche du 16:9)
- 19:13 – 1216 x 832 (proche du 3:2)
- 7:9 – 1152 x 896
- 1:1 – 1024 x 1024
Consultez notre article complet sur les formats d’images recommandés pour SDXL
Un modèle à la pointe de la génération d’image
Qu’est ce que SDXL ?
Le modèle SDXL est l'évolution officielle du modèle v1.5. Il est diffusé en tant que logiciel open-source.
C'est un modèle beaucoup plus grand (Dans le monde des IA, cela signifie généralement meilleur) : Le nombre total de paramètres du modèle SDXL est de 6,6 milliards, contre 0,98 milliard pour le modèle v1.5.
Quelles sont les différences avec la v1.5 ?
La principale différence, c’est que SDXL se compose en réalité de deux modèles - Le modèle de base et un Refiner, un modèle de raffinement.
Le modèle de base établit la composition globale. Le Refiner ajoute ensuite les détails plus fins.
En pratique, l’utilisation de SDXL passe dont pas une double exécution : Vous exécutez d'abord le modèle de base, suivi du Refiner. Notez qu’il reste possible de n’exécuter que le modèle de base - avec déjà de très bon résultats.
Ensuite, le modèle de langage (le module qui comprend le texte du prompt) est une combinaison du modèle Open Source d’OpenClip (ViT-G/14) et du modèle CLIP ViT-L d'OpenAI. C'est un choix judicieux : Stable Diffusion v2 utilise uniquement OpenClip et est connu pour avoir du mal à bien comprendre les instructions. Le retour du CLIP d'OpenAI facilite la compréhension du langage naturel.
Le U-Net, la partie la plus cruciale du modèle de diffusion, est également 3 fois plus grand que dans les version précédentes. Associé au plus grand modèle de langage, le modèle SDXL génère des images de haute qualité correspondant étroitement au prompt.
La taille d'image par défaut de SDXL est 1024×1024. C'est 4 fois plus grand que le modèle v1.5 de 512×512.
Malgré ces différences, les instructions qui fonctionnent sur v1.5 auront de bonnes chances de fonctionner sur SDXL - et c’est une excellente nouvelle.
Comment se compare t’il aux précédentes versions ?
SDXL 1.0 est le fleuron des modèles d'images de chez Stability AI, considéré comme le meilleur modèle open source en matière de génération d'images. Les équipes de Stability l’ont mis à l'épreuve face à plusieurs autres modèles, et le verdict est sans appel - les utilisateurs préfèrent les images générées par le SDXL 1.0.
Quels sont les avantages de SDXL ?
Stable Diffusion XL est doté de plusieurs améliorations par rapport aux modèles Stable Diffusion précédents, y compris la 2.1
Des textes lisibles
L'une des différences les plus notables entre SDXL et les autres modèles de génération d'images par IA est sa capacité à générer du texte lisible.
C'est une avancée significative, car même si elle est encore imparfaite, cette fonctionnalité n'était pas disponible avec les autres modèles de génération d’image.
Une meilleure connaissance de l’anatomie
Stable Diffusion XL représente une avancée significative pour la génération d’images de personnages humains. Le modèle a été conçu pour produire des images de figures humaines avec une anatomie plus précise et réaliste. Cela signifie que les images générées par SDXL présentent des proportions corporelles correctes, des traits du visage détaillés et une représentation plus fidèle de la forme humaine.
Des prompts plus courts
SDXL comprend également beaucoup mieux les instructions courtes que les modèles précédents. Vous n'avez pas besoin de longs textes de descriptions plein de mots clefs compliqués pour obtenir les résultats souhaités - un prompt court suffit. Cette amélioration est en partie due à l'introduction de styles qui aident à guider la génération d'images.
Des styles artistiques variés
SDXL offre en effet une variété de styles pour la génération d'images. Parmi eux, on trouve : Anime, Photographique, Art numérique, Bande dessinée, Art fantastique, Film analogique, Punk néon, Isométrique, Low poly, Origami, Art de la ligne, Argile artisanale, Cinématographique, Modèle 3D et Pixel Art.
Contrôle avancé et Fine Tuning
Avec SDXL 1.0, l'adaptation du modèle à des données sur mesure (Fine Tuning) est désormais un jeu d'enfant.
Il est également possible de générer des LoRAs personnalisées ou des checkpoints plus facilement, sans devoir autant jongler les données et les paramètres qu’avec les anciens modèles.
L'équipe de Stability AI est à pied d'œuvre pour élaborer la nouvelle génération de commandes dédiées à la structure, au style et à la composition, avec des adaptations de T2I / ControlNet spécialement conçu pour SDXL. (Ces fonctionnalités sont pour l'instant en phase de Prévisualisation et de test)
Images créées avec SDXL
Voici quelques exemples d’images créées avec SDXL et partagées sur Civitai.com
Les différentes versions de SDXL
SDXL par Stability AI
Stability AI, la société qui a créé Stable Diffusion a conçus plusieurs version de SDXL, apportant chacune des améliorations au modèle :
SDXL Turbo
Il s’agit d’un nouveau modèle de génération d’image en temps réel partagé le 28 Novembre 2023.
Cette version est très différente des versions précédentes et repose sur une nouvelle technique appelée ADD qui permet la génération d’image en temps réel - sans sacrifier pour autant à la qualité des images.
SDXL Turbo est disponible en test sur clipdrop et peut également être téléchargé sur Hugging Face.
SDXL 1.0
C’est la version finale du modèle SDXL, sortie le 26 Juillet 2023.
Cette version succède donc à la version 0.9 qui était uniquement destinée à la recherche et dont les résultats avaient pourtant déjà séduit la communauté.
Le code source de SDXL 1.0 est disponible sur GitHub sous licence open source CreativeML OpenRAIL++-M
Dès sa sortie, le modèle peut être utilisée sur plusieurs plateformes, dont ClipDrop , l’API de la plateforme Stability AI, le Discord Stable Foundation, Dreamstudio, AWS SageMaker et AWS Bedrock.
SDXL 0.9
SDXL 0.9 est une sorte de version pre-release du nouveau modèle. Annoncée le 22 Juin 2023, elle bénéficie des résultat de la beta pour améliorer encore plus la qualité des images générées.
Dès son annonce, cette version de SDXL a été rendue disponible pour les tests sur plusieurs plateforme dont Dreamstudio, ClipDrop et le Discord Stable Foundation. Le modèle a aussi été partagé sur HuggingFace, d’abord en étant réservé à la recherche puis de manière ouverte.
SDXL beta
La première version de SDXL est la beta release, annoncée par Stability AI le 11 Avril 2023 et annoncée comme un nouveau modèle de génération d’image de niveau professionel avec une grande qualité photoréaliste.
Un bot a été mis en place sur le serveur Discord de Stability pour permettre aux membre de tester le modèle.
Les autres versions de SDXL
Playground v2.5
Partagé par Playground.com le 28 février 2024, ce modèle se base sur la même architecture que SDXL et fonctionne donc de la même manière. Mais il a été entrainé avec un jeu de donnée différents et en utilisant plusieurs techniques et optimisations innovantes pour atteindre un niveau de qualité supérieur.
SDXL Lightning
ByteDance a dévoilé le 20 Février 2024 cette version de SDXL optimisée pour la génération rapide et quasi-instantanée d’images en 1024x1024 pixels. Pour cela, il reprend la technique ADD utilisée pour SDXL Turbo et la combine avec d’autres technique de distillation.
Il est partagé en 4 versions (1, 2, 4 et étapes de génération) et est également disponible sous forme de LoRAs permettant d’appliquer ses optimisations à d’autres modèles fine-tunés à partir de SDXL.
Hyper-SDXL
Après SDXL-Lightning, ByteDance a partagé en Avril 2024 une autre version distillée et hyper rapide de Stable Diffusion XL, capable de générer en quasi-temps-réel des images en 1024x1024 pixels avec une qualité d’image encore améliorée.
Il est partagé sous forme de LoRAS permettant de profiter des optimisations et de la vitesse du modèle avec n’importe quel autres modèles SDXL fine-tunés.
Modèles Fine-tunés
L’une des force de Stable Diffusion XL, c’est sa disponibilité en open source qui en fait le favoris de nombreux créateurs. Il est notamment possible de reprendre le modèle d’origine et de le ré-entrainer pour améliorer ses capacités. C’est ce qu’on appelle les modèles fine-tunés qui fonctionnent comme des version alternative à SDXL tout en conservant se spropriété principales et son mode de fonctionnement.
→ Consultez notre article A la découverte des modèles Stable Diffusion pour en savoir plus sur ces modèles.