La Magie de la Transformation Texte-Image
Stable Diffusion est un outil open source puissant qui permet de transformer des descriptions textuelles en images photoréalistes ou en illustrations détaillées.
Utilisant un modèle texte2image, semblable à ceux employés par Dall-E ou MidJourney, Stable Diffusion interprète le texte entré pour générer une image basée sur ce texte grâce à l'intelligence artificielle.
Développé par la start-up Stability AI et plusieurs chercheurs académiques, Stable Diffusion est accessible à tous grâce à son code source ouvert.
Comment ca marche ?
Le modèle sous-jacent
Stable Diffusion est basé sur un modèle de diffusion latente, un type de réseau neuronal génératif profond.
Il utilise un script "texte-à-image" nécessitant des descriptions textuelles, le prompt, aussi appelées "invites", pour générer une image.
Les différentes versions de Stable Diffusion se différencient principalement par leur utilisation du modèle d'apprentissage automatique CLIP.
Tandis que Stable Diffusion 1 exploite CLIP d'OpenAI pour comprendre comment une légende peut décrire une image, Stable Diffusion 2 et XL font appel à OpenCLIP, une version open source de CLIP. De plus, il profite d'un flux de données LAION-5B, un large ensemble de données, pour améliorer la qualité des images générées.
Les trois composantes clés
Le processus de fonctionnement de Stable Diffusion implique trois composantes : un auto-encodeur variationnel (VAE), un U-Net, et un encodeur de texte optionnel.
L'encodeur VAE compresse l'image de l'espace des pixels vers un espace latent de dimension plus petite, capturant une signification sémantique plus fondamentale de l'image.
Du bruit gaussien est appliqué de manière itérative à la représentation latente compressée pendant la diffusion avant.
Le bloc U-Net, composé d'une ossature ResNet, débruite la sortie de la diffusion avant pour obtenir une représentation latente.
Enfin, le décodeur VAE génère l'image finale en convertissant la représentation en espace pixel.
Que peut faire Stable Diffusion ?
Stable Diffusion ne se limite pas à la génération d'images à partir de textes. Il peut également être appliqué à d'autres tâches comme l'inpainting, l'outpainting, la génération de traductions d'image à image guidées par une invite de texte, et même l'amélioration d'une image à partir d'une esquisse et d'une description textuelle.
En Avril 2023, Stability AI a annoncé la sortie de Stable Diffusion XL (SDXL), une version améliorée du modèle conçue spécifiquement pour les clients d'entreprise.
SDXL excelle dans le photoréalisme, produisant des images plus détaillées et une meilleure composition que son prédécesseur, Stable Diffusion 2.1. Il est capable de créer des images descriptives avec des invites plus courtes, de générer du texte lisible à l'intérieur des images, et offre une composition d'image améliorée et une génération de visages. Cela se traduit par des visuels éblouissants et une esthétique réaliste.
Bref…
Stable Diffusion est une révolution dans le domaine de la transformation texte-en-image. Avec sa capacité à produire des images photoréalistes à partir de descriptions textuelles, il offre un outil précieux pour les artistes numériques, les designers, les créateurs de contenu et bien d'autres
En plus de cela, avec la sortie de Stable Diffusion XL, les applications et les possibilités de cette technologie ne cessent de croître.
Pour en savoir plus, consulter également notre présentation complète de Stable Diffusion.
Ecrit par