Une des utilisations les plus impressionnantes et les plus populaires de la génération d’image par IA est la création de personnes et de portrait réalistes. Stable Diffusion est en effet capable de créer des portraits aussi réalistes que de véritables photos - et on ne compte plus le nombre d’images générées par l’IA qui sont passées pour vraies aux yeux du public.
Voyons ensemble comment utiliser Stable Diffusion XL pour créer des photos plus vraies que nature. Nous commencerons par voir comment écrire un prompt optimisé pour des photos réalistes avant de passer en revue quelques modèles photoréalistes qui améliorent les résultats de SDXL.
Générer des portraits photoréalistes
Prompts photoréalistes
Prompt de départ
Le prompt est la base de la génération d’image avec Stable Diffusion. Pour une photo, comme pour n’importe quelle image, il faut donc commencer avec une description de ce que vous souhaitez.
Stable Diffusion XL n’a pas besoin d’un prompt long et complexe pour créer des images intéressantes. Nous pouvons donc commencer avec un prompt assez simple comme celui-ci :
Portrait of a blond woman wearing a white shirt
Réglage pour la génération dans Automatic1111
Sauf mention contraire, toutes les images de cet article ont été généré avec les réglages suivants :
- Sampler : DPM++ 2S a Karras
- Steps : 50 steps
- CFG Scale : 7
- Dimensions : 832x1216
Même si l’image générée est de type photo, le prompt gagne être directement amélioré pour mentionner que c’est bien un rendu photographique que nous souhaitons.
Selon votre prompt, utiliser simplement les mots clefs photo ou photographic au début de votre prompt. Ce simple ajout va en effet déjà améliorer le résultat comme vous le voyez ci-dessous.
Et pourquoi pas photorealistic ?
Il serait tentant d’ajouter le mot photoréaliste à notre prompt. Mais quand on y pense, personne n’utilise ce mot pour décrire une véritable photo. Au contraire, il est utilisé pour décrire des images qui ne sont pas des photos mais qui y ressemble : Animation 3D, peinture,… Et comme nous ne voulons pas obtenir ce genre d’images, il vaut mieux s’abstenir d’utiliser ce mot clef.
Negative prompt
Stable Diffusion XL utilise également un Negative prompt qui permet d’indiquer des mots clefs correspondant à ce que vous ne souhaitez pas voir apparaitre dans votre image.
Comme nous voulons une photo, nous allons indiquer en mots clefs négatif les autres types d’images que nous ne souhaitons pas obtenir :
illustration, cartoon, anime, 3d render, painting, crayon, sketch, graphite, impressionist, unreal engine
Essayons cet prompt négatif en gardant les prompts précédents et leurs seeds :
Pour en savoir plus sur ce sujet, consultez également notre article sur le prompt négatif dans Stable Diffusion.
Mos clés photos
Nous pouvons encore aller un cran plus loin en ajoutant un ou plusieurs mots clefs utilisé pour décrire les photos et qui vont orienter encore plus Stable Diffusion XL vers un rendu photographique tout définissant plus précisément l’image et le résultat final.
Pour tous les mots clef ci-dessous, nous avons utilisé les mêmes prompts et seed, en ajoutant uniquement un mot clef - cela permet de voir à quel point il influence (ou non) la photo et son réalisme.
- L’éclairage est un élément clef en photographie et les photographes ont depuis longtemps appris à le maitriser. C’est souvent la qualité de l’éclairage qui fait la bonne photo. Stable Diffusion reconnait de nombreux type d’éclairage que vous pouvez utiliser dans votre prompt - inspirez-vous directement des conseils pour photographes pour trouver des éclairages à utiliser dans vos prompts
- Certains appareils photos, modernes ou anciens ont un style bien a eux. Et évidemment, utiliser ces appareils comme mot clef peut orienter la manière dont Stable Diffusion XL va créer ses images et apporter à la fois style et réalisme à vos photos IA.
- De la même manière, les types de film photo ou des techniques de développement auront une influence assez intéressante sur les résultats. Cela influence également l’époque de la photo et des éléments qui la composent.
- Vous pouvez aussi changé l’image obtenue en indiquant la distance focale de l’objectif. Ce paramètre dépendant très souvent du type de photo que le photographe veut obtenir, il aura facilement une influence sur différents aspects de l’image comme sa composition, la pose du modèle, l’éclairage,…
- Même pour les portaits, il existe différents cadrages : du plus rapproché (close-up) au plein pied (full body) en passant par le portait en plan taille (down to the waist).
- Enfin, si vous connaissez un peu la photo, n’hésitez pas à tester et utiliser d’autres mots clefs issus du monde de la photographie : Mise au point, profondeur de champs, ouverture, exposition, balance des blancs,…
Autres mots clés
En plus du vocabulaire et des mots clefs propres à la photographie, d’autres mots clefs peuvent améliorer la qualité des images générés et leur donne un aspect encore plus réaliste. En voici quelques uns.
- L’apparence et la texture de la peau est un détail qui trahis souvent les images artificielles (IA ou 3D). Pour palier à cela, plusieurs mots clefs peuvent être utilisés (et même combinés) pour améliorer cet aspect dans vos photos : skin pores, highly detailed skin, skin details. Mentionner quelques défaut peut aussi éviter la génération d’une peau trop parfaite pour être réelles : skin blemished, freckles, wrinkles…
- Le prompt peut aussi servir à diriger le regard de votre sujet : doit il regarder vers la caméra ou plutôt dans le lointain ?
- Mentionner le nom d’un photographe, d’un studio ou d’un style photographique peut également renforcer l’aspect et le réalisme de votre photo.
- Pensez aussi à ajouter des détails à vos photos en les spécifiants dans votre prompt. Les photographes utilsient souvent des Props - des objets ou éléments physiques ajoutés à un décor pour un effet stylistique ou émotionnel. Et là, votre imagination est votre seule limite !
Exemples de prompt complets
En mélangeant plusieurs de ces éléments et concepts, nous pouvons composer des prompts complets à même de générer des portraits photo réalistes avec Stable Diffusion XL. Voici quelques exemples :
Modèles photoréalistes
L’une des forces de Stable Diffusion, c’est la possibilité qu’il offre d’entrainer et créer des modèles qui vont changer la manière dont il génère des images. Déjà avec la version 1.5, certains checkpoints ou LoRA permettaient d’améliorer le photoréalisme des images. C’est évidemment le cas avec SDXL pour lequel plusieurs modèles ont été créés pour des photos encore plus réalistes.
Voyons ensemble quelques un de ces modèles et comment ils peuvent être utilisés pour créer des photos.
RealVisXL
Ce modèle est en fait une fusion de plusieurs autres modèles SDXL photoréalistes - une manière d’essayer de combiner le meilleur des plusieurs modèles intéressant.
Officiellement encore en phase de test et de création, RealVisXL donne déjà d’excellent résultats et fonctionne très bien pour créer des photo plus vraies que nature. Un de ses avantages est qu’il génère des visages moins “parfaits”, ce qui évite de générer des portraits avec un look trop magazine ou top modèles.
Son créateur recommande d’utiliser un prompt négatif comme celui ci-dessous et d’utiliser le sampler DPM++ SDE Karras avec 30 à 50 steps.
(worst quality, low quality, illustration, 3d, 2d, painting, cartoons, sketch), open mouth
En utilisant ces paramètres et des prompts comme ceux mis au point plus haut dans cet article, vous obtiendrez des résultats plutôt bluffant comme ceux-ci.
Realistic Stock Photo
Ce checkpoint mélange la fusion d’autre modèles avec une entrainement spécifique à partir de photos issues de banques d’images. Le résultats est un modèle plutôt efficace, surtout pour les portrait serrés de personnes “normale”.
L’auteur recommande de diminuer le cfg scale à 3 pour les closes-up. J’ai également diminuer le nombre de Steps pour certains tests, sans constater de grosses différences. Par contre, même les exemples sur Civitai n’utilisent pas toujours de Prompt Negatif j’ai conservé le prompt négatif - plus par habitude qu’autre chose.
Copax TimeLessXL
TimeLessXL est un modèle très complet, entrainé pour générer non seulement des images réalistes mais aussi dans une variété de styles et de genre.
L’auteur recommande d’utiliser le prompt négatif suivant que nous allons donc utiliser pour nos tests.
painting, drawing, sketch, cartoon, anime, manga, render, CG, 3d, watermark, signature, label, long neck, misaligned eyes, teeth
Realities Edge XL
Ce modèle promet ni plus ni moins que le meilleur photoréalisme SDXL. Pour cela, il entend améliorer principalement le manque de détails et de texture du modèle de base. Il corrige également les défauts d’anatomie régulièrement commis pas SDXL et cherche à proposer une plus grande variété ethnique.
Pour ma part, je ne suis pas certains sur sur des portrait en gros plan, les texture soient meilleure qu’avec les autres modèles.
Bien que l’auteur recommande le sample DPM+ 3M SDE Karras, mes tests avec d’autres samplers sont bons également.
Des photos réalistes avec SDXL
Comme nous l'avons vu, il est désormais possible de créer des portraits photoréalistes d'une qualité époustouflante. Ces avancées ne remplacent pas la véritable photographie, mais offrent une nouvelle palette d'outils pour ceux qui cherchent à innover, expérimenter ou même combler des lacunes dans leurs projets.
Si le choix du prompt et du modèle sont déterminants pour obtenir des bons résultats, ce qui fera la véritable différence et rendra vos images uniques, c’est la manière dont vous allez pensez vos images, leurs sujets et leurs compositions avant d’utiliser ces techniques pour les créer. Stable Diffusion XL peut en effet générer la photo pour vous, mais il ne peut pas l’imaginer à votre place.
Ecrit par